曾通过Gemini 1.5 Pro指出Sora生成视频不合理,质疑它担不起“世界模型”称号的Google,G字辈模型喜添新成员。
今天,Google DeepMind推出人工智能模型「Genie」,一个能够生成交互式视频游戏的 AI。它可以根据用户提示,将合成图像、真实照片、手绘草图或想法转换成无尽多样的,可互动、可控制动作的虚拟世界。
Google认为,现在市面上许多优秀模型都能带来新颖丰富的内容。但如果给定一个来自互联网的大量视频语料库,不仅能训练模型生成图像或视频,还可以创造完整的互动体验呢?
团队将其概括为一种全新GenAI范式:「生成式交互环境」,并称由于Genie实现了人们与想象世界的自由互动,本质上它才是真正的“基础世界模型”。
一键生成无限可玩世界
在成果演示中,研究人员将Imagen2 生成的图像作为起始帧,通过Genie赋予生命:
不仅如此,真实世界中的物体也可以自由操控:
甚至小朋友充满童真的草图,也变成了想象力无限的游戏:
Genie为生成和步入虚拟世界开启了更多新的方式,也能够启迪更广泛的内容创作者。DeepMind高级研究顾问Jeff Clune在X兴奋地分享道:
“这里实现的一个惊人之处是,任何人包括孩子们都可以绘制一个世界,然后进入其中探索它。这有多酷啊?我们用我孩子的画作测试了Genie。他们画了两只鹰,然后就可以操控着鹰到处飞。简直魔法!”
20 万小时视频训练,无需行动标签即可学习控制
在《一千零一夜》里,仅需摩擦神灯,精灵就会出来为人们实现愿望。而唤醒AI世界里的Genie,首先必须把知识和能力填充进灯里。
项目负责人Tim Rocktäschel在X上写道,与“inductive biases(归纳偏见)”不同,团队专注于规模,使用了一个包含超过 20 万小时的2D平台游戏视频数据集,来训练这个 110 亿参数的世界模型。
作为首个从未标记的互联网视频中以无监督方式训练的生成式交互环境, Genie学会了控制角色的各种潜在动作,并且保持一致性。
实现这种精细控制是一个挑战,也正是Genie的独特之处。因为互联网视频通常没有关于哪个动作正在执行,甚至哪个图像部分应该被控制的标签。但Genie却可以确定谁是主角,并使用户能够在生成的世界中逐帧控制该角色。
并且,Genie通过学习产生的这个既丰富多样又一致性强的潜在动作空间,对于人类来说是可解释的。换句话说,即使是未经训练的用户,在与 Genie 生成的游戏世界互动几次之后,也能自然理解并做出向左、向右或跳跃等常见动作,形成多样化的运动轨迹。
项目组也解释了Genie模型背后的三个关键组件:
•一个潜在动作模型(LAM),用于推断每对帧之间的潜在动作。
•一个视频分词器(Video tokenizer),具有时间感知能力,与OpenAI在Sora中的“patches”概念类似,能将原始视频压缩为离散令牌。
•一个动力学模型(Dynamics model),能够在给定潜在动作和过去帧令牌的条件下,预测视频下一帧。
整个运行过程如上图所示:将帧视频作为输入,通过视频分词器将它们转换成离散的令牌