谷歌Genie爆打Sora，基础世界模型AGI来了？一张草图即生一个世界，通才智能体迎来新革命

【新智元导读】真正的「基础世界模型」诞生了!谷歌团队发布110亿参数Genie「精灵」，从一张图片就能创造出可玩的虚拟世界，动作可控碾压Sora。网友惊叹，AI已经杀到视频游戏领域了。

就在昨天，谷歌DeepMind重磅发布了一个基础世界模型——Genie「精灵」。

从一个图像，一张照片，一个草图中，它就能生成一个无穷无尽的世界。

当红炸子鸡Sora虽然创造了令人惊叹的场景，但它们的动作并非可控。

而Genie将成为游戏规则的改变者，创造的虚拟场景可以像电子游戏一样进行互动。

论文地址:https://arxiv.org/abs/2301.07608

Genie的疯狂之处在于，学习了20万小时的未标注互联网视频，无需监督即可训练。

无需任何动作标注，便可以确定谁是主角，并让用户能够在生成的世界中对其控制。

凭借110亿参数，Genie确立了自己作为基础世界模型的地位

具体来说，它是通过潜动作（latent action）模型、视频分词器，以及自回归动态模型三大核心组件来实现的。

由此产生的学习潜动作空间，不仅使用户交互成为可能，而且还有助于训练智能体模仿看不见的视频中的行为。

因此，Genie为培养未来的通才智能体开辟了崭新的途径，重塑了交互式生成环境的格局。

所以，谷歌DeepMind会用「精灵」为虚拟世界的创建，带来一场新的革命吗?

AI视频游戏要变天了!

令人惊叹的是，Genie创造一个全新的交互环境只需要一张图像，恰恰为进入虚拟世界开辟了新的途径。

通过最先进的文本到图像生成模型来制作起始帧，然后通过Genie让它们「活」起来。

而且，甚至可以将Genie应用到人类设计的草图或现实世界的图像上!

Genie团队的负责人Tim Rocktäschel称，「Genie作为世界模型，是人类迈向AGI的旅途中非常重要的一步。」

正如LeCun所说，世界模型需要「动作」。Genie是一个动作可控的世界模型，但完全是通过无监督的视频训练出来的。

论文作者Jeff Clune称，「任何人，包括孩子，都可以画一个世界，然后『走进它』并探索它」!

他把孩子们的画作输入Genie，然后就看到老鹰在空中飞来飞去了。

英伟达科学家Jim Fan表示，与Sora不同，Genie实际上是一个由行动驱动的世界模型，具有推断行动的能力。2024年也将是「基础世界模型」年!

「Genie是令人疯狂的视频游戏生成器」。

也有网友认为，谷歌DeepMind的Genie对视频游戏来说比Sora更重要。

它是一个基础世界模型，从未标记的互联网视频中训练而来，可以在图像提示下生成无数种动作可控的虚拟世界（即交互式视频游戏）。

「鉴于DeepMind和OpenAI在游戏引擎方面的悠久历史，我敢打赌，Sora/ChatGPT时刻很快就会在视频游戏中到来」。

构建交互世界的基础模型

Genie是一种全新的生成式AI范式，仅凭一张图像，就能创造出互动性强、可玩的环境。

Genie能将从未见过的图像作为提示，起到一个世界基础模型的作用——无论是现实世界的照片还是简单的草图，都能让人们与自己幻想中的虚拟世界进行互动。

而且，这一切都在没有任何动作标注的情况下实现的。

Genie所展示的惊人突破，是通过分析超过200，000小时的公开互联网游戏视频学习而来的，主要包括2D平台游戏和机器人领域的视频。

理论上，这个方法可以适用于任何领域，并且能够处理越来越大的互联网数据集。

Genie的独特之处在于，它能够仅通过观看互联网上的视频，就学会对细节进行精确控制。

这项技术面临着不小的挑战，因为网络视频往往缺乏动作标注，甚至不明确指出图像中哪些部分可以被操作。

然而，Genie不仅能识别出哪些图像元素是可控的，还能够洞察到各种隐含的动作，并确保这些动作在它创造的不同环境中保持一致。

值得一提的是，即使是在不同的图像提示下，相同的latent action也会引发相似的行为表现。

为全能AI智能体铺平道路

Genie不仅是一个创新工具，它还为培养能够适应多种环境的AI智能体提供了新的可能性。

过去的研究已经证明，使用游戏环境可以有效地开发AI智能体，但通常当时能用的游戏数量有限。

论文地址:https://arxiv.org/abs/2301.07608

相比之下，Genie学会的动作是可以被应用到真实世界中去的。

借此，我们便能够让未来的AI智能体在一个不断扩展的新世界中进行训练。

生成式虚拟世界的新未来

谷歌称，虽然Genie目前的展示主要在游戏上，但其未来应用远不止于此。

它是一个通用的工具，能够跨越多个领域，而且不需要额外的专业知识就能使用。

就比如，在机器人领域，Genie模型能够让其处理现实世界中的一些任务。

研究人员使用来自RT1的无动作视频训练了一个较小的2.5B模型。

正如在平台游戏中所见，相同动作序列的行为轨迹，通常会表现出相似的模式。

这意味着Genie能够掌握一组统一的动作模式，这对于训练能够在现实世界中灵活应对各种情境的AI智能体来说，具有重要意义。

Genie还能够模拟可变形物体，这是一个对传统由人设计的模拟器来说颇具挑战的任务，但Genie能够通过分析数据学会如何做到这一点。

Genie的诞生，开启了一个全新的时代，让我们能够仅凭图像或文字创造出完整的可交互世界。

谷歌坚信，它将成为推动未来全能AI智能体成长的关键力量。

实现方法

Genie架构中的关键组件是基于视觉Transformer（ViT）。

值得注意的是，Transformer的二次方内存成本对于视频来说是一个挑战，因为视频中可以包含多达

• 专业批发鞋子的网站有哪些	• 外贸尾单货源进货渠道是哪里
• ‌外贸原单正品尾货批发在哪里进货	• 广州尾货3元5服装批发市场哪里找
• 广州最大的尾货服装批发市场是哪一个	• 广州服装尾货处理最便宜的在哪里拿货
• 广州高端女装品牌批发市场在哪里	• 广州中高档服装批发市场在哪里
• 中山哪里有尾货服装市场	• 广州最大的批发袜子地方在哪里

抖音16级粉丝灯牌要多	抖音小店认证怎么开店
抖音号如何快速到1000	抖音带货口碑分和商家