开云官网切尔西赞助商能生成各式可甩掉行动、可玩的 3D 环境-开云官网kaiyun皇马赞助商 「中国」官方网站 登录入口

发布日期:2026-01-09 10:25    点击次数:63

开云官网切尔西赞助商

作家 | ZeR0

裁剪 | 漠影

智东西 12 月 5 日报谈,AGI 竞赛愈演愈烈!就在 OpenAI 告示将于将来 12 天直播新发布和 demo 前,昨夜,Google DeepMind 发布大型基础天下模子 Genie 2,能生成各式可甩掉行动、可玩的 3D 环境,还不错用于考研和评估具身 agent。

独一给一张教唆图像,Genie 2 就能按照你输入的文本教唆,生成对应的交互式编造天下。无论是东谈主类已经 AI agent,齐不错使用键盘和鼠标来在由 AI 生成的 3D 游戏天下里探索和互动。

Genie 2 是一个自转头潜在扩散模子,考研于大型视频数据集。历程自动编码器后,视频中的潜在帧被传递到大型 Transformer 能源学模子。该模子使用与大讲话模子雷同的因果掩码进行考研。

在推理时,Genie 2 能以自转头神气进行采样,逐帧取得单个行动和往常的潜在帧。Google DeepMind 使用 CFG(无分类器指导,classifier-free guidance)来晋升行动可控性。

博客著作放出多量由未蒸馏的基础模子生成的视频示例,来展示 Genie 2 在行径甩掉、生成反设事实、长视界顾忌、长视频生成、各样环境、3D 结构、物体交互、复杂扮装动画、NPC、物理、烟雾、光影、快速原型贪图方面的恶果与上风。蒸馏版块辅助及时交互,但运行时的视觉质地会裁减些。

输入的确天下的像片后,它也能很好模拟一些物理公法,比如可模拟风中摇曳的草或河中流动的水。

一、超强空间顾忌才气,模拟的确天下环境

此前天下模子在很猛进程上局限于建模狭小的限度。Genie 1 引入了一种生成各式 2D 天下的措施。Genie 2 则进一步在通用性上取得贯通,不错生成种类稠密的丰富 3D 天下。

以下是与 Genie 2 互动的一些示例视频。模子会使用文生图模子 Imagen 3 生成的单个图像,按照教唆词生成一个可交互的 3D 天下。东谈主或 agent 进行键鼠操作,进入这个新创建的天下并与之互动。Genie 2 不错生成长达 1 分钟的一致天下,大多数示例执续 10-20 秒(本文将部分视频示例转成 gif 动图并只截取片断,好意思满视频请到原博客著作稽查)。

1、智能反应键盘按键操作

Genie 2 不错智能地反应键盘上的按键操作,正确地识别并转移扮装。比如下图中的几个示例,模子必须能弄了了地方按键对应要转移的是机器东谈主,而不是画面中的树、云等其他物体。

树林里的一个可人的东谈主形机器东谈主。

古埃及的东谈主形机器东谈主。

紫色星球上的机器东谈主的第一视角。

大城市阁楼公寓中的机器东谈主的第一视角。

2、生成反设事实

Genie 2 不错从吞并肇始帧生成不同的轨迹,为考研 agent 模拟不共事实的体验。在每一排中,每个视频齐从吞并帧驱动,但东谈主类玩家遴选的行动不同,生成的画面本色也反应不同。

3、长视界顾忌

Genie 2 大略记着视线中不再存在的天下部分,并在它们再次可见时准确呈现。

4、使用重生成的本色生成长视频

Genie 2 可动态生成新的合理本色,并在长达 1 分钟的时辰内保管一致的天下。

5、各样化环境

Genie 2 可创建不同的视角,举例第一视角、等距视图或第三视角驾驶视频。

6、3D 结构

Genie 2 会创建复杂的 3D 视觉场景。

7、模拟对象相互作用

Genie 2 能模拟各式物体的相互作用,举例爆破气球、通达门和射击火药桶。

8、扮装动画

Genie 2 学习了怎么为不同类型的扮装制作动画来实践不同的行动。

9、NPC

Genie 2 大略模拟其他 agent,以至与它们进行复杂的交互。

10、物理

Genie 2 模拟水恶果。

11、烟雾

Genie 2 模拟烟雾恶果。

12、重力

Genie 2 模拟重力。

13、灯光

Genie 2 模拟光点和定向照明。

14、反射

Genie 2 模拟反射、喷雾减光和彩色灯光。

二、意会物理天下互异,可将见识图滚动成交互式环境

Genie 2 模子可快速创建各式交互体验的原型。举例用 Imagen 3 生成不同图像,让 Genie 2 生成模拟纸飞机、龙、鹰、降落伞翱游的视频。不错看到 Genie 2 生成的视频大略意会并模拟出它们翱游的互异。

见识艺术和绘制也不错被 Genie 2 滚动成统统交互式环境,以便艺术家、贪图师能快速制作究诘环境见识的原型。

三、AI agent 也能玩,为具身智能提供绝佳考研场

Genie 2 可快速为 AI agent 创建丰富各样的环境,从而生成 agent 在考研本领未见过的评估任务。

举例,Google DeepMind 与游戏建造商联结建造了 SIMA agent。SIMA agent 被贪图成通过遵照天然讲话指示来完成一系列 3D 游戏天下中的任务,因此不错在 Genie 2 合成的、未见过的环境实践指示。

输入底下 Imagen 3 生成的第三开放天下探索游戏图,Genie 2 可生成一个带有两扇门(一扇是红门,一扇是蓝门)的 3D 环境。

然后向 SIMA agent 提议通达某扇门的指示,Genie 2 则能生成得当条款的画面。

在这个示例中,SIMA 通过键盘和鼠标输入甩掉扮装,而 Genie 2 生成游戏帧。

也不错使用 SIMA 来匡助评估 Genie 2 的功能。通过携带 SIMA 环视四周、探索房屋背面等,测试 Genie 2 生成一致环境的才气。

再比如笔据底下这张图来生成视频。

输入不同教唆词"上楼"、"去有植物的地方"、"走中间门",Genie 2 会生成对应的不同视频画面。

天然这项究诘仍处于早期阶段,agent 和环境生成才气齐还有很大的修订空间,但 Google DeepMind 折服 Genie 2 是处理安全考研具体 agent 的结构性问题的路线,同期完毕迈向 AGI 所需的广度和通用性。

结语:天下模子,AI 限度的下一件大事

游戏是安全测试和鞭策 AI 才气的理念念环境。考研更通器用身 agent 的传统瓶颈在于短缺满盈丰富和各样化的考研环境。

Google DeepMind 正将越来越多资源参加于天下模子究诘。Genie 2 展示了基础天下模子在创建各样化 3D 环境、定制交互式游戏场景、加快 agent 究诘等方面的后劲,可让将来的 Agent 在无尽的新天下中给与考研和评估。

该究诘地方尚处于早期阶段,Google DeepMind 筹画在通用性和一致性方面连接修订 Genie 的天下生成才气。

与 SIMA 同样,其究诘勉力于于构建更通用的 AI 系统和 agent,使其大略意会和安全地实践各式任务,从而匡助在线和试验天下中的东谈主们。

Google DeepMind 还放了一些真谛的"彩蛋":Genie 2 生成出一些奇怪视频,比如莫得遴选行径的情况下一个幽灵出当今花坛,在雪场的东谈主物扮装比较滑雪更爱跑酷、一个魔法球把周遭炸成灰。

起头:Google DeepMind开云官网切尔西赞助商



上一篇:开云体育请点击这里此试验为第一财经原创-开云官网kaiyun皇马赞助商 「中国」官方网站 登录入口    下一篇:体育游戏app平台通过 ALoP 时间能够将镜头水平摈弃在棱镜上-开云官网kaiyun皇马赞助商 「中国」官方网站 登录入口