Genie 2标识着东谈主工智能在捏造宇宙生陈规模的又一次谮媚学生萝莉。
12月5日凌晨,就在OpenAI晓谕将于畴昔12天蕴蓄进行12场发布会直播时,Google DeepMind同期在官网发布了大型基础宇宙模子Genie 2,可通过单张图片和笔墨态状生成种类种种的可玩3D宇宙。算作本岁首推出的 Genie 模子的升级版,Genie 2标识着东谈主工智能在捏造宇宙生陈规模的又一次谮媚。
DeepMind露出,Genie 2具备从不同视角(如第一东谈主称视角与等距视角)生成连贯宇宙的能力,这些生成的宇宙可捏续时分长达一分钟,但多数情况下保管在10到20秒之间。
国产视频偷拍自拍在线博客中放出了多数由模子生成的视频示例,来展示Genie 2在行为终了、长视界顾忌、长视频生成、NPC、物理等方面的后果与上风。举例,输入“丛林中的可人东谈主形机器东谈主”,模子便可构建一个包含机器东谈主变装和可探索环境的动态场景。用户不错通过键盘或鼠标操作变装辞宇宙中进行最初、拍浮等互动。
据悉,流程视频查验,该模子大要精确模拟物体的交互、动画后果、照明、物理情景、反射后果以及“NPC”(非玩家变装)的行为。好多生成的场景画质接近 3A级别的电子游戏,甚而在物体视角一致性和场景顾忌方面阐扬优异。
手艺方面,谷歌提到,Genie 2 是一个自总结潜在扩散模子,在大型视频数据集上进行查验。流程自动编码器后,视频中的潜在帧被传递到大型Transformer能源学模子。该模子使用与大言语模子访佛的因果掩码进行查验。在推理时, Genie 2能以自总结花样进行采样,逐帧赢得单个动作和畴昔的潜在帧。
谷歌对宇宙模子商榷的插足正在捏续扩大。本年 10 月,DeepMind 聘用了OpenAI前视频生成样式厚爱东谈主Tim Brooks,同期两年前从Meta挖来了以通达式实践闻名的Tim Rocktäschel。与之通常的模子还有“AI教母”李飞飞创立的 World Labs 和以色列初创公司 Decart 的家具。
天然大多数基础宇宙模子不错模拟游戏和 3D 环境,但还存在伪影、一致性和幻觉干系的问题。Google DeepMind还在博客终末放了一些意念念意念念的“花絮”,Genie 2生成出一些奇怪视频,比如莫得继承行为的情况下一个“幽灵”出当今花圃,在雪场的东谈主物变装从滑板上跳下来,比较滑雪更爱跑酷,以及一个魔法球爆炸。
就3D游戏生成这一规模商榷学生萝莉,谷歌还示意,游戏在东谈主工智能商榷规模阐扬注目要作用。游戏的劝诱力、特有的挑战组合和可算计的进展使其成为安全测试和鞭策 AI 能力的梦想环境。自 Google DeepMind 拓荒以来,游戏就一直十分要害,是商榷的重点。但是,查验更通用的具身智能体的传统瓶颈在于枯竭饱和丰富和种种化的查验环境。