人类眨一次眼都需要100~400毫秒,所以现在AI几乎可以一瞬间创造视频了。
两位联合创始人Oliver Cameron和Jeff Hawke均在自动驾驶领域有着深厚从业背景,虽然公司成立不到2年,但一亮相就获得了资本青睐。
目前Odyssey发布即免费可用,网友们已经第一时间涌入服务器(官网始终显示排队中)。
他们认为,乍一看世界模型好像是视频生成模型的完美应用,但后者的架构、参数和数据集实际上并不适用于前者。
视频模型通过构建结构化嵌入一次性生成固定帧,适合视频剪辑(中间无需更改)但不适合交互;
而世界模型则能够根据当前状态和用户动作灵活预测下一个状态,支持实时交互,这对于交互式视频至关重要。
早期阶段,大多数关于世界模型的研究主要集中在:从类似《我的世界》、《雷神之锤》这样的游戏中学习像素和动作。
由于局限于游戏范围内,这为世界模型可能实现的功能划定了一个“已知低上限”。
由于真实世界的视频具有更丰富的视觉信息,以及全方位/不受限制的动作类型,因此世界模型能超越传统游戏逻辑,提升模型的上限。
不过Odyssey也承认,从开放式真实视频中学习相当困难,比如视频内容嘈杂多样、动作连续且不可预测等等。
当中最大的挑战是自回归建模,即根据先前状态预测未来状态。由于模型生成的输出会反馈到模型的上下文中,因此会影响后续的预测。
在语言模型中,由于状态空间相对有限,这种反馈问题不大。但在世界模型中,状态空间要复杂得多,这可能导致模型的不稳定性,因为模型可能会偏离其训练数据的分布范围。
尤其对于实时模型来说,这种不稳定性更为明显,因为它们在处理复杂的潜在动态时能力较弱。
这种模型首先在广泛的视频数据上进行预训练,然后在特定地点的密集视频数据上进行后训练。这种后训练方法虽然会牺牲一些模型的通用性,但可以提高模型的稳定性和自回归生成的持久性。
与此同时,为了提高模型的泛化能力,Odyssey爆料他们正在开发下一代世界模型。
虽然Odyssey自称当前这个还只是早期预览版,“可能相对粗糙”,但网友的第一波实测已经证明了其潜力。
而且,随着更大规模的算力集群支持,Odyssey的视频传输速度还会提升。
据悉,预览版当前由美国和欧盟的H100 GPU集群提供算力支持,传输速度为30 FPS,能输出5分钟甚至更长时间的连贯视频。
游戏中这一配置仍处于入门阶段,属于相对能“流畅运行”的范畴,一些3A大作可能要求会更高。
不过,鉴于用户当前能免费体验(官方称每小时体验成本为1~2美元),还要啥自行车(doge)。
这不仅是因为他们将世界模型作为下一个AI前沿,更在于团队的“自动驾驶血统”在这方面拥有天然优势。
事实上,我们90%以上的技术人员的大部分职业生涯都是在Cruise、Wayve、Waymo和特斯拉等公司从事自动驾驶汽车的开发工作。这种经历让我们对构建世界的模型的问题有了独特的见解。
联创兼CEO Oliver Cameron,十几年职业生涯都奉献给了自动驾驶。
任职Wayve技术副总裁时期,带领团队打造了业界首个用于公共道路自动驾驶汽车的学习型驾驶员系统,即利用深度学习和计算机视觉进行驾驶学习。
从2008年到2017年,什么叉车机器人、医疗机器人等,通通都研究了个遍,后来还去了牛津机器人研究所读博。
以上二位这次也亲自参与了打造Odyssey预览版,其余技术人员的名单如下:
最后,除了Odyssey这家公司,目前已经有超过10家车企和自动驾驶公司提出了世界模型的概念,其中包括特斯拉、蔚来、理想、地平线、商汤、元戎启行、Momenta等。
12秒生成1万token!谷歌推出文本「扩散模型」Gemini Diffusion,研究员:演示都得降速看
大模型首次打破围棋思维「黑盒」,打通科学发现新路径!上海AI Lab发布新一代InternThinker
最强编码模型Claude 4!7小时不间断写代码,连玩24小时宝可梦,GitHub已选为Copilot底层模型