10月16日,“AI教母”李飞飞宣布对外推出全新模型RTFM(AReal-TimeFrame Model,实时帧模型)。RTFM是一款全新的实时生成世界模型,能够与用户交互时实时生成视频,并遵循三大核心设计原则:效率、可扩展性、持久性。
RTFM可将单张图像渲染成3D场景,一个模型可处理多种场景类型、视觉风格和效果,包括反射、光泽表面、阴影和镜头光晕。该模型已以预览版形式开放用户体验。

使用 RTFM 渲染的布满阳光的游泳池场景
能在单张H100GPU上运行的“实时世界”
李飞飞团队World Labs表示,强大的世界模型将能够实时重建、生成并模拟具有持久性、交互性且物理精度高的虚拟世界。这类模型将彻底改变从媒体到机器人技术乃至更广泛领域的产业格局。
过去一年间,这项新兴技术发展迅猛,生成式视频建模的突破性进展已成功应用于生成式世界建模领域。一个趋势随之逐渐明朗:生成式世界模型的计算需求将远超当前的大型语言模型。
若简单套用现代视频架构,要生成60帧/秒的交互式4K视频流,每秒需要生成超过10万个标记(相当于《科学怪人》或《哈利·波特》之一部的篇幅)。若要让这些生成模型持续运行一小时以上,需处理的上下文token更将超过1亿。以当今的计算基础设施来看,这种方案既不可行,也不具备经济可行性。
World Labs认为,在人工智能领域,随着计算能力提升而优雅扩展的简单 *** 往往占据主导地位,因为这些 *** 能够受益于推动技术发展数十年的计算成本指数级下降趋势。生成式世界模型完全具备优势,将在未来持续降低的计算成本中获益。
这就引出了一个自然的问题:生成式世界模型是否被当今的硬件限制所阻碍?或者现在是否有 *** 可以预览这项技术?
于是,李飞飞团队设定了一个简单而明确的目标:设计一个高效且可部署的生成式世界模型,能够随着计算能力提升持续扩展。
他们想要构建一个能在单张H100GPU上运行的模型,既能保持交互帧率,又能确保世界数据在长时间互动后依然完整。实现这些条件能让他们通过当前的体验提前预判未来这些模型可能达成的高度。
这一目标影响了他们从任务设置到模型架构的整个系统架构设计,并通过仔细优化推理堆栈的所有部分,应用架构设计、模型蒸馏和推理优化方面的最新进展,为在当今硬件上运行的未来模型提供更高保真的预览。

RTFM 对地板上的复杂阴影和反射进行建模
从图像到世界:RTFM如何突破生成式建模的边界
扩展性方面,传统3D图形管线依赖人工设计的显式三维模型(如三角网格、高斯贴图)和算法,对几何、材质、光照等进行精确建模,再渲染为二维图像。该 *** 虽成熟,但在处理大规模数据时扩展性受限。
而RTFM采用了一种基于生成式视频建模的创新 *** ,其核心是一个经端到端训练的神经 *** 。它仅输入场景的二维图像,无需构建显式三维模型,即可从新视角生成对应图像。
该技术基于生成式视频建模,训练一个神经 *** 将输入图像转换为一种隐式的世界表征(KV缓存),进而通过注意力机制直接从该表征中读取信息,来生成新视角下的连贯图像。这意味着复杂的光照、反射等效果并非由人工规则定义,而是通过从数据中学习自动掌握,从而能够与Marble 实现从单张图像高效创建具有真实感的3D场景。
RTFM还有一个重要特性是模糊了重建与生成的传统界限:当输入视图充足时,系统倾向于精确重建;当输入视图稀疏时,它则能进行合理的内容推演与生成。

使用 RTFM 渲染的户外游乐场
另外,现实世界具有持久性:当视线移开时,场景不会消失或重置,人们可以随时返回之前的位置。这一特性对自回归帧模型构成了显著挑战。由于此类模型仅通过二维图像帧序列隐式地表示世界,随着探索范围扩大,需要处理的帧数量持续增长,导致每一帧的生成成本不断累积,模型的“记忆容量”实际上受限于可用的计算资源。
RTFM通过引入“姿态帧”作为空间记忆,有效突破了这一限制。该 *** 将每一帧与其在三维空间中的姿态绑定,使模型能够在生成新帧时依据目标姿态从已有的空间记忆中检索邻近帧,构建局部上下文。这种设计为模型提供了一个弱空间先验—即世界处于三维欧氏空间中,而无需显式进行几何重建,既降低了建模复杂度,也增强了对场景结构的理解。
为实现高效运行,RTFM采用了上下文调度机制,在不同空间区域生成图像时动态切换所使用的上下文帧,称为“上下文切换”。这一策略使模型无需在处理新帧时加载全部历史数据,从而支持大规模场景的持久维护,实现所谓“无限持久性”。通过将帧组织为具有空间结构的记忆系统,RTFM在长期交互中能够保持场景一致性,同时显著提升生成效率和可扩展性。
World Labs指出,RTFM展示了在现有硬件上部署高效世界模型的愿景,其技术核心是将世界模型定义为端到端、数据驱动的渲染器。该框架具备良好的扩展性,未来可模拟动态世界并支持用户交互。当前模型目标是在单张H100GPU上实时运行,而更大规模的模型将持续优化性能。
World Labs成立于今年4月,在四个月内从创始公司成长为独角兽。去年9月,World Labs正式宣布完成2.3亿美元的巨额融资,投资方包括硅谷知名投资机构a16z、NEA、加拿大风 *** 司Radical Ventures,以及英伟达公司的风险投资部门等。众多AI领域的知名人士也参与了投资,包括谷歌DeepMind首席科学家杰夫·迪恩(Jeff Dean)和前谷歌AI研究员杰弗里·辛顿(Geoffrey Hinton)。