李飞飞发布全新世界模型,可在单张H100GPU上流畅运行

音符科技网

10月16日,“AI教母”李飞飞宣布对外推出全新模型RTFM(AReal-TimeFrame Model,实时帧模型)。RTFM是一款全新的实时生成世界模型,能够与用户交互时实时生成视频,并遵循三大核心设计原则:效率、可扩展性、持久性。

RTFM可将单张图像渲染成3D场景,一个模型可处理多种场景类型、视觉风格和效果,包括反射、光泽表面、阴影和镜头光晕。该模型已以预览版形式开放用户体验。

使用 RTFM 渲染的布满阳光的游泳池场景

能在单张H100GPU上运行的“实时世界”

李飞飞团队World Labs表示,强大的世界模型将能够实时重建、生成并模拟具有持久性、交互性且物理精度高的虚拟世界。这类模型将彻底改变从媒体到机器人技术乃至更广泛领域的产业格局。

过去一年间,这项新兴技术发展迅猛,生成式视频建模的突破性进展已成功应用于生成式世界建模领域。一个趋势随之逐渐明朗:生成式世界模型的计算需求将远超当前的大型语言模型。

若简单套用现代视频架构,要生成60帧/秒的交互式4K视频流,每秒需要生成超过10万个标记(相当于《科学怪人》或《哈利·波特》之一部的篇幅)。若要让这些生成模型持续运行一小时以上,需处理的上下文token更将超过1亿。以当今的计算基础设施来看,这种方案既不可行,也不具备经济可行性。

World Labs认为,在人工智能领域,随着计算能力提升而优雅扩展的简单 *** 往往占据主导地位,因为这些 *** 能够受益于推动技术发展数十年的计算成本指数级下降趋势。生成式世界模型完全具备优势,将在未来持续降低的计算成本中获益。

这就引出了一个自然的问题:生成式世界模型是否被当今的硬件限制所阻碍?或者现在是否有 *** 可以预览这项技术?

于是,李飞飞团队设定了一个简单而明确的目标:设计一个高效且可部署的生成式世界模型,能够随着计算能力提升持续扩展。

他们想要构建一个能在单张H100GPU上运行的模型,既能保持交互帧率,又能确保世界数据在长时间互动后依然完整。实现这些条件能让他们通过当前的体验提前预判未来这些模型可能达成的高度。

这一目标影响了他们从任务设置到模型架构的整个系统架构设计,并通过仔细优化推理堆栈的所有部分,应用架构设计、模型蒸馏和推理优化方面的最新进展,为在当今硬件上运行的未来模型提供更高保真的预览。

RTFM 对地板上的复杂阴影和反射进行建模

从图像到世界:RTFM如何突破生成式建模的边界

扩展性方面,传统3D图形管线依赖人工设计的显式三维模型(如三角网格、高斯贴图)和算法,对几何、材质、光照等进行精确建模,再渲染为二维图像。该 *** 虽成熟,但在处理大规模数据时扩展性受限。

而RTFM采用了一种基于生成式视频建模的创新 *** ,其核心是一个经端到端训练的神经 *** 。它仅输入场景的二维图像,无需构建显式三维模型,即可从新视角生成对应图像。

该技术基于生成式视频建模,训练一个神经 *** 将输入图像转换为一种隐式的世界表征(KV缓存),进而通过注意力机制直接从该表征中读取信息,来生成新视角下的连贯图像。这意味着复杂的光照、反射等效果并非由人工规则定义,而是通过从数据中学习自动掌握,从而能够与Marble 实现从单张图像高效创建具有真实感的3D场景。

RTFM还有一个重要特性是模糊了重建与生成的传统界限:当输入视图充足时,系统倾向于精确重建;当输入视图稀疏时,它则能进行合理的内容推演与生成。

使用 RTFM 渲染的户外游乐场

另外,现实世界具有持久性:当视线移开时,场景不会消失或重置,人们可以随时返回之前的位置。这一特性对自回归帧模型构成了显著挑战。由于此类模型仅通过二维图像帧序列隐式地表示世界,随着探索范围扩大,需要处理的帧数量持续增长,导致每一帧的生成成本不断累积,模型的“记忆容量”实际上受限于可用的计算资源。

RTFM通过引入“姿态帧”作为空间记忆,有效突破了这一限制。该 *** 将每一帧与其在三维空间中的姿态绑定,使模型能够在生成新帧时依据目标姿态从已有的空间记忆中检索邻近帧,构建局部上下文。这种设计为模型提供了一个弱空间先验—即世界处于三维欧氏空间中,而无需显式进行几何重建,既降低了建模复杂度,也增强了对场景结构的理解。

为实现高效运行,RTFM采用了上下文调度机制,在不同空间区域生成图像时动态切换所使用的上下文帧,称为“上下文切换”。这一策略使模型无需在处理新帧时加载全部历史数据,从而支持大规模场景的持久维护,实现所谓“无限持久性”。通过将帧组织为具有空间结构的记忆系统,RTFM在长期交互中能够保持场景一致性,同时显著提升生成效率和可扩展性。

World Labs指出,RTFM展示了在现有硬件上部署高效世界模型的愿景,其技术核心是将世界模型定义为端到端、数据驱动的渲染器。该框架具备良好的扩展性,未来可模拟动态世界并支持用户交互。当前模型目标是在单张H100GPU上实时运行,而更大规模的模型将持续优化性能。

World Labs成立于今年4月,在四个月内从创始公司成长为独角兽。去年9月,World Labs正式宣布完成2.3亿美元的巨额融资,投资方包括硅谷知名投资机构a16z、NEA、加拿大风 *** 司Radical Ventures,以及英伟达公司的风险投资部门等。众多AI领域的知名人士也参与了投资,包括谷歌DeepMind首席科学家杰夫·迪恩(Jeff Dean)和前谷歌AI研究员杰弗里·辛顿(Geoffrey Hinton)。

文章版权声明:除非注明,否则均为音符科技网 wap.luzhiwang.com原创文章,转载或复制请以超链接形式并注明出处。

相关阅读

  • 特朗普称美军在加勒比海域袭击一艘“运毒潜艇”
  • 多辆车占用高速应急车道致救护车受阻,警方:对18辆车记分罚款
  • “梗王”刘宇坤:我就是来破纪录的
  • 还是这个主线!1股预期翻倍
  • 西北农林科技大学副校长郑英宁出任西藏大学校长
  • 19人团伙用 “外挂”抢购玉龙雪山索道票并囤积倒卖,已被移送起诉
  • 中共中央批准:盛阅春任湖北省委委员、常委和武汉市委书记
  • 对话WFEO主席陈成川:工程界需加快技术发展,助力实现全球控温目标
  • 济安金信|ESG投资中国化实践:从ESG到ESG-V,打造ESG投资闭环
  • 河南省政府副秘书长周锋出任中原银行党委副书记、行长
  • 德勤钟晓扬:ESG融入公司中长期战略,绿色供应链构筑经济新未来
  • 长盛基金投研“进化论”:发挥集体智慧,打造智能化综合投研支持平台
  • 盛阅春任湖北省委常委、武汉市委书记
  • 中航基金走进奥运商圈:践行投资者教育,共筑高质量发展新格局
  • 中国台湾地区附近发生4.6级左右地震
  • 创世伙伴创投合伙人梁宇分享投资“取舍逻辑”:避开对科技过度乐观的项目
  • 闯入男性世界的外卖女骑手,在夹缝中寻找生活的掌控感 | 专访
  • 缓刑人员救落水女子确认见义勇为,减刑6个月,当事人:很激动
  • 创世伙伴创投合伙人梁宇:技术竞争永不停歇,“今天的赢家可能明天就成输家”
  • 对话英利集团董事长苗青:虚拟电厂是实现零碳园区的路径 | 财之道
  • 鹏扬基金:以专业践行信义 以创新驱动发展
  • 对话法巴资管全球可持续发展负责人:看好中国能源转型机遇,支持中国绿色债券市场增长
  • 陈文辉:金融是传统行业 但每一次进步都与科技相关
  • 年内新高!单月开户数突破20万,A股两融活跃度飙升!
  • 邵阳资江学校塌陷,附近居民:跟地震一样连夜转移
  • “黄金狂热”到逆转的时候了吗?
  • “中国倡议彰显天下情怀”——访约旦共产党总书记法赫米·哈图特
  • 完美世界伊迪:培养全民AI素养,让AI技术普惠整个人类
  • 中国平安盛瑞生:韧性、包容、高效,从三方面构建可持续发展金融服务生态
  • 台湾花莲县海域发生4.6级地震,震源深度20千米
  • 好评中国|Vlog逛馆日记:跟着镜头get三峡船闸的“时间答案”
  • 美联储10月降息预期升温,就业是决定降幅的关键
  • 陈文辉:金融是传统行业,但每一次进步都与科技相关
  • 经济学人集团B2B业务总裁利昂·卡尔弗特:《巴黎协定》仍是气候行动的核心
  • 90亿美元买中国战机,印尼的“潜台词”是什么?
  • 卢森堡商学院马托·尼亚夫罗:中国在“AI+硬件”领域积累深厚
  • 《大脑传》作者马修·科布:人类要学会更好应用AI,而不是完全依赖AI
  • 解读|不给“战斧”不搞三方会晤,加沙停火后特朗普能促成俄乌停火?
  • 陈伟霆、何穗官宣生子,“好命哥”当爸爸了
  • 卢森堡商学院马托·尼亚夫罗:年轻群体易对AI产生盲目信任,需警惕这一现象
  • 目录[+]

    取消
    微信二维码
    微信二维码
    支付宝二维码