
多年来,科技巨头的首席执行官们一直宣扬AI智能体(AI agents)的愿景 —— 这类智能体可自主使用软件应用为人类完成任务。但如今将消费者级 AI 智能体(无论是 OpenAI 的 ChatGPT Agent,还是 Perplexity 的 Comet)投入实际使用便会发现,这项技术的局限性仍十分明显。要让 AI 智能体具备更强的稳健性,或许需要行业尚未完全探索出的一系列新技术支持。
其中一项技术便是精心模拟 “工作空间”,让智能体在其中接受多步骤任务训练 —— 这种 “工作空间” 被称为强化学习(reinforcement learning,简称 RL)环境。正如带标签的数据集推动了上一波 AI 发展浪潮,强化学习环境正逐渐成为智能体开发过程中的关键要素。
AI 研究人员、创业者及投资者透露,目前顶尖 AI 实验室对强化学习环境的需求大幅增加,而有意提供此类技术的初创公司也不在少数。
“所有大型 AI 实验室都在内部搭建强化学习环境,” 安德森・霍洛维茨基金(Andreessen Horowitz)普通合伙人珍妮弗・李表示,“但可想而知,创建这类数据集的复杂度极高,因此 AI 实验室也在寻找能打造高质量环境与评估体系的第三方供应商。整个行业都在关注这一领域。”
对强化学习环境的需求催生了一批资金雄厚的新兴初创公司,例如 Mechanize Work 和 Prime Intellect,这些公司均致力于在该领域占据领先地位。与此同时,Mercor、Surge 等大型数据标注公司表示,随着行业正从静态数据集向交互式模拟转型,它们也在加大对强化学习环境的投入以跟上趋势。大型实验室同样在考虑巨额投资:据《The Information》报道,Anthropic 的管理层已讨论计划在未来一年内,为强化学习环境投入超 10 亿美元。
投资者与创业者们期望,这些初创公司中能诞生出 “强化学习环境领域的 Scale AI”—— 这里的 Scale AI 是估值 290 亿美元的数据标注巨头,曾为聊天时代的发展提供了重要支撑。
目前的核心问题在于,强化学习环境是否真能推动 AI 技术突破现有边界。
什么是强化学习(RL)环境?
从本质上讲,强化学习环境是模拟 AI 智能体在真实软件应用中操作场景的 “训练场”。一位创业者在近期采访中形容其构建过程 “就像 *** 一款非常枯燥的电子游戏”。
例如,某个环境可模拟 Chrome 浏览器,并向 AI 智能体下达 “在亚马逊上购买一双袜子” 的任务。系统会对智能体的表现进行评分,若任务成功(即买到合适的袜子),便会向其发送 “奖励信号”。
尽管这类任务听起来相对简单,但 AI 智能体在执行过程中仍可能在多个环节出错:可能在网页下拉菜单中 “迷路”,也可能误购多双袜子。由于开发者无法精准预测智能体可能出现的失误,环境本身必须具备足够的稳健性,既能捕捉所有意外行为,又能提供有效的反馈 —— 这使得构建环境的复杂度远高于创建静态数据集。
部分强化学习环境设计十分复杂,可支持 AI 智能体使用工具、访问互联网或调用各类软件应用完成指定任务;另有部分环境则定位更细分,专注于帮助智能体学习企业级软件应用中的特定任务。
尽管强化学习环境如今是硅谷的热门技术,但使用这类技术的先例早已有之。2016 年,OpenAI 的首批项目之一便是构建 “RL Gyms”(强化学习场馆),其理念与现代强化学习环境高度相似;同年,谷歌 DeepMind 的 AlphaGo AI 系统击败围棋世界冠军,该系统同样在模拟环境中采用了强化学习技术。
如今的强化学习环境之所以具有独特性,在于研究人员正尝试结合大型 Transformer 模型,打造能 “使用计算机” 的 AI 智能体。与 AlphaGo(仅适用于封闭环境的专用 AI 系统)不同,如今的 AI 智能体旨在具备更通用的能力。当前的 AI 研究人员虽拥有更坚实的技术起点,但目标也更为复杂,可能出现的问题也更多。
竞争激烈的领域
Scale AI、Surge、Mercor 等 AI 数据标注公司正积极顺应趋势,着力打造强化学习环境。这些公司不仅比该领域多数初创企业拥有更充足的资源,还与 AI 实验室建立了深厚的合作关系。
Surge 首席执行官埃德温・陈(Edwin Chen)表示,近期已观察到 AI 实验室对强化学习环境的需求 “显著增长”。他透露,Surge 去年通过与 OpenAI、谷歌、Anthropic、Meta 等 AI 实验室合作,营收据称达到 12 亿美元;该公司近期已成立专门的内部团队,负责强化学习环境的搭建工作。
紧随 Surge 之后的是估值 100 亿美元的初创公司 Mercor,该公司同样与 OpenAI、Meta、Anthropic 有合作。TechCrunch 获取的营销材料显示,Mercor 正向投资者推介其核心业务 —— 为编程、医疗、法律等特定领域任务打造强化学习环境。
Mercor 首席执行官布伦丹・富迪(Brendan Foody)在采访中表示:“很少有人真正意识到,强化学习环境领域蕴含的机遇究竟有多大。”
Scale AI 曾在数据标注领域占据主导地位,但自 Meta 投资 140 亿美元并挖走其首席执行官后,该公司的市场份额逐渐下滑。此后,谷歌和 OpenAI 不再将 Scale AI 列为数据供应商,甚至在 Meta 内部,Scale AI 也面临数据标注业务的竞争压力。尽管如此,Scale AI 仍在努力适应趋势,投身强化学习环境的构建。
“这正是(Scale AI)所处行业的本质,”Scale AI 负责智能体与强化学习环境的产品负责人切坦・拉内(Chetan Rane)表示,“Scale 已证明其快速适应的能力:在我们的首个业务板块 —— 自动驾驶领域的早期阶段,我们做到了这一点;ChatGPT 问世后,Scale AI 也成功适应了新趋势;如今,我们再次在智能体、环境等新前沿领域进行调整。”
部分新兴企业从创立之初便专注于强化学习环境领域。成立约 6 个月的初创公司 Mechanize Work 便是其中之一,该公司提出了 “实现所有工作自动化” 的大胆目标。不过,联合创始人马修・巴尼特(Matthew Barnett)向 TechCrunch 透露,其公司目前正从为 AI 编程智能体打造强化学习环境起步。
巴尼特表示,Mechanize Work 计划为 AI 实验室提供少量高稳健性的强化学习环境,而非像大型数据公司那样打造大量简单的强化学习环境。为此,该初创公司为软件工程师开出了 50 万美元的年薪(用于构建强化学习*,这一薪资远高于在 Scale AI 或 Surge 从事小时工性质工作的报酬。
两位知情人士透露,Mechanize Work 已开始与 Anthropic 合作开发强化学习环境。对此,Mechanize Work 与 Anthropic 均拒绝就合作细节置评。
另有部分初创公司押注强化学习环境在 AI 实验室之外的领域也将产生影响力。由 AI 研究员安德烈・卡帕西(Andrej Karpathy)、Founders Fund 风投、Menlo Ventures 风投支持的初创公司 Prime Intellect,正将其强化学习环境定位为服务中小型开发者。
上个月,Prime Intellect 推出了强化学习环境中心,目标是打造 “强化学习环境领域的 Hugging Face”(Hugging Face 为 AI 领域知名开源社区)。该平台旨在让开源开发者获得与大型 AI 实验室同等的资源支持,同时在此过程中向开发者出售计算资源访问权限。
Prime Intellect 研究员威尔・布朗(Will Brown)表示,在强化学习环境中训练具备通用能力的智能体,所需的计算成本可能高于以往的 AI 训练技术。因此,除了打造强化学习环境的初创公司,为这一过程提供算力支持的 GPU 供应商也将迎来机遇。
“没有任何一家公司能独自主导强化学习环境领域,其规模太大了,” 布朗在采访中说,“我们目前所做的部分工作,只是尝试围绕该领域搭建良好的开源基础设施。我们的核心服务是提供计算资源,这确实是使用 GPU 的便捷入口,但我们更着眼于长期发展。”
能否实现规模化发展?
关于强化学习环境,目前尚未有定论的问题是:这项技术能否像以往的 AI 训练 *** 那样实现规模化发展?
过去一年,强化学习推动了 AI 领域多项重大突破,包括 OpenAI 的 o1 模型、Anthropic 的 Claude Opus 4 模型等。这些突破意义重大,因为此前用于改进 AI 模型的 *** 如今正显现出 “收益递减” 的趋势。
强化学习环境是 AI 实验室对强化学习技术 “更大押注” 的一部分 —— 许多人认为,随着在该技术中投入更多数据与计算资源,强化学习将持续推动 AI 进步。OpenAI 负责 o1 模型的部分研究人员此前透露,该公司最初之所以投资 AI 推理模型(通过对强化学习和测试时计算的投入开发而成),正是因为他们认为这类模型具备良好的规模化潜力。
目前,强化学习实现规模化的更佳路径尚不明确,但强化学习环境似乎是颇具潜力的方向。与仅通过文本回复奖励聊天机器人不同,强化学习环境能让智能体在模拟场景中操作工具、使用计算机完成任务 —— 这种方式虽然对资源的消耗远更高,但潜在的回报也更大。
也有部分人士对强化学习环境的发展前景持怀疑态度。曾担任 Meta AI 研究负责人、现联合创立 General Reasoning 公司的罗斯・泰勒表示,强化学习环境容易出现 “奖励作弊”(reward hacking)现象 —— 即 AI 模型为获得奖励而 “作弊”,并未真正完成任务。
“我认为人们低估了环境规模化的难度,” 泰勒说,“即便是目前公开可用的更佳(强化学习*,若不进行大幅修改,通常也无法正常使用。”
OpenAI API 业务工程负责人舍温・吴(Sherwin Wu)在近期播客中表示,他对强化学习环境领域的初创公司 “持看空态度”。吴指出,该领域竞争异常激烈,且 AI 研究发展速度极快,要为 AI 实验室提供优质服务难度很大。
卡帕西(作为 Prime Intellect 的投资者,曾称强化学习环境可能成为突破性技术)也对整个强化学习领域表达了谨慎态度。他在社交平台 X 的帖子中提出疑问:通过强化学习技术,AI 还能实现多大程度的进步?
“我对环境与智能体交互持乐观态度,但对强化学习本身持悲观态度。” 卡帕西表示。