硅谷大力押注“环境”技术,用于训练AI智能体

音符科技网

  多年来,科技巨头的首席执行官们一直宣扬AI智能体(AI agents)的愿景 —— 这类智能体可自主使用软件应用为人类完成任务。但如今将消费者级 AI 智能体(无论是 OpenAI 的 ChatGPT Agent,还是 Perplexity 的 Comet)投入实际使用便会发现,这项技术的局限性仍十分明显。要让 AI 智能体具备更强的稳健性,或许需要行业尚未完全探索出的一系列新技术支持。

  其中一项技术便是精心模拟 “工作空间”,让智能体在其中接受多步骤任务训练 —— 这种 “工作空间” 被称为强化学习(reinforcement learning,简称 RL)环境。正如带标签的数据集推动了上一波 AI 发展浪潮,强化学习环境正逐渐成为智能体开发过程中的关键要素。

  AI 研究人员、创业者及投资者透露,目前顶尖 AI 实验室对强化学习环境的需求大幅增加,而有意提供此类技术的初创公司也不在少数。

  “所有大型 AI 实验室都在内部搭建强化学习环境,” 安德森・霍洛维茨基金(Andreessen Horowitz)普通合伙人珍妮弗・李表示,“但可想而知,创建这类数据集的复杂度极高,因此 AI 实验室也在寻找能打造高质量环境与评估体系的第三方供应商。整个行业都在关注这一领域。”

  对强化学习环境的需求催生了一批资金雄厚的新兴初创公司,例如 Mechanize Work 和 Prime Intellect,这些公司均致力于在该领域占据领先地位。与此同时,Mercor、Surge 等大型数据标注公司表示,随着行业正从静态数据集向交互式模拟转型,它们也在加大对强化学习环境的投入以跟上趋势。大型实验室同样在考虑巨额投资:据《The Information》报道,Anthropic 的管理层已讨论计划在未来一年内,为强化学习环境投入超 10 亿美元。

  投资者与创业者们期望,这些初创公司中能诞生出 “强化学习环境领域的 Scale AI”—— 这里的 Scale AI 是估值 290 亿美元的数据标注巨头,曾为聊天时代的发展提供了重要支撑。

  目前的核心问题在于,强化学习环境是否真能推动 AI 技术突破现有边界。

  什么是强化学习(RL)环境?

  从本质上讲,强化学习环境是模拟 AI 智能体在真实软件应用中操作场景的 “训练场”。一位创业者在近期采访中形容其构建过程 “就像 *** 一款非常枯燥的电子游戏”。

  例如,某个环境可模拟 Chrome 浏览器,并向 AI 智能体下达 “在亚马逊上购买一双袜子” 的任务。系统会对智能体的表现进行评分,若任务成功(即买到合适的袜子),便会向其发送 “奖励信号”。

  尽管这类任务听起来相对简单,但 AI 智能体在执行过程中仍可能在多个环节出错:可能在网页下拉菜单中 “迷路”,也可能误购多双袜子。由于开发者无法精准预测智能体可能出现的失误,环境本身必须具备足够的稳健性,既能捕捉所有意外行为,又能提供有效的反馈 —— 这使得构建环境的复杂度远高于创建静态数据集。

  部分强化学习环境设计十分复杂,可支持 AI 智能体使用工具、访问互联网或调用各类软件应用完成指定任务;另有部分环境则定位更细分,专注于帮助智能体学习企业级软件应用中的特定任务。

  尽管强化学习环境如今是硅谷的热门技术,但使用这类技术的先例早已有之。2016 年,OpenAI 的首批项目之一便是构建 “RL Gyms”(强化学习场馆),其理念与现代强化学习环境高度相似;同年,谷歌 DeepMind 的 AlphaGo AI 系统击败围棋世界冠军,该系统同样在模拟环境中采用了强化学习技术。

  如今的强化学习环境之所以具有独特性,在于研究人员正尝试结合大型 Transformer 模型,打造能 “使用计算机” 的 AI 智能体。与 AlphaGo(仅适用于封闭环境的专用 AI 系统)不同,如今的 AI 智能体旨在具备更通用的能力。当前的 AI 研究人员虽拥有更坚实的技术起点,但目标也更为复杂,可能出现的问题也更多。

  竞争激烈的领域

  Scale AI、Surge、Mercor 等 AI 数据标注公司正积极顺应趋势,着力打造强化学习环境。这些公司不仅比该领域多数初创企业拥有更充足的资源,还与 AI 实验室建立了深厚的合作关系。

  Surge 首席执行官埃德温・陈(Edwin Chen)表示,近期已观察到 AI 实验室对强化学习环境的需求 “显著增长”。他透露,Surge 去年通过与 OpenAI、谷歌、Anthropic、Meta 等 AI 实验室合作,营收据称达到 12 亿美元;该公司近期已成立专门的内部团队,负责强化学习环境的搭建工作。

  紧随 Surge 之后的是估值 100 亿美元的初创公司 Mercor,该公司同样与 OpenAI、Meta、Anthropic 有合作。TechCrunch 获取的营销材料显示,Mercor 正向投资者推介其核心业务 —— 为编程、医疗、法律等特定领域任务打造强化学习环境。

  Mercor 首席执行官布伦丹・富迪(Brendan Foody)在采访中表示:“很少有人真正意识到,强化学习环境领域蕴含的机遇究竟有多大。”

  Scale AI 曾在数据标注领域占据主导地位,但自 Meta 投资 140 亿美元并挖走其首席执行官后,该公司的市场份额逐渐下滑。此后,谷歌和 OpenAI 不再将 Scale AI 列为数据供应商,甚至在 Meta 内部,Scale AI 也面临数据标注业务的竞争压力。尽管如此,Scale AI 仍在努力适应趋势,投身强化学习环境的构建。

  “这正是(Scale AI)所处行业的本质,”Scale AI 负责智能体与强化学习环境的产品负责人切坦・拉内(Chetan Rane)表示,“Scale 已证明其快速适应的能力:在我们的首个业务板块 —— 自动驾驶领域的早期阶段,我们做到了这一点;ChatGPT 问世后,Scale AI 也成功适应了新趋势;如今,我们再次在智能体、环境等新前沿领域进行调整。”

  部分新兴企业从创立之初便专注于强化学习环境领域。成立约 6 个月的初创公司 Mechanize Work 便是其中之一,该公司提出了 “实现所有工作自动化” 的大胆目标。不过,联合创始人马修・巴尼特(Matthew Barnett)向 TechCrunch 透露,其公司目前正从为 AI 编程智能体打造强化学习环境起步。

  巴尼特表示,Mechanize Work 计划为 AI 实验室提供少量高稳健性的强化学习环境,而非像大型数据公司那样打造大量简单的强化学习环境。为此,该初创公司为软件工程师开出了 50 万美元的年薪(用于构建强化学习*,这一薪资远高于在 Scale AI 或 Surge 从事小时工性质工作的报酬。

  两位知情人士透露,Mechanize Work 已开始与 Anthropic 合作开发强化学习环境。对此,Mechanize Work 与 Anthropic 均拒绝就合作细节置评。

  另有部分初创公司押注强化学习环境在 AI 实验室之外的领域也将产生影响力。由 AI 研究员安德烈・卡帕西(Andrej Karpathy)、Founders Fund 风投、Menlo Ventures 风投支持的初创公司 Prime Intellect,正将其强化学习环境定位为服务中小型开发者。

  上个月,Prime Intellect 推出了强化学习环境中心,目标是打造 “强化学习环境领域的 Hugging Face”(Hugging Face 为 AI 领域知名开源社区)。该平台旨在让开源开发者获得与大型 AI 实验室同等的资源支持,同时在此过程中向开发者出售计算资源访问权限。

  Prime Intellect 研究员威尔・布朗(Will Brown)表示,在强化学习环境中训练具备通用能力的智能体,所需的计算成本可能高于以往的 AI 训练技术。因此,除了打造强化学习环境的初创公司,为这一过程提供算力支持的 GPU 供应商也将迎来机遇。

  “没有任何一家公司能独自主导强化学习环境领域,其规模太大了,” 布朗在采访中说,“我们目前所做的部分工作,只是尝试围绕该领域搭建良好的开源基础设施。我们的核心服务是提供计算资源,这确实是使用 GPU 的便捷入口,但我们更着眼于长期发展。”

  能否实现规模化发展?

  关于强化学习环境,目前尚未有定论的问题是:这项技术能否像以往的 AI 训练 *** 那样实现规模化发展?

  过去一年,强化学习推动了 AI 领域多项重大突破,包括 OpenAI 的 o1 模型、Anthropic 的 Claude Opus 4 模型等。这些突破意义重大,因为此前用于改进 AI 模型的 *** 如今正显现出 “收益递减” 的趋势。

  强化学习环境是 AI 实验室对强化学习技术 “更大押注” 的一部分 —— 许多人认为,随着在该技术中投入更多数据与计算资源,强化学习将持续推动 AI 进步。OpenAI 负责 o1 模型的部分研究人员此前透露,该公司最初之所以投资 AI 推理模型(通过对强化学习和测试时计算的投入开发而成),正是因为他们认为这类模型具备良好的规模化潜力。

  目前,强化学习实现规模化的更佳路径尚不明确,但强化学习环境似乎是颇具潜力的方向。与仅通过文本回复奖励聊天机器人不同,强化学习环境能让智能体在模拟场景中操作工具、使用计算机完成任务 —— 这种方式虽然对资源的消耗远更高,但潜在的回报也更大。

  也有部分人士对强化学习环境的发展前景持怀疑态度。曾担任 Meta AI 研究负责人、现联合创立 General Reasoning 公司的罗斯・泰勒表示,强化学习环境容易出现 “奖励作弊”(reward hacking)现象 —— 即 AI 模型为获得奖励而 “作弊”,并未真正完成任务。

  “我认为人们低估了环境规模化的难度,” 泰勒说,“即便是目前公开可用的更佳(强化学习*,若不进行大幅修改,通常也无法正常使用。”

  OpenAI API 业务工程负责人舍温・吴(Sherwin Wu)在近期播客中表示,他对强化学习环境领域的初创公司 “持看空态度”。吴指出,该领域竞争异常激烈,且 AI 研究发展速度极快,要为 AI 实验室提供优质服务难度很大。

  卡帕西(作为 Prime Intellect 的投资者,曾称强化学习环境可能成为突破性技术)也对整个强化学习领域表达了谨慎态度。他在社交平台 X 的帖子中提出疑问:通过强化学习技术,AI 还能实现多大程度的进步?

  “我对环境与智能体交互持乐观态度,但对强化学习本身持悲观态度。” 卡帕西表示。

文章版权声明:除非注明,否则均为音符科技网 wap.luzhiwang.com原创文章,转载或复制请以超链接形式并注明出处。

相关阅读

  • 周二欧洲股市集体收跌
  • 现货黄金涨超0.3%,美联储政策会议开幕前一度涨穿3700美元创历史新高,金银指数收跌约2.3%
  • 外盘头条:特朗普出访英国 美印重启贸易谈判 米兰宣誓就任美联储理事 金价首次突破3700美元
  • 欧盟委员会主席冯德莱恩:与特朗普讨论加大对俄罗斯的经济压力
  • 以方首次披露:曾在伊朗部署百名外国特工,摧毁其导弹系统
  • 美国总统特朗普抵达英国,进行国事访问
  • 美国股市:标普500指数涨势暂歇 美联储决议倒计时
  • 大宗商品综述:油价上涨 黄金首次突破3700美元 伦铜回落
  • 送礼送到总统心坎上 硅谷科技大佬的特朗普攻略手册
  • 特朗普第二任期内第四度会晤,内塔尼亚胡将再访白宫
  • 9月16日美股成交额前20:高盛预测苹果四季度iPhone收入增长8%
  • 美联储新理事翻出“第三使命” 债券交易员被迫重新审视古老规则
  • 原油:俄罗斯石油供应面临越来越大压力 油价上涨
  • 纽约汇市:欧元升至四年高点 美元在美联储决议前下跌
  • 硅谷大力押注“环境”技术,用于训练AI智能体
  • 周二热门中概多数上涨,百度涨7.81%,蔚来涨8.17%
  • 巴西前总统博索纳罗因身体不适被紧急送医
  • 收盘:美股周二收跌 市场聚焦联储决议
  • 派拉蒙天空之舞尾盘下跌5.4%
  • 特斯拉因火灾风险召回Powerwall 2电池
  • 华纳兄弟探索频道下跌6%
  • 好时尾盘上涨4.4%
  • 莫德纳尾盘上涨4.8%
  • 西方石油公司尾盘上涨5.2%
  • 流动性压力加剧 美国短期利率跃升至年内高点
  • 标普500成份股Steel Dynamics尾盘上涨6.7%
  • 阿帕奇公司成为标普500指数领涨股
  • 从数联古今到“智”绘文明文化遗产“云”上焕新
  • 油价周二收高,市场权衡俄罗斯供应风险与美联储利率决议
  • 尾盘:美股涨跌不一 道指小幅下滑
  • 国际观察丨多哈紧急峰会:阿拉伯国家能否握指成拳
  • 查理·柯克枪击案嫌疑人在犹他州被控一级加重谋杀罪
  • 中企承建的柬埔寨额勒赛下游水电站投产10余年,年均为柬提供10%以上电能——中国技术,守护柬埔寨万家灯火(共建“一带一路”·第一现场)
  • 美国共和党公布权宜支出草案 押注民主党无力阻挠立法通过
  • 花旗家族办公室拥抱私募股权
  • 美国20年期国债中标收益率创年内最低
  • 印度总理莫迪称与特朗普进行了通话
  • 特朗普称共和党将举行一次中期大会
  • 欧盟委员会将提出对以色列的制裁措施
  • 美国和印度重启贸易谈判 双方称会谈“积极”
  • 目录[+]

    取消
    微信二维码
    微信二维码
    支付宝二维码