OpenAI称GPT-5在众多职业领域表现比肩人类

音符科技网

  OpenAI 于周四发布一项新基准测试,旨在评估其人工智能模型在各类行业及职业中与人类专业人士的表现差异。这项名为 GDPval 的测试,是该公司为了解自身系统在 “高经济价值工作” 上与人类表现的接近程度所做的初步尝试 —— 而实现这一目标,正是 OpenAI 成立使命中 “研发通用人工智能(AGI)” 的关键组成部分。

  OpenAI 表示,研究发现其 GPT-5 模型及 Anthropic 公司的 Claude Opus 4.1 模型 “在工作质量上已接近行业专家水平”。

  但这并不意味着 OpenAI 的模型即将立即取代人类岗位。尽管部分首席执行官预测人工智能将在数年内取代人类工作,但 OpenAI 承认,目前 GDPval 测试仅覆盖了人类实际工作中极为有限的一部分任务。不过,这仍是该公司衡量人工智能向 “超越人类” 这一里程碑迈进的最新方式之一。

  GDPval 测试基于对美国国内生产总值(GDP)贡献更大的 9 个行业,涵盖医疗健康、金融、制造业、 *** 服务等领域。该基准测试评估人工智能模型在这些行业的 44 种职业中的表现,职业范围从软件工程师、护士到记者不等。

  在 GDPval 测试的首个版本(GDPval-v0)中,OpenAI 邀请资深专业人士对人工智能生成的报告与其他人类专业人士生成的报告进行对比,并选出表现更优的一份。例如,其中一项测试要求投资银行家撰写 “最后一公里配送行业” 的竞争对手分析报告,并将其与人工智能生成的报告对比。随后,OpenAI 会计算该人工智能模型在所有 44 种职业的测试中,其报告 “优于或与人类报告持平” 的胜率平均值。

  对于 GPT-5 的增强版本 ——GPT-5-high(配备额外计算能力),OpenAI 表示该模型在 40.6% 的测试场景中,表现被评定为 “优于或与行业专家持平”。

  OpenAI 还对 Anthropic 公司的 Claude Opus 4.1 模型进行了测试,结果显示该模型在 49% 的任务中表现 “优于或与行业专家持平”。不过 OpenAI 认为,Claude 能取得如此高的评分,更多是因为其擅长生成视觉效果出色的图表,而非单纯依靠任务表现本身。

  值得注意的是,大多数职场人士的工作远不止 “向老板提交研究报告”—— 而这正是 GDPval-v0 测试的全部内容。OpenAI 也承认这一局限性,并表示计划在未来开发更全面的测试,纳入更多行业及交互式工作流程的评估。

  尽管如此,OpenAI 仍认为在 GDPval 测试中取得的进展值得关注。

  在接受 TechCrunch(科技媒体)采访时,OpenAI 首席经济学家亚伦・查特吉(Aaron Chatterji)博士表示,GDPval 的测试结果表明,从事这些职业的人如今可以借助人工智能模型,将时间投入到更有意义的任务中。

  “(因为)模型在这些任务上的表现越来越出色,” 查特吉说,“随着模型能力的不断提升,从事这些工作的人可以越来越多地借助模型分担部分工作,进而去完成潜在价值更高的任务。”

  OpenAI 评估部门负责人特贾尔・帕特瓦丹(Tejal Patwardhan)向 TechCrunch 表示,GDPval 测试中展现的进步速度让她备受鼓舞。约 15 个月前发布的 OpenAI GPT-4o 模型,在该测试中 “优于或与人类持平” 的胜率仅为 13.7%;而如今 GPT-5 的胜率几乎是其 3 倍,帕特瓦丹预计这一上升趋势还将持续。

  硅谷拥有多种用于衡量人工智能模型进展、判断某一模型是否达到 “更先进水平” 的基准测试,其中更受欢迎的包括 AIME 2025(竞争性数学题测试)和 GPQA Diamond(博士级科学问题测试)。然而,部分人工智能模型在这些基准测试中已接近 “性能饱和”,许多人工智能研究者表示,亟需更完善的测试来评估模型在实际任务中的能力。

  随着 OpenAI 不断证明其人工智能模型对多个行业具有实用价值,GDPval 这类基准测试在相关讨论中的重要性可能会日益提升。但要明确宣称其人工智能模型能超越人类,OpenAI 或许还需要推出更全面的测试版本。

文章版权声明:除非注明,否则均为音符科技网 wap.luzhiwang.com原创文章,转载或复制请以超链接形式并注明出处。

相关阅读

  • 新一轮楼市政策叠加促销活动,国庆中秋假期多地房产销售涨幅明显
  • 美国战争部长自曝:特朗普在白宫吼我,因没做好事
  • 以色列代表团抵达埃及,将与哈马斯谈判
  • 盘前:纳指期货涨0.70% AMD飙升34%
  • OpenAI再联手芯片巨头:有望最高获AMD 10%股权,共同部署6GW算力
  • 大阪世博会展出“国瓷(清代)精品技艺展”
  • 三名解答免疫系统如何受控的科学家获2025年诺贝尔生理学或医学奖
  • 预计美政府停摆2-4周|国庆大咖谈
  • Fifth Third将收购Comerica 成为今年美国银行业最大并购案
  • 我的新疆日记|巴基斯坦博士阿巴斯的新疆日记
  • 三位诺奖新得主,为自身免疫性疾病带来“革命性希望”
  • 一边喊繁荣 一边催降息:特朗普政府的“分屏式”经济叙事
  • 西藏定日县受降雪影响350名游客已安全返程
  • 印尼学校建筑物倒塌事故遇难人数升至64人
  • 2025年诺贝尔生理学或医学奖揭晓三位科学家因外周免疫耐受研究获奖
  • 看图学习·文脉华章丨月满中秋,感悟中国精神、中国价值、中国力量
  • 新内阁刚诞生总理便“闪辞”法国政坛矛盾究竟何在?
  • AMD盘前涨幅扩大至33%
  • 上海旅游节“人财两旺”:接待市民游客人数和旅游消费交易额均刷新纪录
  • 言短意长|月照两岸,共盼团圆
  • 2025生理学或医学诺奖揭晓:三位科学家因发现免疫系统“维和部队”获奖
  • 美国政府停摆持续,国债收益率走高
  • 受持续降雨影响,甘肃麦积山石窟暂时关闭
  • 五三银行拟以109亿美元全股票交易收购科美利加银行
  • “贫民饭”亮相香港,港人怒骂:“堕落”
  • 女版安倍晋三,要在一件大事上对中国下重手?
  • 美知名药店来德爱宣布关闭全美所有门店
  • 传OpenAI拟入股AMD,这家AI芯片制造商盘前暴涨25%
  • 非遗剪纸、古风集市……中秋上海处处上演“中式浪漫”
  • 佩斯科夫:希望美方支持俄有关《新削减战略武器条约》延期提议
  • 【专访丨马中跨境游驶入发展“快车道”──访马来西亚国家旅游局副局长李泰康】
  • 助贷新规正式实施!银行合作伙伴名单曝光
  • 英伟达合作伙伴鸿海销售额增长 11%,人工智能前景获提振
  • 开店超过100家,蔡澜点心奔赴10个亿
  • 美军打击加勒比海运毒船防长赫格塞斯:具备所有必要授权
  • 菲律宾一桥梁垮塌
  • 准备观赏!今年中秋满月是一轮“超级月亮”
  • 法国辞职总理离任讲话:执政条件不具备
  • 以哈冲突爆发整两年,以军平均每天杀害92名巴勒斯坦人
  • OpenAI与AMD宣布百亿美元芯片大单:前者入股后者至多10%
  • 目录[+]

    取消
    微信二维码
    微信二维码
    支付宝二维码