期待AGI的人要失望了,GPT-5只是个精心打磨的商业化产品

音符科技网

界面新闻记者 | 伍洋宇

界面新闻编辑 | 文姝琪

从GPT-4刷新人类对AI的认知起,世界曾一度以为走到GPT-5就可能打开通往异世界的大门——等到它真正出现的这天才发现,大模型还在攀爬AGI(通用人工智能)的长梯上,不过多走了两三步而已。

北京时间8月8日凌晨,OpenAI正式发布GPT-5,它的简介是对它亮点的核心概括,但你会发现这些措辞依旧无比熟悉:“这是我们迄今为止最智能、最快、最实用的模型,具有内置思维,可将专家级智能交到每个人手中。

GPT-5是一个统一的系统,包含一个能够解答大多数问题的智能高效模型gpt-5-main,以及一个能够解决更复杂问题的推理模型gpt-5-thinking。

OpenAI通过一个实时路由器,来分析判断用户的对话类型、复杂度、工具需求及其明确意图,比如用户在提示词中写道“认真思考一下”,模型就会切换至thinking版本。 

路由器会根据用户的实际使用情况持续训练,包括用户切换模型的时间、回答偏好率以及准确率测量,并随着时间的推移不断改进。

一旦达到使用限制,每个模型的mini版本将处理剩余的查询任务。是的,它还包括gpt-5-main-mini和gpt-5-thinking-mini,以及专为开发者设置的更加高效的版本gpt-5-thinking-nano。

OpenAI计划在不久之后将这些功能集成到一个模型中。目前,GPT-5面向所有用户开放,Plus会员可获得更多使用量,Pro会员则可访问GPT-5 Pro版本,该版本具有扩展推理能力,可提供更全面、更准确的答案。 

这就是GPT-5的全貌,它基本上一一对应了上一代模型。例如GPT-4o对应gpt-5-main,OpenAI o3对应gpt-5-thinking,包括各自的Pro版本和mini版本。 

从性能上来说,GPT-5最突出的表现围绕“现实世界”而来。OpenAI表示,减少幻觉、提高指令执行能力和减少谄媚是它进展最明显的三个方面。

图自OpenAI官网

在AIME 2025(数学)、SWE-bench Verified(真实世界编码)、MMMU(多模态理解)、GPQA(研究生水平推理)等基准测试中,GPT-5已经是当之无愧的SOTA,甚至在AIME 2025中拿下了100分。

GPT-5还在Humanity's Last Exam(人类最后的知识测试)上超过了自己的ChatGPT Agent。HLE是一个极难的学术级别测试,涵盖数学、自然科学、人文等多个领域的高难度封闭题,ChatGPT Agent在HLE上因为多工具协作和并行策略更有优势,但GPT-5作为单体模型依然拿下不错成绩,这说明它自身有更强的思考能力。

图自OpenAI官网

刷榜是结果但不是目的,正如OpenAI所说,GPT-5能力升级的核心表现就是降低幻觉,更加靠近现实世界。

GPT-5现在可以更准确地回答现实世界的疑问。在ChatGPT生产流量中代表匿名提示的网页搜索中,GPT-5回答包含事实错误的概率比GPT-4o低约45%;在思考时,其*含事实错误概率比OpenAI o3低约80%。这是由于OpenAI添加了新的评估 *** ,以对开放式事实性进行压力测试。

团队测量了GPT- 5在思考开放式事实搜索提示时的幻觉率,这些提示词来自两个公开的事实性基准:LongFact和FActScore。在这些基准测试中,“GPT-5-thinking”的幻觉数量比o3少了约六倍。 

另外,它不会像以前那样谄媚了。与GPT-4o相比,GPT-5的亲切感会有所减弱,不必要的表情符号也更少,后续的互动也会更细腻周到。 

降本增效也很重要。据OpenAI,GPT-5相比OpenAI o3,在视觉推理、 *** 编码和研究生水平的科学问题解决等功能上,输出token数量减少了50%至80%。更关键的是,价格也集体打下来了。

图自Twitter(单位每百万tokens)

在实际应用上,GPT-5把编程能力提升到了新高度。一名AI领域从业人士对界面新闻记者表示,从一些常规测试来看,GPT-5的表现很难评断有多少提升,因为在实际使用中已经很少有人需要从0开始写代码,但对于一些代码修改型任务,它明显会更精准。

另有一名已经使用GPT-5的用户对界面新闻记者表示,其身边人共同探讨的结论是,这次发布可能还是够不上一个大版本更新,“更像是从iPhone 4到iPhone 4S”。

现在局面已经很明确,期待已久的GPT-5大概率会是个成功的商业化产品套组,但它不是如想象般突破AGI进程的要塞,大模型可能已经不是这片战场最有用的武器了。

文章版权声明:除非注明,否则均为音符科技网 wap.luzhiwang.com原创文章,转载或复制请以超链接形式并注明出处。

相关阅读

  • 金徽酒借力体育布局开拓新疆市场
  • 薛文加速“村改支”,常熟银行异地盈利占比下滑
  • 电机行业董秘薪酬榜:凯中精密因多项财务违规被罚 董秘秦蓉84万年薪位列业内第二
  • 于东来称新店会把2%岗位给服刑人员 当地人社部门回应
  • 减肥药概念震荡反弹,美诺华涨停
  • 股价集体上涨,42家上市银行最新市值排名
  • 神开场! 特朗普会见韩代表 开口先问“金正恩好吗”
  • 电机行业董秘薪酬榜:江南奕帆董监高股票交易屡次违规 董秘唐颖彦仍涨薪至59万上榜
  • 万亿城商行零售谁更强?
  • 抖音回应周口医生坠亡相关账号处置:收到侵权举报48次,正积极配合调查工作
  • 电机行业董秘薪酬榜:八方股份净利腰斩连续3年下滑 董秘周琴专科学历以50万年薪上榜
  • 7000元/瓶,茅台新品2分钟被抢光
  • 第一集|《锦月如歌》:救救“女将军101”吧
  • 电池行业董秘薪酬榜:欣旺达筹划港股IPO融资 董秘曾玓年薪234万反超宁德时代蒋理
  • 电池行业董秘薪酬榜:中伟股份2024净利下滑25% 董秘廖恒星年内涨薪至241万居首
  • 美国那点事|两党争画“蝾螈”,引爆2026中期选举前哨战
  • 光电子行业上市公司董秘PK:东田微董秘李广华年薪仅28.54万元,为全行业最低
  • 快讯APP巅峰对决:新浪财经APP如何以“快智双核”领跑行业?——十大平台深度横评
  • 光电子行业上市公司董秘PK:亚世光电边瑞群年龄最高,为63岁,2016年开始任职
  • 光电子行业上市公司董秘PK:南极光董秘姜丽群仅29岁,自2021年开始任职,为业内最年轻董秘
  • 光电子行业上市公司董秘PK:业内唯一博士董秘徐凤英年薪276.80万元,远超本科和硕士平均薪酬
  • 特朗普提名新任美联储理事,不会是鲍威尔的继任者
  • 日本央行立场偏鸽引发日元抛售,美元兑日元小幅反弹,但不改调整结构
  • 特朗普手握“胡萝卜加大棒” 美国清洁能源当何去何从?
  • 电池行业董秘薪酬榜:派能科技净利大降92%连续2年下滑 董秘叶文举144万年薪上榜
  • 李嘉诚旗下和黄医药,股价闪崩!公司囤积现金近百亿元,大幅减少在中国以外的研发投资
  • 光电子行业上市公司董秘PK:TCL科技廖骞薪酬最高,达581.53万元,对应日薪超2万元
  • 光学光电子行业上市公司财务总监PK:水晶光电CFO郑萍59岁,薪酬268.89万元,排名行业第三
  • 电池行业董秘薪酬榜:格林美潘骅年薪220万上榜 年内大涨超百万涨幅达118%
  • 比速度更重深度,比全面更求精准:新浪财经APP的快讯,比“及时”更快一步的体验
  • 光学光电子行业上市公司财务总监PK:业内唯一博士CFO为长阳科技李辰,薪酬为58.51万元,低于本科及硕士
  • 光学光电子行业上市公司财务总监PK:GQY视讯夏治锋、艾比森张玲容均为37岁,行业最年轻CFO
  • 光学光电子行业上市公司财务总监PK:三安光电CFO黄智俊72岁,年龄全行业最高,自2007年开始任职
  • 光学光电子行业上市公司财务总监PK:纬达光电CFO赵刚涛薪酬仅22.06万元,为全行业最低
  • 乘用车行业董秘薪酬榜:长城汽车因违规被出具监管工作函 董秘李红栓年薪位列第二未披露学历
  • 中信期货:午盘点评8.8
  • 光学光电子行业上市公司财务总监PK:冠捷科技CFO张强薪酬最高,为391.41万元,折合日薪约1.6万元
  • 中国驻缅甸使馆举行中国远征军阵亡将士祭扫活动
  • 常熟银行上半年实现净利19.69亿元,持续“吞并”村镇银行资本充足率走低
  • 半导体行业上市公司财务总监PK:3位博士中汇顶科技CFO郭峰伟年龄最小,薪资却最高,达418.88万元
  • 目录[+]

    取消
    微信二维码
    微信二维码
    支付宝二维码