天风证券:GPT5在降低幻觉/欺诈,增加指令遵循上取得突破,在写作/编码/健康领域表现显著

音符科技网

  炒股就看,权威,专业,及时,全面,助您挖掘潜力主题机会!

  来源:天风计算机

  GPT-5是由多个模型和实时路由机制组成的同一系统

  GPT-5 是一个整合多模型的统一系统,包含快速响应的基础模型(gpt-5-main、gpt-5-main-mini)、深度推理模型(gpt-5-thinking、gpt-5-thinking-mini),以及实时路由机制。路由模块根据对话类型、复杂度、工具需求等动态选择模型,并通过用户交互数据持续优化。模型主要依靠Azure AI训练完成

  GPT-5性能提升的同时在减少幻觉/提升指令遵循上取得突破

  (1)GPT-5在性能上普遍优于GPT4和o3/o4系列,目前榜单上各项能力都排名之一

  FrontierMath测试上,GPT-5(Python)的准确率为26.3%(对比o4-mini的19.3%)

  在Humanity‘s Last Exam上GPT5(no tools)的准确率24.8%(对比o3 no tools的14.7%)

  在coding测试的SWE-bench Verified上,GPT-5思考模型准确率75% VS 的69%

  多模态上,在MMMU和VideoMMMU等测试上有所提升

  (2)在幻觉和诚实上,GPT-5取得较大突破#幻觉率是应用尤其是B端应用的巨大痛点

  在ChatGPT启用 *** 搜索完成某任务后,GPT-5的响应包含事实错误的可能性比GPT-4 o低约45%,在思考模式,GPT-5的响应包含事实错误的可能性比OpenAI o3低约80%;整体幻觉率从5%等级降低到不足1%;GPT-5这一代思考模型比慢思考模型幻觉率大幅下降(之前都是慢思考模型幻觉率更高);此外在诚实度上提升较多欺诈减少,欺诈率从o3的4.8%降低到2.1%

  (3)推理性价比提升,思考效率提升

  GPT-5(thinking)思考效率表现优于OpenAI o3,在包括视觉推理, *** 编码等任务重输出tokens减少了50-80%。同时单位推理成本较O3略降,主模型 $1.25 / M 输入,$10 / M 输出(o3 $2/M输入、$8/M输出);mini / nano 依次 0.25 / 0.05 美元起,核心是为了解决多Agent/长COT范式下,性能和Token消耗量提升不匹配的问题

  打造代码/创意写作和健康领域的优势场景

  (1)Coding上,复杂前端生成和大型数据仓库调用上变强

  (2)创意写作上可将粗略想法转化为有文学深度的内容,擅长处理结构模糊的文体

  (3)健康领域能主动识别潜在健康风险、追问关键信息,适配用户的知识水平、地域和场景

  (4)复杂指令和Agent场景,精准遵循多步骤指令,协调多种工具(如网页搜索、代码执行),适应上下文变化

  GPT-5在性能/成本上全面提高,同时幻觉率看到快速下降,看好AI应用的产业机会

  

  天风计算机 缪欣君/刘鉴/刘琳琳

新浪声明:此消息系转载自新浪合作媒体,新浪网登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述。文章内容仅供参考,不构成投资建议。投资者据此操作,风险自担。

文章版权声明:除非注明,否则均为音符科技网 wap.luzhiwang.com原创文章,转载或复制请以超链接形式并注明出处。

相关阅读

  • 6分钟,垂直涨停!军工股,突发异动!
  • 甘肃发布山洪灾害橙色预警
  • 部分天沃科技(002564)投资者索赔案已获赔到位
  • 世纪华通(002602)投资者索赔案再次提交法院立案,微创光电(430198)索赔案启动
  • ST东通:年薪百万董事长被立案调查,公司3年亏损12亿
  • 沐邦高科(603398)、卓朗科技(600225)投资者索赔案向法院提交立案
  • 以色列安全内阁批准加沙占领计划,哈马斯:为了完成种族灭绝
  • 绝味食品归母净利润暴跌34%,原财务总监王志华逆势涨薪4万至148万,今年7月离任
  • 沪深两市成交额连续第52个交易日破万亿元
  • 男子被控强奸朋友女友,打了4年官司,再审改判无罪
  • 高股息资产显著分化!红利低波ETF(512890)近5个交易日吸金2.4亿元 规模突破220亿创新高
  • 港股午评:恒生指数跌0.66%,恒生科技指数跌0.99%,医药外包概念股走弱
  • 国家铁路集团950亿成立新藏铁路公司
  • 强制交社保,连锁反应开始了
  • 今年前7个月长江干线港口货物吞吐量超23亿吨
  • 钢铁板块震荡反弹,沙钢股份涨停
  • 天津启动防汛四级应急响应
  • 午间涨跌停股分析:46只涨停股、1只跌停股,超级水电概念活跃,山河智能5天3板
  • 平治信息:公司累计签订的算力业务订单已超22亿元
  • 锌业股份财务总监张俊廷大专学历连续4年薪酬62万不变,公司业绩过山车,近3年归母净利润有2年暴跌7成
  • 董明珠:在家电行业,格力是唯一一个不做房地产的企业
  • 低度酒行业上市公司董秘观察:5家公司董秘薪酬下降 古越龙山董秘吴晓钧降薪5.87万元至60.93万元
  • 脑机接口利好来袭!概念股20%涨停!
  • 低度酒行业上市公司董秘观察:5家公司董秘薪酬下降 金枫酒业张黎云降薪18.63万元至47.61万元
  • 特朗普见面第一句问“金正恩最近好吗”,韩方代表不知所措
  • 中小学生体质下滑趋势迎来拐点?多项体测数据变强了
  • 超捷股份:已取得包括智元机器人等部分客户小批量样品及正式小批量订单
  • 堤坝决口、水库溃坝?警惕这些闻“汛”而来的谣言|安全贴心话
  • 午评:港股恒指跌0.66% 科指跌0.99% 科网股全线下跌 风电股强势
  • 低度酒行业上市公司董秘观察:5家公司董秘薪酬在增加 惠泉啤酒程晓梅增加21.96万元至55.54万元
  • 浦发银行的内控“黑洞”何时休?
  • 7月挖掘机销量同比大增25.2%,内外需共振下景气度有望延续
  • 中国宏桥午前涨近3% 上半年纯利同比预增35%左右
  • 低度酒行业上市公司董秘观察:燕京啤酒董秘徐月香薪酬增长金额最高 增加24.43万元至105.16万元
  • 锂业股午前再度活跃 天齐锂业涨逾4%赣锋锂业涨逾2%
  • 低度酒行业上市公司董秘观察:*ST兰黄呼星薪酬为29.33万元 仅次于莫高股份
  • 一男子发布12字评论被行拘,两年3次判决
  • 景兴纸业财务总监盛晓英大专学历年薪88万,公司归母净利暴跌22%而CFO薪酬仅微降0.9%
  • 董明珠:一个好企业不赚钱不行,但永远赚钱不是好企业的目的和目标
  • 马斯克:特斯拉不应同时推进两种截然不同的芯片设计
  • 目录[+]

    取消
    微信二维码
    微信二维码
    支付宝二维码