训练成本大降超九成!阿里开源下一代基础模型架构,引入混合注意力机制

音符科技网

阿里开源全新架构Qwen3-Next,80B参数新模型只需激活3B即可实现旗舰性能。

9月12日,阿里通义发布下一代基础模型架构Qwen3-Next和基于新架构的模型Qwen3-Next-80B-A3B,包含两个版本:更擅长理解和执行指令的指令(Insctruct)模型,以及更擅长多步推理和深度思考的推理(Thinking)模型。

据介绍,相比Qwen3的MoE(混合专家)模型结构,Qwen3-Next进行了以下核心改进:混合注意力机制、高稀疏度MoE结构、一系列训练稳定友好的优化,以及提升推理效率的多token预测机制(简称MTP,Multiple-Token Prediction)。

在核心技术方面,新模型采用全球首创混合架构,75%用Gated DeltaNet(线性注意力),25%用原创Gated Attention(门控注意力),总参数80B只需激活3B,就可以在性能上媲美Qwen3旗舰版235B模型,算力利用率约为3.7%,帮助用户“极致省钱”。

在训练成本方面,Qwen3-Next模型较今年4月发布的密集模型Qwen3-32B大降超90%,长文本推理吞吐量提升10倍以上。新模型在Qwen3预训练数据的子集15T tokens上进行预训练,仅需Qwen3-32B所用GPU计算资源的9.3%,便能训练出性能更好的Qwen3-Next-Base基座模型,大幅提升了训练效率。

阿里通义团队指出,高稀疏MoE架构是Qwen3-Next面向下一代模型的最新探索。当前,MoE是主流大模型都采用的架构,通过激活大参数中的小部分专家完成推理任务。此前,Qwen3系列的MoE专家激活比约为1比16,而Qwen3-Next通过更精密的高稀疏MoE架构设计,实现了1比50的极致激活比,创下业界新高。

在性能表现方面,Qwen3-Next指令模型的性能表现与参数规模更大的Qwen3-235B-A22B-Instruct-2507持平,思维模型表现优于谷歌闭源模型Gemini-2.5-Flash-Thinking。

Qwen3-Next-80B-A3B-Instruct指令模型性能评测图。来源:阿里通义

目前,新模型已在魔搭社区和HuggingFace开源,开发者也可通过Qwen Chat免费体验,或直接调用阿里云百炼平台提供的API服务。

关于Qwen3-Next模型值得注意的创新点,Pine AI联合创始人、首席科学家李博杰对澎湃新闻记者表示,Qwen3-Next采用了混合注意力机制和高稀疏MoE架构,从而大幅提升效率;除了这两大创新点以外,Qwen3-Next还在预训练时采用了多Token预测技术MTP(Mutiple-Token Prediction),模型推理速度大幅提升。

李博杰表示,虽然以上三种技术创新在学界已有研究,但阿里证明了其在工业界的实用性,同时还保持了开源:“Qwen3-Next之一次证明了这些技术能够放在一起共同运作,并且能够在实际的业务场景中展现出很好的能力表现。从评测结果和模型架构来看,Qwen3-Next已经达到了谷歌Geimini 2.5 flash的水平。”

近期,阿里通义动作频频,包括推出超万亿参数的Qwen3-Max-Preview、文生图及编辑模型Qwen-Image-edit、语音识别模型Qwen3-ASR-Flash等。全球AI开源社区HuggingFace的最新数据显示,通义千问Qwen衍生模型数已超17万,稳坐全球之一开源模型。

9月1日,国际权威市场调研机构沙利文(Frost&Sullivan)发布了最新的《中国GenAI市场洞察:企业级大模型调用全景研究,2025》,报告显示,中国企业级大模型调用呈爆发式增长,2025年上半年日均调用量较2024年底实现363%的增长,目前超10万亿Tokens。其中,阿里通义占比17.7%位列之一,是中国企业选择最多的大模型。

文章版权声明:除非注明,否则均为音符科技网 wap.luzhiwang.com原创文章,转载或复制请以超链接形式并注明出处。

相关阅读

  • 树立中国ESG新标杆!新浪财经携手飞鹤共探ESG实践新路径
  • 驻墨西哥大使陈道江向墨总统辛鲍姆递交国书
  • 瑞源生物科技刘恩照:坚持以生态保护践行“两山”理论,将环境包袱变为绿色财富
  • 外交部:各方期待再聚北京,共同完善妇女事业全球治理
  • 区块链金融基础设施平台Figure上市
  • 西贝发公开信:罗永浩指责不实,13道菜品具体制作过程向全社会公布
  • 我国商用密码认证体系日趋完备,32类产品已纳入认证体系
  • 台北一社区水塔发现男性浮尸,住户至少喝了2天“尸水”,法医:不必担心,煮沸就行
  • 被美移民突袭行动拘留的数百名韩国工人回国
  • Rivian因软件问题召回逾2.4万辆电动汽车
  • 德勤中国胡建宇:中国飞鹤的ESG优势已经成为其长期、稳健发展的核心竞争力
  • 视频|精彩不断,相约服贸!工银瑞信邀您闯关“正钱方”反洗钱卷宗迷宫
  • 新浪财经CEO邓庆旭:飞鹤ESG实践早已突破“企业自身发展”边界,深度融入国家战略与社会需求
  • 外交部:坚决反对美国一些政客动辄拿中国说事、散布虚假信息污蔑抹黑中国
  • 台外事部门负责人窜访欧洲,外交部:强烈不满、坚决反对,已向有关国家提出严正交涉
  • 阿联酋总统与法国总统通电话,谴责以色列威胁地区安全
  • 刚刚,西贝发文:感谢罗永浩,反对罗永浩
  • “费用都收到2036年了!”长城宽带诱导用户重复续费,承诺退款又爽约
  • 一职业学院学生澡堂门口排长队等洗澡,校方:学生军训后集中过来造成拥挤,将向后勤处反映
  • 于东来力挺西贝
  • 韩国股市收涨1.54%再创历史新高 周线创四年半来最大涨幅
  • 活力中国调研行|从邮轮到汽车,上海外高桥如何打通出海路
  • 保险业8月罚单同比增速达43.61%
  • 国家公园法明年1月1日起施行,我国国家公园有了专门法律
  • 台湾地区外事官员窜访欧洲,外交部:已向有关国家严正交涉
  • 盘中必读|今日共74股涨停,存储芯片、贵金属股逆势上涨
  • 国新国证基金:降费让利,回归本源,着力提升投资者获得感
  • 福建舰开展科研试验和训练任务,外交部:航母建造过程中正常安排
  • 日经225指数收于历史新高 受隔夜美股和日本芯片相关股上涨提振
  • 药捷安康盘中涨幅扩大超130%,上市以来累涨超1600%
  • 政策解读 |国新国证基金:公募基金实施长周期考核,行业生态迎深刻变革
  • 云南德宏州盈江县支那乡已更名为姐那乡
  • 鹏辉能源:固态电池中试线预计三季度末基本建设完毕
  • 外交部回应福建舰通过台湾海峡:完全合法
  • 中国如何以减贫合作助力南方国家?外交部答澎湃:愿让每一片土地都孕育希望
  • 寒武纪大涨近10%后回落,“股王”宝座得而复失
  • 嘉实基金:共聚合力 扎实做好金融工作“五篇大文章”
  • 财政部谈深化财税体制改革:已制定实施方案,正在抓紧推进
  • 以色列三天内袭击多国,外交部喊话以色列为停火谈判多做积极努力
  • “十四五”时期,五年投入近100万亿元!
  • 目录[+]

    取消
    微信二维码
    微信二维码
    支付宝二维码