DeepSeek-V3.1正式发布:思考时间变短,但API调用价格涨了

音符科技网

界面新闻记者 | 宋佳楠

DeepSeek用户没能等到传闻中的R2模型,但V3.1版先来了。

8月21日,界面新闻从DeepSeek官方公众号获悉,其最新大语言模型DeepSeek-V3.1正式发布。此时距离DeepSeek-V3-0324推出已过去5个月时间。

据DeepSeek介绍,新升级版本的变化主要体现在三个方面:混合推理架构、更高的思考效率、更强的Agent(智能体)能力。如果仅从命名来看,DeepSeek-V3.1更像是前一代DeepSeek-V3模型的小版本迭代。

DeepSeek-V3.1实现了一个模型同时支持思考模式与非思考模式。它就像一个拥有两种工作模式的超级大脑,当面对简单问题时,能以非思考模式快速给出答案。而在处理复杂问题时,可切换到思考模式,给出更具深度和逻辑的解答。用户可通过官方App或网页端的“深度思考”按钮切换这两种模式。

官方数据显示,与DeepSeek-R1-0528相比,DeepSeek-V3.1在思考模式下效率大幅提升,能在更短时间内给出答案,且经过思维链压缩训练,token(大模型文本处理的最小单位)消耗量可减少20%至50%,各项任务的平均表现与R1-0528持平。R1-0528是DeepSeek于今年5月发布的旗舰推理模型DeepSeek R1的升级版本。

R1-0528与V3.1-Think的token消耗量对比图

同时,V3.1在非思考模式下的输出长度也得到了有效控制,相比于DeepSeek-V3-0324,能够在输出长度明显减少的情况下保持相同的模型性能。

通过Post-Training(后训练,大语言模型训练流程中的关键阶段)优化,新模型在工具使用与编程、搜索等智能体任务中的表现大幅提升。在代码修复和命令行终端任务测试中,DeepSeek-V3.1相较以往模型进步明显。

社区第三方测试数据显示,在Aider多语言编程基准测试中,V3.1取得了71.6%的高分,超越了Anthropic的Claude 4 Opus等多个知名模型,且完成一次编程任务的成本仅为1.01美元,成本效益优势显著。

随着V3.1发布,DeepSeek也同步调整了API接口调用价格,并取消夜间优惠。自北京时间2025年9月6日凌晨起,输入价格方面,缓存命中时为0.5元/百万tokens,缓存未命中时则涨至4元/百万tokens(此前V3为2元/百万tokens);输出价格调整为12元/百万tokens(此前V3为8元/百万tokens)。

DeepSeek-V3.1 API调用价格

值得注意的是,DeepSeek还在评论区中提到,DeepSeek-V3.1使用了UE8M0 FP8 Scale的参数精度。另外,V3.1对分词器及chat template进行了较大调整,与DeepSeek-V3存在明显差异。DeepSeek官微在置顶留言里表示,UE8M0 FP8是针对即将发布的下一代国产芯片设计。

此前有第三方数据显示,DeepSeek用户使用率和官网流量回落。据之一财经报道,360集团创始人周鸿祎对此表示,DeepSeek官网流量下降是因为DeepSeek没有花心思,但现在很多第三方云服务上都有DeepSeek的服务,用了DeepSeek的大模型流量一直很高。在中国,许多公司包括360智能体的基座模型等都使用DeepSeek来改,相当于很多公司的“武器装备”都是DeepSeek提供的。

DeepSeek(深度求索)是2023年成立于杭州的人工智能公司,由幻方量化孵化。创始团队由梁文锋领衔,成员来自顶尖高校与国际机构技术专家。

截至目前,DeepSeek推出了DeepSeek-V3、DeepSeek-R1等模型,具备混合专家架构(MoE)、多头潜在注意力(MLA)等技术优势,在数学推理、代码生成等任务上表现出色,且训练和推理成本较低。其部分模型采用MIT许可开源(一种广泛使用的开源软件许可证),已在金融、医疗等领域落地应用。

文章版权声明:除非注明,否则均为音符科技网 wap.luzhiwang.com原创文章,转载或复制请以超链接形式并注明出处。

相关阅读

  • 午盘:美股走低道指跌逾200点 沃尔玛下跌4.5%
  • 记者手记:这本笔记本,写满西藏人民的祝福与期盼
  • 欧洲主要股指收盘涨跌不一,欧洲斯托克50指数跌0.17%
  • 克利夫兰联储行长Hammack:如果明天就举行决策会议 不会支持降息
  • 广西南宁市新发现4例基孔肯雅热病例
  • 言短意长|院士增选,颜宁可以推荐同门师兄柴继杰吗
  • 美国司法部将调查美联储理事库克 敦促鲍威尔将其免职
  • 美国制造业活动扩张速度为2022年以来最快 受需求提振
  • 外汇市场8月波动反常低迷 交易员静候美联储信号
  • 以色列总理将与军方高官就接管加沙城进行安全磋商
  • 中方回应印度官员涉台言论:希望印方切实恪守一个中国原则
  • 家暴者毒杀子女:悲剧焦点不在离婚冷静期
  • 大商所、郑商所夜盘收盘,烧碱涨超2%
  • e法耀陇原|甘肃:科技赋能筑牢“网络安全”坚固堤坝
  • 乾元微珂再度向港交所提交上市申请
  • 深交所上市委:纳百川首发定于8月28日上会
  • 贾志伟获批担任澳门国际银行总经理
  • 江西萍乡警方通报一货车制动失灵撞多车:1 人轻微伤留院观察
  • 江西萍乡警方:一货车制动失灵致多车受损,1人轻微伤留院观察
  • 滴滴、曹操出行等网约车平台降低抽成,最低减至22.5%
  • WTT欧洲大满贯瑞典站:林诗栋蒯曼晋级混双决赛
  • 堪萨斯城联储行长:保持适度限制性的货币政策仍然适宜
  • 卓胜微:上半年归母净亏损1.47亿元,同比由盈转亏
  • 俄媒:俄任命新的“北部”集团军司令
  • 永茂泰:不存在逾期情况
  • 鑫铂股份:选举职工代表董事
  • 云冈石窟景区通报“拍照刺客”事件:非景区工作人员,将加强巡查力度
  • 创新业务成新一轮增长主力 润和软件上半年扣非后净利同比增长47.33%
  • 上海“临港科创城”推进大会举行,临港集团 “超级个体288行动”发布
  • 【市场探“涨”】行业巨头协同提价!
  • 在后面搬东西、整理物品,太闹心!12306回应
  • 影石发布口袋相机GO Ultra
  • 云冈石窟景区通报“拍照刺客”事件:非景区工作人员
  • 688692 总经理刚被留置 副总又被立案调查!
  • 歌尔股份上半年营收同比下降7% 净利润同比增长约16%
  • 亿纬锂能上半年营收同比增长30% 动力电池出货量、毛利率双增
  • 探路者:大股东王静计划减持不超过422.47万股
  • 威奥股份:宿青燕累计质押公司股份数量为6550万股
  • 顺发恒业:聘任龚航为公司证券事务代表
  • 女子40岁生二胎儿子约定随母姓,丈夫反悔起诉离婚,法院判了
  • 目录[+]

    取消
    微信二维码
    微信二维码
    支付宝二维码