您的位置:首页 >快讯 >

阿里深夜干了件大事,成本暴降90%!

2025-09-12 19:00:22    来源:智东西

智东西

作者 | 程茜


(资料图片)

编辑 | 心缘

智东西9月12日报道,今天凌晨,阿里通义实验室正式发布下一代基础模型架构Qwen3-Next,并训练了基于该架构的Qwen3-Next-80B-A3B-Base模型,该模型拥有800亿个参数仅激活30亿个参数。

Base模型在Qwen3预训练数据的子集15T tokens上进行,仅需Qwen3-32B 9.3%的GPU计算资源,针对超过32k的上下文,推理吞吐量可达到Qwen3-32B的10倍以上。

同时,基于Base模型,阿里开源了Qwen3-Next-80B-A3B的指令模型(Instruct)和思维模型(Thinking),模型支持原生262144个token上下文长度,可扩展至1010000个token。

其中,Qwen3-Next-80B-A3B-Instruct仅支持指令(非思考)模式,其输出中不生成块;Qwen3-Next-80B-A3B-Thinking仅支持思考模式,为了强制模型进行思考,默认聊天模板自动包含。

指令模型的性能表现与参数规模更大的Qwen3-235B-A22B-Instruct-2507相当,思维模型优于谷歌闭源模型Gemini-2.5-Flash-Thinking。

▲指令模型测试基准

▲思维模型测试基准

在架构升级方面,相比阿里4月底的Qwen3 MoE模型,新增了混合注意力机制、高稀疏度MoE结构、一系列训练稳定友好的优化,以及提升推理效率的多Token预测(MTP)机制等。

新模型已在魔搭社区和HuggingFace开源,开发者们也可通过Qwen Chat免费体验或阿里云百炼、NVIDIA API Catalog体验Qwen3-Next。

开发者在Qwen的X评论区称赞其新增的多Token预测(MTP)机制,称这是最令人印象深刻的部分。

阿里云百炼:https://bailian.console.aliyun.com/?tab=model#/model-market/detail/qwen3?modelGroup=qwen3

一、指令模型接近235B旗舰模型,推理模型超Gemini-2.5

Qwen3-Next模型支持原生262144个token上下文长度,可扩展至1010000个token。

总的来看在性能方面,指令模型接近阿里参数规模235B的旗舰模型,思维模型表现优于Gemini-2.5-Flash-Thinking。

其基座模型为Qwen3-Next-80B-A3B-Base,仅使用1/10的Non-Embedding激活参数,在大多数基准测试中,性能表现与Qwen3-32B-Base相近。但其总训练成本为Qwen3-32B-Base的10%不到,并且对于超过32K上下文的推理吞吐是Qwen3-32B的10倍以上。

得益于其新的混合模型架构,Qwen3-Next在推理效率方面,与Qwen3-32B相比,Qwen3-Next-80B-A3B在预填充(prefill)阶段,在4k tokens的上下文长度下,吞吐量接近前者的7倍,当上下文长度超过32k时,吞吐提升达到10倍以上。

在解码(decode)阶段,该模型在4k上下文下实现近4倍的吞吐提升,在超过32k的长上下文场景中能保持10倍以上的吞吐优势。

具体来看,其指令模型表现优于Qwen3-30B-A3B-Instruct-2507和Qwen3-32B-Non-thinking,并取得了几乎与参数规模更大的Qwen3-235B-A22B-Instruct-2507模型相近的结果。

只有在面向大模型的综合性评测基准、高难度数学推理基准AIME25中,指令模型的表现略逊色于Qwen3-235B-A22B-Instruct-2507,在编程、复杂问答与长对话的评测中表现更好。

Qwen3-Next-80B-A3B-Instruct在RULER上所有长度的表现明显优于层数相同、注意力层数更多的Qwen3-30B-A3B-Instruct-2507,甚至在256k范围内都超过了层数更多的Qwen3-235B-A22B-Instruct-2507。

思维模型的表现优于预训练成本更高的Qwen3-30B-A3B-Thinking-2507、Qwen3-32B-thinking,全面超过了谷歌的闭源模型Gemini-2.5-Flash-Thinking,并在部分指标上接近阿里最新旗舰模型Qwen3-235B-A22B-Thinking-2507。

二、混合注意力、MoE、稳定优化、多Token预测加持

研究人员在博客中提到,Qwen3-Next是针对大模型在上下文长度和总参数两方面不断扩展(Scaling)的未来趋势而设计。

Qwen3-Next采用的是Qwen3 36T预训练语料的一个均匀采样子集,包含15T tokens。其训练所消耗的GPU Hours不到Qwen3-30A-3B的80%;与Qwen3-32B相比,仅需9.3%的GPU计算资源,即可实现更优的模型性能。

这一模型结构相较其4月底推出的Qwen3的MoE模型,新增了多种新技术并进行了核心改进,包括混合注意力机制、高稀疏度MoE结构、一系列训练稳定友好的优化,以及提升推理效率的多Token预测(MTP)机制等。

混合注意力机制:用Gated DeltaNet(线性注意力)和Gated Attention(门控注意力)的组合替换标准注意力,实现超长上下文长度的有效上下文建模。

研究人员发现Gated DeltaNet相比常用的滑动窗口注意力(Sliding Window Attention)和Mamba2有更强的上下文学习能力, 并在3:1的混合比例下,即75%层使用Gated DeltaNet,25%层保留标准注意力,能一致超过超越单一架构,实现性能与效率的双重优化。

同时在保留的标准注意力中,研究人员进一步引入多项增强设计,包括沿用先前工作的输出门控机制,缓解注意力中的低秩问题,将单个注意力头维度从128扩展至256,仅对注意力头前25%的位置维度添加旋转位置编码,提高长度外推效果。

高稀疏度混合专家(MoE):在MoE层中实现极低的激活比率,大幅减少每个token的FLOPs,同时保留模型容量。研究人员的实验表明,在使用全局负载均衡后,当激活专家固定时,持续增加专家总参数可带来训练loss的稳定下降。

此前,Qwen3系列的MoE专家激活比约为1比16,Qwen3-Next实现了1比50的激活比。

稳定性优化:包括零中心化和权重衰减layernorm等技术,以及其他增强稳定性以实现鲁棒的预训练和后训练。研究人员发现,注意力输出门控机制能消除注意力池与极大激活等现象,保证模型各部分的数值稳定。

多Token预测(MTP):提升预训练模型性能并加速推理,Qwen3-Next特别优化了MTP多步推理性能,通过训练推理一致的多步训练,进一步提高了实用场景下的Speculative Decoding接受率。

结语:3B激活参数对标旗舰模型!阿里凭架构创新为模型降本提速Qwen3-Next的突破点在于同时实现了大规模参数容量、低激活开销、长上下文处理与并行推理加速。此外结合注意力机制、MoE设计等方面的多项架构创新,阿里通义此次实现仅激活3B参数模型就能对标规模更大模型的性能,使得模型在性能与效率之间找到更佳平衡点,同时为降低模型训练、推理成本提供了有效路径。 研究人员在博客提到,未来他们将持续优化这一架构并开发Qwen3.5。与此同时近期阿里通义已经推出数个不同领域的模型,如超万亿参数的Qwen3-Max-Preview、文生图及编辑模型Qwen-Image-edit、语音识别模型Qwen3-ASR-Flash等。随着其多领域模型的持续落地与开源,阿里通义在开源社区的技术影响力正逐步增强。

标签: 指令 推理 参数 模型 上下文 Qwen toke

相关阅读

精彩放送

年送清洁电量86.7亿千瓦时!内蒙风光储能基地三项500千伏送出工程同时开工!

热点!英媒:热刺在和本坦库尔谈续约,弗兰克认为他是关键球员

6组数据读懂2024中国对外直接投资公报

最新:9月11日生意社LLDPE基准价为7395.00元/吨

响应北京公募基金高质量发展行动 京东肯特瑞将开展多元化投教活动 今日播报

550MW分布式光伏EPC,废止!

萧甬铁路高架桥改造采用新技术实现快准稳AI助力,4000吨主梁6小时换新

绿心集团(00094)将派发特别股息每股0.01港元

3元能吃到一荤一素 华中农大连续13年为学生提供经济套餐

热讯:绍兴宋六陵考古又有重大发现 第7座“石藏子”现世

今头条!徐州晟世华再生资源有限公司成立 注册资本10万人民币

蔚来再获10亿美元“输血” 四季度盈利目标压力下全年融资已超百亿|要闻速递

从曼联失业3个月后 33岁埃里克森加盟狼堡+签2年 曾效力国米热刺

【ETF动向】9月10日科创50ETF东财基金涨0.84%,份额减少1200万份 焦点资讯

Arista Networks创2014年6月IPO以来新高

2025年贵州省 “群星奖” 优秀作品巡演在七星关区精彩上演 今日精选

每日热议!永年区凌赫商贸行(个体工商户)成立 注册资本3万人民币

精选!年内12只黄金个股股价翻倍,黄金ETF年内总规模增1.3倍

因购股权获行使 歌礼制药-B(01672)合计发行9.8万股

五洋自控(300420.SZ):实际控制人拟变更为姚小春 每日信息

速递!美股三大指数集体高开 甲骨文涨超32%

今日看点:市民群众非必要不外出!郑州紧急通知

意航汽车部件取得汽车灯壳自动打钉设备专利,防止装配中零件晃动

英力股份(300956.SZ):拟购买优特利77.9385%股份

焦点资讯:谈判啦!骑手小哥与平台共商规则

华测导航拟推2025年第二期限制性股票激励计划|每日播报

华菱钢铁:股东信泰人寿近期累计增持6908.62万股公司股份 拟继续增持1%—2%公司股份_焦点要闻

每日观察!A股影视院线板块“四连涨”

别让网络刷单的“坑”坑走您的存款

江苏省2025年9月21日至10月10日气候预测

焦点报道:恒生银行(00011)9月10日斥资2481.71万港元回购21万股

微速讯:合兴股份:控股股东等拟合计减持不超3%公司股份

乙酰丙酮铁商品报价动态(2025-09-10)|焦点日报

东阳光:与关联方共同增资合资公司用于收购秦淮数据中国100%股权 滚动

宁德时代(03750.HK)9月10日耗资8586.65万元回购27.1万股A股

美凯龙董秘邱喆减持4.68万股完毕|今日关注

家医签约架起健康桥 中医针灸巧解面瘫愁

视频|三年内被父母安排20多次相亲,淮安27岁小伙患上“惊恐障碍”_每日讯息

日临床试验证实一种便秘药能抑制肾功能恶化

活力中国调研行 | 《繁花》新传!当汪小姐变成王小姐,又又又开放?-微动态

济民健康(603222)龙虎榜数据(09-10) 热头条

每日时讯!9月10日涨停复盘:63股涨停 博杰股份8天4板

美育大学堂秋季班即将上线

未来两天福建天气闷热雷雨多,谨防强对流_微头条

生意社:9月10日华东地区顺丁橡胶市场行情延续弱势

每日精选:山高新能源附属与中银金租就海兴县145兆瓦集中式光伏发电站的光伏系统及配套设...

先生,您好!

黎里大桥通车

刚刚!运-20起飞赴韩接英雄回家

银行的存款保险制度如何保障客户利益?

五矿集团财务有限责任公司因违反外汇账户管理规定被罚4万元_每日热文

每日视点!强对流继续候场,高温终于全面缓和,火辣辣的夏天走到尾声

韩国综合指数收涨1.67% 报3314.53点 观察

FV佛罗伦萨小镇“仲夏夜游”创佳绩,“微度假”战略定位显成效

焦点讯息:【我为什么选择当老师】张瑾:站在讲台上的每一天,都在塑造未来的模样

热头条丨加皇银行上调力拓欧股目标价至5000便士

对于中国反制,石平坐不住了,发文点出胡锡进和沈逸对他的评价

星河智联取得基于神经网络的汽车电缆损耗预测专利 热资讯

热门:年薪直降90%!曝王钰栋胡荷韬已被欧洲球队看中 全运会后决定去留

找矿重大突破!大型油田+10、大型气田+19、大型铀矿床+N 时快讯

郓城农商银行城区支行:金融助理入商圈

服贸会机器人展区最热门 现存机器人相关企业超96.6万家

《个体工商户信用评价指标》国家标准发布|热讯

主动介入 超前服务! 乐山高新区全流程保障项目海绵城市建设

9月10日生意社豆粕基准价为3076.00元/吨

信创概念持续走强,新炬网络涨停

精彩看点:我省现有中医类医疗机构4599家92%县级中医院达二甲以上水平

广东云浮水源山抽水蓄能电站项目地下厂房开挖完成-焦点热文

9月10日生意社锰硅基准价为5692.00元/吨|快消息

飞天云动拟配售最多4.33亿股 净筹约7453万港元 每日视讯

“奥运级”科技实力获全球认证!TCL实业荣获三项IFA 2025大奖

民酒的时代——古井贡酒与大众消费的新共鸣

别让“闲置轮胎”溜走你的收益!播个胎APP:普通人的零门槛创富新通道

土壤板结、病害频发?亚果微生物菌剂助力绿色农业发展

TCL实业IFA 2025:奥运级科技重磅亮相,TCL NXTHOME™重塑未来“生活艺术家”

一文解锁鸿蒙5所有手势“神操作”,轻松成为效率达人

鲁花、海飞丝、伊利等大牌集体“放价”,京东企业购解锁中秋福利省钱新体验

不仅是生意,更是情怀:叮当熊猫携手创业者共创温暖品牌

音速猫ERP:步履不息,跑见真我

‌黄河之子刘子嵘博士:用琴键奏响《保卫黄河》献礼抗战胜利80周年

山南环湖自行车赛迈向新高度!全力打造国际级体育盛会

随艺拍·AI旅拍不只是拍照,更是一场穿越时空的文化之旅

智能控电+可视化选仓,蜗壳用数字化破解青旅行业痛点

以匠心,铸良油:A霸润滑油,为创业梦想保驾护航

荣万家(02146.HK)发布中期业绩,归母净利润8939.82万元 同比减少1.9%

广州电动车新规9月起实施 外卖等行业启用专用号牌

浪漫七夕适宜出行,未来十天福建多阵雨或雷阵雨

每日播报!暑运即将结束 北京口岸本年度出入境人员总量已突破1400万人次

睡觉身体突然抖一下?警惕是身体在报警 每日热门

星空有约|月全食、土星冲日等天象将在9月惊艳亮相

中上协发布7月统计月报

九三阅兵倒计时!这个“预告”必看|今日关注

今热点:高速公路龙头企业,名单整理(8/29)

焦点信息:外交部详解坚持和平发展、推动构建人类命运共同体

A股:2025年酒股票概念龙头名单(2025年8月)

“活力青春”苏州青少年街舞艺术大会期待你的加入

放弃50万年薪留洋,18岁重回美高历练,张博源不傻他很聪明

独家资金:主力进散户逃前10股

宁波银行:上半年归母净利润同比增长 8.23%,非息收入占比30.77%_焦点观察

山东海纳汽车科技取得阀门加工用打磨装置专利