国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

阿里開源全新MoE架構(gòu)Qwen3-Next,是不是在適配它的自研芯片

0
分享至

就在市場(chǎng)傳聞阿里已經(jīng)開始使用自研芯片訓(xùn)練AI模型時(shí),阿里推出了其下一代模型的雛形Qwen3-Next。

阿里巴巴正式開源的兩款模型,分別是Qwen3-Next-80B-A3B的指令(Insctruct)模型和推理(Thinking)模型。兩者在在大多數(shù)標(biāo)準(zhǔn)化基準(zhǔn)測(cè)試中,接近阿里旗下旗艦?zāi)P蚎wen3-235B-A22B系列對(duì)應(yīng)最新模型。相當(dāng)于在總參數(shù)規(guī)模下降2/3,激活參數(shù)規(guī)模下降5/6的前提下,輸出大致相當(dāng)?shù)慕Y(jié)果。

這不是一次常規(guī)的模型迭代。通義千問大模型負(fù)責(zé)人林俊旸自稱為“大膽”。它嘗試用極致稀疏MoE,低成本擴(kuò)展模型的智能涌現(xiàn)的上限;邁出了高度復(fù)雜的混合注意力(Hybrid Attention)的一大步,既高效又精準(zhǔn)地?cái)U(kuò)展上下文長度。


這背后是阿里通義千問團(tuán)隊(duì)對(duì)大模型技術(shù)趨勢(shì)的兩大預(yù)判,即未來將主要依賴總參數(shù)規(guī)模和上下文長度的擴(kuò)展?倕(shù)規(guī)模越大,模型潛在能力和智能涌現(xiàn)上限越高;上下文長度越長,模型的記憶能力和持續(xù)交互能力也隨之增強(qiáng)。

在一片阿里開始使用自研芯片訓(xùn)練模型的傳聞中,阿里并沒有透露它用什么芯片訓(xùn)練出來的。而軟硬件之間的高效協(xié)調(diào)適配,降低token成本,已經(jīng)成為定制芯片(ASIC)的趨勢(shì)。

據(jù)科技媒體Information報(bào)道,阿里的Zhenwu處理器今年已經(jīng)投入實(shí)用,性能略優(yōu)于英偉達(dá)的A100,目前主要用于較小模型的訓(xùn)練。

隨著稠密模型參數(shù)規(guī)模接近萬億,繼續(xù)擴(kuò)展變得愈發(fā)昂貴。受限于先進(jìn)芯片供給,中國開源模型陣營普遍轉(zhuǎn)向稀疏專家模型,以實(shí)現(xiàn)知識(shí)容量與計(jì)算成本的解耦。而且,通義千問團(tuán)隊(duì)發(fā)現(xiàn),增加總專家數(shù)量往往可以持續(xù)降低訓(xùn)練損失。因此,通過壓縮每次激活參數(shù)規(guī)模的占比,就可以盡可能地?cái)U(kuò)展總參數(shù)規(guī)模;當(dāng)然,實(shí)現(xiàn)它仍然需要非常多的技術(shù)創(chuàng)新,包括更精準(zhǔn)的路由策略。

Qwen3-Next要比之前的Qwen3-MoE稀疏得多。Qwen3-MoE擁有128個(gè)專家模型和8個(gè)路由專家,Qwen3-Next則擴(kuò)展到了512個(gè)總專家,10路由專家與1共享專家的組合。同行最近發(fā)布的Kimi-K2模型,也實(shí)現(xiàn)了384 個(gè)專家激活8個(gè)的配置。

Qwen3-Next系列的總參數(shù)規(guī)模不會(huì)止步于800億。在GPT時(shí)代之前,阿里巴巴就嘗試過萬億參數(shù)級(jí)稀疏模型;近期又預(yù)覽了1萬億參數(shù)規(guī)模的Qwen3-Max-Preview。本次Qwen3-Next的預(yù)訓(xùn)練僅使用了15T tokens,相比Qwen3的36T tokens顯著減少?梢詫⑵淇醋饕淮螌(duì)現(xiàn)有技術(shù)的“中試”,為未來工程優(yōu)化后的“量產(chǎn)”版本奠定基礎(chǔ)。真正的“Qwen 3.5”將提供更多可選配置,在相同硬件和工作負(fù)載條件下,不同的總參數(shù)規(guī)模與激活參數(shù)規(guī)模組合將影響模型部署成本,并在推理階段決定成本、速度與性能的權(quán)衡空間。

上下文長度是另一個(gè)關(guān)鍵維度。目前Qwen3-Next系列原生支持262k上下文長度,并可擴(kuò)展至百萬tokens。理論上,上下文越長越好。然而,作為Transformer的核心創(chuàng)新,大模型與生成式AI的基礎(chǔ),標(biāo)準(zhǔn)自注意力機(jī)制在長序列下的計(jì)算復(fù)雜度呈二次增長:在預(yù)填充(prefill)階段主要體現(xiàn)為算力需求的急劇增加,而在解碼(decode)階段則受內(nèi)存帶寬限制成為瓶頸。

這也是為什么中國開源大模型普遍將自注意力機(jī)制的優(yōu)化作為重點(diǎn)。DeepSeek提出了潛在多頭注意力(MLA),嘗試減少內(nèi)存占用;MiniMax的閃電注意力(Lightning Attention)則是線性注意力(Linear Attention)的變體,旨在降低算力消耗;月之暗面的MoBA,事實(shí)上是基于塊(Block)的稀疏注意力(Sparse Attention)。這些優(yōu)化路線雖各具特色,但并不適用于所有任務(wù),尤其在需要高精度和復(fù)雜推理的場(chǎng)景下仍存在局限。

混合注意力正成為下一代大模型中被廣泛關(guān)注的重點(diǎn)探索方向。幾個(gè)月前,MiniMax-01架構(gòu)負(fù)責(zé)人在采訪中承認(rèn),完全的線性注意力在長上下文里準(zhǔn)確“找回”關(guān)鍵信息的能力并不好。MiniMax判斷,未來將屬于混合注意力機(jī)制,M1就是該公司對(duì)此的初步驗(yàn)證;英偉達(dá)的Nemotron-H同樣如此。


目前,Qwen3-Next邁出的步子最大,75%采用線性注意力,25%保留標(biāo)準(zhǔn)注意力。線性注意力的Gated DeltaNet用于長程信息掃描,并可及時(shí)清除無關(guān)歷史信息;阿里自研的Gated Attention則專注捕獲關(guān)鍵局部信息。這一比例顯示,每一項(xiàng)改進(jìn)都是整套混合注意力機(jī)制的核心,而非點(diǎn)綴。在發(fā)布前,通義千問團(tuán)隊(duì)已對(duì)線性注意力進(jìn)行了約一年的持續(xù)探索,用林俊旸的話說,期間經(jīng)歷了“大量試錯(cuò)”。

越是稀疏的模型,越是難以訓(xùn)練。此前,Meta在Llama 4中首次嘗試引入MoE架構(gòu)就遇到挫折。針對(duì)這一挑戰(zhàn),通義千問團(tuán)隊(duì)設(shè)計(jì)了多項(xiàng)訓(xùn)練優(yōu)化措施,確保訓(xùn)練過程的穩(wěn)定性。同時(shí),Qwen3-Next原生集成了多token預(yù)測(cè)(MTP)技術(shù),有效提升了解碼階段的推理速度。

Qwen3-Next終將向各類應(yīng)用場(chǎng)景落地。未來,硬件定制、軟硬件協(xié)同以及工作負(fù)載優(yōu)化,仍是在實(shí)踐中提升AI體驗(yàn)的關(guān)鍵路徑。英偉達(dá)為上下文處理專門定制了Rubin CPX芯片,阿里巴巴自研芯片與新模型架構(gòu)之間的協(xié)同,也是令人興奮的關(guān)注點(diǎn)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
U23國足20分鐘丟2球!小倉幸成遠(yuǎn)射世界波,王鈺棟低級(jí)失誤

U23國足20分鐘丟2球!小倉幸成遠(yuǎn)射世界波,王鈺棟低級(jí)失誤

奧拜爾
2026-01-24 23:27:54
民進(jìn)黨準(zhǔn)備下死手,黃國昌攜美密令向大陸遞投名狀,統(tǒng)一已成定局

民進(jìn)黨準(zhǔn)備下死手,黃國昌攜美密令向大陸遞投名狀,統(tǒng)一已成定局

小俎娛樂
2026-01-25 14:34:15
布呂尼:從妻子變兒媳,同時(shí)和父子談戀愛,最終成為法國第一夫人

布呂尼:從妻子變兒媳,同時(shí)和父子談戀愛,最終成為法國第一夫人

青途歷史
2026-01-23 20:12:55
明確規(guī)定來了!機(jī)關(guān)事業(yè)單位職工下班后打牌打麻將,算違紀(jì)嗎?

明確規(guī)定來了!機(jī)關(guān)事業(yè)單位職工下班后打牌打麻將,算違紀(jì)嗎?

阿纂看事
2026-01-24 09:56:48
78年王近山病逝,鄧小平看過訃告上的軍級(jí)之后,坦言:確實(shí)不合適

78年王近山病逝,鄧小平看過訃告上的軍級(jí)之后,坦言:確實(shí)不合適

元哥說歷史
2026-01-25 14:45:03
打臉黑子,湖人逆轉(zhuǎn)獨(dú)行俠,賽后還有5個(gè)好消息,東契奇喜笑顏開

打臉黑子,湖人逆轉(zhuǎn)獨(dú)行俠,賽后還有5個(gè)好消息,東契奇喜笑顏開

鄒維體育
2026-01-25 12:17:55
此人叛變新四軍,1949年李先念主動(dòng)宴請(qǐng)他,他舉報(bào):有人要叛變

此人叛變新四軍,1949年李先念主動(dòng)宴請(qǐng)他,他舉報(bào):有人要叛變

大運(yùn)河時(shí)空
2026-01-25 17:05:03
越共中央政治局,“新面孔”接近一半

越共中央政治局,“新面孔”接近一半

中國新聞周刊
2026-01-24 19:46:04
2026年養(yǎng)老金繼續(xù)漲?人社部部長表態(tài)了!取消掛鉤調(diào)整可行嗎?

2026年養(yǎng)老金繼續(xù)漲?人社部部長表態(tài)了!取消掛鉤調(diào)整可行嗎?

李健政觀察
2026-01-25 13:08:19
49年,裝滿50箱大洋的飛機(jī)墜毀,當(dāng)?shù)厝四寐榇鼡,卻付出慘痛代價(jià)

49年,裝滿50箱大洋的飛機(jī)墜毀,當(dāng)?shù)厝四寐榇鼡專瑓s付出慘痛代價(jià)

雍親王府
2026-01-25 08:20:03
白宮發(fā)布“特朗普和企鵝漫步格陵蘭島”圖,遭群嘲

白宮發(fā)布“特朗普和企鵝漫步格陵蘭島”圖,遭群嘲

新華社
2026-01-25 16:55:04
井柏然曬北京千萬豪宅!水泥地?fù)Q成木板土氣,陽臺(tái)和劉雯合照搶鏡

井柏然曬北京千萬豪宅!水泥地?fù)Q成木板土氣,陽臺(tái)和劉雯合照搶鏡

曉徙娛樂
2026-01-25 04:21:24
肯德基,被迫改名PFK

肯德基,被迫改名PFK

設(shè)計(jì)癖
2026-01-24 12:13:41
丈夫項(xiàng)英犧牲后,李又蘭改嫁張愛萍,生下三個(gè)兒子都是牛人

丈夫項(xiàng)英犧牲后,李又蘭改嫁張愛萍,生下三個(gè)兒子都是牛人

史韻流轉(zhuǎn)
2026-01-25 06:25:03
“臘八3不吃,福氣進(jìn)家門”,指哪3不吃?臘八節(jié)來臨,莫忘老傳統(tǒng)

“臘八3不吃,福氣進(jìn)家門”,指哪3不吃?臘八節(jié)來臨,莫忘老傳統(tǒng)

神牛
2026-01-24 15:00:25
陪睡陪玩只是冰山一角!萬達(dá)蒸發(fā)800億后,王思聰再次傳出大丑聞

陪睡陪玩只是冰山一角!萬達(dá)蒸發(fā)800億后,王思聰再次傳出大丑聞

阿器談史
2025-12-26 15:26:05
快報(bào)調(diào)查|嫣然醫(yī)院與嫣然基金的賬本迷局

快報(bào)調(diào)查|嫣然醫(yī)院與嫣然基金的賬本迷局

現(xiàn)代快報(bào)
2026-01-24 18:53:06
14年后,再看“京城四少”的現(xiàn)狀,才明白娶一個(gè)好老婆有多重要

14年后,再看“京城四少”的現(xiàn)狀,才明白娶一個(gè)好老婆有多重要

豐譚筆錄
2026-01-13 07:20:11
“秦嵐”也太凡爾賽了吧!穿一身瑜伽服凹凸有致,巴掌腰太搶鏡

“秦嵐”也太凡爾賽了吧!穿一身瑜伽服凹凸有致,巴掌腰太搶鏡

巧手曉廚娘
2025-12-30 18:59:18
從草根到頂流,趙麗穎能“輸?shù)闷稹钡牡着疲旱艿懿攀钦嬲氖刈o(hù)者

從草根到頂流,趙麗穎能“輸?shù)闷稹钡牡着疲旱艿懿攀钦嬲氖刈o(hù)者

夢(mèng)在深巷qw
2026-01-25 10:22:47
2026-01-25 17:27:00
未盡研究 incentive-icons
未盡研究
新能源、人工智能、合成生物、地緣X
292文章數(shù) 61關(guān)注度
往期回顧 全部

科技要聞

黃仁勛在上海逛菜市場(chǎng),可能惦記著三件事

頭條要聞

獲黃仁勛簽名紅包商戶:我開始不認(rèn)識(shí)他 紅包里有600元

頭條要聞

獲黃仁勛簽名紅包商戶:我開始不認(rèn)識(shí)他 紅包里有600元

體育要聞

中國足球不會(huì)一夜變強(qiáng),但他們已經(jīng)創(chuàng)造歷史

娛樂要聞

王玉雯方嚴(yán)正聲明 劇方回應(yīng):涉事人員已被開除

財(cái)經(jīng)要聞

隋廣義等80人被公訴 千億騙局進(jìn)入末路

汽車要聞

別克至境E7內(nèi)飾圖曝光 新車將于一季度正式發(fā)布

態(tài)度原創(chuàng)

游戲
本地
時(shí)尚
教育
公開課

R星又藏了!玩家發(fā)現(xiàn)《大鏢客2》暗含GTA6伏筆

本地新聞

云游中國|格爾木的四季朋友圈,張張值得你點(diǎn)贊

2025年度榜單|| 真金白銀票選出來的“真愛”,今天破價(jià)1.6折!

教育要聞

北京中考數(shù)學(xué),0的倒數(shù)是多少?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版