国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

阿里、Kimi、螞蟻集體押注,混合注意力從可選項變必答題?

0
分享至


智東西
作者 陳駿達
編輯 漠影

智東西3月20日報道,昨天,小米發(fā)布了Mimo-V2 Pro大模型,又一次把混合注意力架構(gòu)推到了行業(yè)的聚光燈下。

這款萬億參數(shù)的大模型,采用了1:7的混合注意力比例,在提供接近Claude Opus 4.6能力的同時,API定價僅為后者的1/5。

實際上,小米的混合注意力架構(gòu)探索,延續(xù)了國內(nèi)大模型頭部廠商在效率優(yōu)化上的技術(shù)共識。過去一段時間里,國內(nèi)多個大模型頭部玩家都展示了他們在混合注意力方面的突破性進展。

今年2月,螞蟻推出全球首個混合線性注意力架構(gòu)的萬億參數(shù)思考模型;去年9月,阿里則在下一代模型架構(gòu)Qwen-Next中采用混合線性注意力。與此同時,月之暗面、MiniMax等玩家也在各自的模型迭代中引入了類似的架構(gòu)優(yōu)化方案。

混合注意力架構(gòu)的探索,已經(jīng)幾乎成為大模型廠商的必答題。不同的只是技術(shù)路徑的選擇,相同的是對效率與性能平衡點的共同追求。

一、頭部玩家押注混合注意力,多條技術(shù)路徑并行

在深度學習中,注意力機制讓模型能夠有選擇地關(guān)注輸入信息中的重要部分,而Softmax一直是主流架構(gòu)的核心注意力計算機制。

這種機制每次計算都“翻閱”完整上下文,精準捕捉詞與詞的關(guān)聯(lián),賦予模型強大表達力和細粒度對齊能力。


但其代價明顯:隨著文本長度增加,其計算量呈平方級增長。它還需要存儲大量KV緩存,帶來顯存壓力。這在越來越追求推理效率和成本控制的商業(yè)化場景中,展現(xiàn)出不足。

面對這一共同挑戰(zhàn),業(yè)界探索出了三條主要的技術(shù)路徑。

第一條路徑是稀疏注意力(Sparse Attention),其核心思想是通過“少算”、“有重點地算”來提升效率,代表模型是DeepSeek。

第二條路徑是滑動窗口注意力(Sliding Window Attention),它仍然使用Softmax計算注意力權(quán)重,但只關(guān)注固定窗口內(nèi)的鄰近token,借此提高計算效率。

第三條路徑是線性注意力(Linear Attention)。 與其他方案不同,它徹底改寫了Softmax公式,將復(fù)雜度從O(N2)的平方級降至O(N),近似線性級別,推理成本大幅下降。

不過,這三條路徑都有自身的局限性,而如今業(yè)界對混合架構(gòu)的集體轉(zhuǎn)向,本質(zhì)上是對單一技術(shù)路徑的修正。

值得關(guān)注的是,越來越多方案正向混合線性注意力收斂,這是唯一在理論上突破序列長度限制的路徑。它重構(gòu)了注意力的計算范式,這種徹底性既是它的風險所在,也是其潛力所在。

二、混合線性注意力,如何成為行業(yè)共識?

在國內(nèi),已有不少大模型企業(yè)開始了混合線性注意力架構(gòu)的探索。

按時間維度來看,2025年初,MiniMax Text-01模型發(fā)布,這一模型采用1:7的混合線性注意力,并在456B參數(shù)的模型上實現(xiàn)落地。

此后,MiniMax-M1模型也采用了同款架構(gòu)。當時,MiniMax-M1的團隊判斷,混合架構(gòu)將會成為模型設(shè)計的主流,但仍面臨基礎(chǔ)設(shè)施等維度的瓶頸。


更多混合線性注意力的探索,在2025年下半年爆發(fā)。

去年9月,阿里通義實驗室發(fā)布了下一代基礎(chǔ)模型架構(gòu)Qwen3-Next,并在80B模型上完成驗證。該模型用線性注意力和門控注意力的組合替換標準注意力,實現(xiàn)長上下文的有效建模。在1:3的混合比例下,其性能可以超過單一架構(gòu)。

阿里的研究團隊發(fā)現(xiàn),相比常用的滑動窗口注意力,線性注意力擁有更強大的上下文學習能力。


同樣在去年9月,螞蟻百靈團隊開源了Ring-mini-linear-2.0與Ring-flash-linear-2.0,驗證了其研發(fā)的Lightning Linear線性注意力在工業(yè)規(guī)模訓練和長上下文推理中的可用性。

這兩款模型采用了更多的線性注意力層,驗證了1:7的混合比例。其在高FLOP預(yù)算下表現(xiàn),明顯優(yōu)于純Softmax結(jié)構(gòu)。

在這項研究中,螞蟻百靈還進一步探索了架構(gòu)創(chuàng)新與基礎(chǔ)設(shè)施系統(tǒng)工程優(yōu)化的協(xié)同。他們打造的FP8融合算子,將FP8混合精度訓練的計算效率提升至原來的1.5-1.7倍左右。


在推理端,他們開發(fā)了更高效的線性注意力融合算子,進一步提升推理引擎的吞吐。

架構(gòu)優(yōu)化與高性能算子協(xié)同之下,兩款Ring-linear模型在深度推理場景下的成本僅為同尺寸稠密模型的約1/10,相較原有Ring系列成本也下降超過50%。

去年10月,月之暗面開源了混合線性注意力架構(gòu)Kimi Linear。其核心是Kimi Delta Attention(KDA),這是一個新型的線性注意力模塊,通過細粒度設(shè)計改進了門控delta規(guī)則。這一線性架構(gòu)采用1:3的混合比例,在減少內(nèi)存占用的同時超越了全注意力模型的質(zhì)量。


盡管上述探索已在多維度驗證了混合線性注意力架構(gòu)的潛力,但大多數(shù)成果仍停留在中小規(guī)模。而在真實應(yīng)用中,大模型需要直面萬億級參數(shù)、百萬級上下文窗口、高并發(fā)推理等工程挑戰(zhàn)。

因此,下一步的關(guān)鍵在于:將這些技術(shù)探索推向真正的超大規(guī)模模型,在工業(yè)級應(yīng)用中系統(tǒng)驗證其可靠性、可擴展性與經(jīng)濟價值。

三、萬億模型成試金石,效率與成本的終極驗證

將混合線性注意力架構(gòu)推向萬億參數(shù)量級的工程落地,正在穩(wěn)步推進。

月之暗面創(chuàng)始人兼CEO楊植麟對混合線性注意力的前景表達了明確信心。他認為線性架構(gòu)是一個非常值得探索的方向,其團隊已在Kimi Linear等項目中積累了大量研究。

在下一代模型Kimi K3中,月之暗面計劃在混合線性注意力架構(gòu)的基礎(chǔ)上,引入更多架構(gòu)層面的優(yōu)化。他相信,下一代模型Kimi K3就算沒比K2.5強出10倍,也必然會“強得多”。

同樣押注這一技術(shù)路線的螞蟻百靈團隊,已經(jīng)接連交出兩個萬億參數(shù)大模型。一個是超大型混合線性注意力架構(gòu)模型Ling-2.5-1T,另一個是全球首個混合線性注意力架構(gòu)的萬億參數(shù)思考模型Ring-2.5-1T。

在前期研究基礎(chǔ)上,螞蟻百靈團隊通過增量訓練方式構(gòu)建了Ling 2.5架構(gòu)。該架構(gòu)將GQA+Lightning Linear升級為更高效的MLA+Lightning Linear組合,在進一步壓縮KV緩存的同時,保留了模型的表達能力。

Ling 2.5架構(gòu)采用1:7混合比例,還保留了QK Norm、Partial RoPE等核心機制,確保架構(gòu)遷移過程中模型性能不發(fā)生退化。


在降本增效方面,Ling-2.5-1T僅需約6000個token的平均輸出長度,即可完成前沿模型需要1.5萬-2.3萬個token才能勝任的復(fù)雜任務(wù)。其訪存規(guī)模壓縮至傳統(tǒng)架構(gòu)的1/10,生成吞吐量提升至3倍。

上述種種對混合線性注意力架構(gòu)的探索,意義已不止于性能提升本身,而是在重新劃定大模型的應(yīng)用邊界與商業(yè)形態(tài)。

試想一下,當推理成本顯著下降、token使用效率持續(xù)優(yōu)化,模型調(diào)用成本或許不再是限制其大規(guī)模落地的核心瓶頸。

隨之而來的,是應(yīng)用范式的自然轉(zhuǎn)變。企業(yè)不再需要精打細算地“按需調(diào)用”模型,而可以將其作為一種默認能力嵌入到更多業(yè)務(wù)環(huán)節(jié)之中,實現(xiàn)更廣泛、更深入的效率提升。

大模型在高頻與實時場景中的角色可能因此發(fā)生變化,在搜索、推薦、智能客服等場景中,它們不再只是傳統(tǒng)系統(tǒng)的補充模塊,而是有望扮演核心驅(qū)動引擎,成為如同數(shù)據(jù)庫、操作系統(tǒng)般默認存在的底層基礎(chǔ)設(shè)施。

結(jié)語:從堆參數(shù)到拼工程,大模型廣泛落地更近了

混合線性注意力架構(gòu)的探索仍在不斷深化,但這條路徑注定不會一帆風順。不同技術(shù)路線之間仍在反復(fù)博弈與驗證,例如MiniMax在階段性探索后選擇回歸全注意力模型,以優(yōu)先保證復(fù)雜場景下的穩(wěn)定性與可靠性。

不過,更深層的信號已經(jīng)愈發(fā)清晰:大模型競爭正從“暴力堆參數(shù)”轉(zhuǎn)向“工程效率的精算”。當行業(yè)逐漸形成共識,決定勝負的將不再只是規(guī)模本身,而是單位算力所能釋放的有效能力。

架構(gòu)層面的細微差異,最終會在企業(yè)級落地中放大為顯著的成本優(yōu)勢與體驗差距,并推動大模型從“可用”邁向“好用”,再走向真正的廣泛普及。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
原油短線拉升,現(xiàn)貨黃金短線走低

原油短線拉升,現(xiàn)貨黃金短線走低

每日經(jīng)濟新聞
2026-03-25 20:38:08
詹姆斯愿降薪2000萬!為留里夫斯+爭冠布局41歲老詹主動讓出頂薪

詹姆斯愿降薪2000萬!為留里夫斯+爭冠布局41歲老詹主動讓出頂薪

阿晞體育
2026-03-25 13:01:56
髕腱撕裂!賽季報銷!NBA生涯可能也結(jié)束了…

髕腱撕裂!賽季報銷!NBA生涯可能也結(jié)束了…

左右為籃
2026-03-25 09:48:29
網(wǎng)友吐槽:國產(chǎn)手機銷量暴跌,都在罵蘋果,沒想到蘋果依然堅挺!

網(wǎng)友吐槽:國產(chǎn)手機銷量暴跌,都在罵蘋果,沒想到蘋果依然堅挺!

眼光很亮
2026-03-23 16:29:14
破防!小縣城殯儀館大屏流出,中年人扎堆離世,網(wǎng)友:還爭什么?

破防!小縣城殯儀館大屏流出,中年人扎堆離世,網(wǎng)友:還爭什么?

川渝視覺
2026-03-23 19:26:44
A股:剛剛,大消息傳來,釋放兩信號,周四將迎來更大級別的變盤

A股:剛剛,大消息傳來,釋放兩信號,周四將迎來更大級別的變盤

另子維愛讀史
2026-03-25 20:54:54
奴顏媚骨具象化,高市早苗三十年前照片被扒出,原來她從未變過!

奴顏媚骨具象化,高市早苗三十年前照片被扒出,原來她從未變過!

社會醬
2026-03-23 17:34:19
特朗普:美國伊朗已達成協(xié)議

特朗普:美國伊朗已達成協(xié)議

亞太觀瀾
2026-03-25 20:45:07
電動車逆行被撞身亡,家屬索賠120萬,法院判司機擔責40%引熱議!

電動車逆行被撞身亡,家屬索賠120萬,法院判司機擔責40%引熱議!

漁夫說事
2026-03-25 16:35:06
「俠客島」周亮被查

「俠客島」周亮被查

海外網(wǎng)
2026-03-24 15:55:10
上海頂級大院窮到要出租工位了!

上海頂級大院窮到要出租工位了!

黯泉
2026-03-25 21:34:49
加拿大跑步品牌上線,滔搏加速布局跑步市場

加拿大跑步品牌上線,滔搏加速布局跑步市場

北京商報
2026-03-24 22:00:06
“報仇不隔夜!”72名以議員直接繞開中國大陸支持臺灣入國際組織

“報仇不隔夜!”72名以議員直接繞開中國大陸支持臺灣入國際組織

安安說
2026-03-25 11:03:58
阮經(jīng)天和小女友逛街被偶遇,女友是模特身材很好,但竟然是大方臉

阮經(jīng)天和小女友逛街被偶遇,女友是模特身材很好,但竟然是大方臉

樂悠悠娛樂
2026-03-25 10:18:32
掛斷王毅電話,伊朗向全球發(fā)出“照會”,小薩拉曼鼻子都氣歪了

掛斷王毅電話,伊朗向全球發(fā)出“照會”,小薩拉曼鼻子都氣歪了

始于初見見
2026-03-25 19:50:34
A股,尾盤傳來一個“重磅利好”信號,明天,或?qū)⒂瓉泶笞儽P!

A股,尾盤傳來一個“重磅利好”信號,明天,或?qū)⒂瓉泶笞儽P!

夜深愛雜談
2026-03-25 20:44:17
14歲初中生把干冰放冰箱,半夜爆炸致價值上萬冰箱報廢 家長:沒責備他

14歲初中生把干冰放冰箱,半夜爆炸致價值上萬冰箱報廢 家長:沒責備他

紅星新聞
2026-03-24 23:25:19
歐爾班的好日子到頭了

歐爾班的好日子到頭了

民間胡扯老哥
2026-03-25 05:22:48
心源性猝死為何盯上年輕人?這些高危因素,你可能每天都在做

心源性猝死為何盯上年輕人?這些高危因素,你可能每天都在做

大象新聞
2026-03-25 15:49:04
永不消失的10大行業(yè)

永不消失的10大行業(yè)

超級數(shù)學建模
2026-03-24 21:23:26
2026-03-25 23:20:49
智東西 incentive-icons
智東西
聚焦智能變革,服務(wù)產(chǎn)業(yè)升級。
11433文章數(shù) 117015關(guān)注度
往期回顧 全部

科技要聞

紅極一時卻草草收場,Sora宣布正式關(guān)停

頭條要聞

成都寶媽1年買5套"老破小"實現(xiàn)以租養(yǎng)貸:首付100多萬

頭條要聞

成都寶媽1年買5套"老破小"實現(xiàn)以租養(yǎng)貸:首付100多萬

體育要聞

35歲替補門將,憑什么入選英格蘭隊?

娛樂要聞

張雪峰經(jīng)搶救無效不幸去世 年僅41歲

財經(jīng)要聞

管濤:中東局勢如何影響人民幣匯率走勢?

汽車要聞

智己LS8放大招 30萬內(nèi)8系旗艦+全線控底盤秀實力

態(tài)度原創(chuàng)

家居
藝術(shù)
手機
數(shù)碼
公開課

家居要聞

輕奢堇天府 小資情調(diào)

藝術(shù)要聞

《百花譜》,這個春天畫花不用愁!

手機要聞

真我商城將于4月25日停止運營,業(yè)務(wù)全面整合至OPPO體系

數(shù)碼要聞

經(jīng)典風味別樣演繹,華擎Z890 Taichi太極十周年紀念版主板亮相

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版