国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

阿里、Kimi、螞蟻集體押注,混合注意力從可選項(xiàng)變必答題?

0
分享至


智東西
作者 陳駿達(dá)
編輯 漠影

智東西3月20日?qǐng)?bào)道,昨天,小米發(fā)布了Mimo-V2 Pro大模型,又一次把混合注意力架構(gòu)推到了行業(yè)的聚光燈下。

這款萬(wàn)億參數(shù)的大模型,采用了1:7的混合注意力比例,在提供接近Claude Opus 4.6能力的同時(shí),API定價(jià)僅為后者的1/5。

實(shí)際上,小米的混合注意力架構(gòu)探索,延續(xù)了國(guó)內(nèi)大模型頭部廠商在效率優(yōu)化上的技術(shù)共識(shí)。過(guò)去一段時(shí)間里,國(guó)內(nèi)多個(gè)大模型頭部玩家都展示了他們?cè)诨旌献⒁饬Ψ矫娴耐黄菩赃M(jìn)展。

今年2月,螞蟻推出全球首個(gè)混合線性注意力架構(gòu)的萬(wàn)億參數(shù)思考模型;去年9月,阿里則在下一代模型架構(gòu)Qwen-Next中采用混合線性注意力。與此同時(shí),月之暗面、MiniMax等玩家也在各自的模型迭代中引入了類似的架構(gòu)優(yōu)化方案。

混合注意力架構(gòu)的探索,已經(jīng)幾乎成為大模型廠商的必答題。不同的只是技術(shù)路徑的選擇,相同的是對(duì)效率與性能平衡點(diǎn)的共同追求。

一、頭部玩家押注混合注意力,多條技術(shù)路徑并行

在深度學(xué)習(xí)中,注意力機(jī)制讓模型能夠有選擇地關(guān)注輸入信息中的重要部分,而Softmax一直是主流架構(gòu)的核心注意力計(jì)算機(jī)制。

這種機(jī)制每次計(jì)算都“翻閱”完整上下文,精準(zhǔn)捕捉詞與詞的關(guān)聯(lián),賦予模型強(qiáng)大表達(dá)力和細(xì)粒度對(duì)齊能力。


但其代價(jià)明顯:隨著文本長(zhǎng)度增加,其計(jì)算量呈平方級(jí)增長(zhǎng)。它還需要存儲(chǔ)大量KV緩存,帶來(lái)顯存壓力。這在越來(lái)越追求推理效率和成本控制的商業(yè)化場(chǎng)景中,展現(xiàn)出不足。

面對(duì)這一共同挑戰(zhàn),業(yè)界探索出了三條主要的技術(shù)路徑。

第一條路徑是稀疏注意力(Sparse Attention),其核心思想是通過(guò)“少算”、“有重點(diǎn)地算”來(lái)提升效率,代表模型是DeepSeek。

第二條路徑是滑動(dòng)窗口注意力(Sliding Window Attention),它仍然使用Softmax計(jì)算注意力權(quán)重,但只關(guān)注固定窗口內(nèi)的鄰近token,借此提高計(jì)算效率。

第三條路徑是線性注意力(Linear Attention)。 與其他方案不同,它徹底改寫了Softmax公式,將復(fù)雜度從O(N2)的平方級(jí)降至O(N),近似線性級(jí)別,推理成本大幅下降。

不過(guò),這三條路徑都有自身的局限性,而如今業(yè)界對(duì)混合架構(gòu)的集體轉(zhuǎn)向,本質(zhì)上是對(duì)單一技術(shù)路徑的修正。

值得關(guān)注的是,越來(lái)越多方案正向混合線性注意力收斂,這是唯一在理論上突破序列長(zhǎng)度限制的路徑。它重構(gòu)了注意力的計(jì)算范式,這種徹底性既是它的風(fēng)險(xiǎn)所在,也是其潛力所在。

二、混合線性注意力,如何成為行業(yè)共識(shí)?

在國(guó)內(nèi),已有不少大模型企業(yè)開始了混合線性注意力架構(gòu)的探索。

按時(shí)間維度來(lái)看,2025年初,MiniMax Text-01模型發(fā)布,這一模型采用1:7的混合線性注意力,并在456B參數(shù)的模型上實(shí)現(xiàn)落地。

此后,MiniMax-M1模型也采用了同款架構(gòu)。當(dāng)時(shí),MiniMax-M1的團(tuán)隊(duì)判斷,混合架構(gòu)將會(huì)成為模型設(shè)計(jì)的主流,但仍面臨基礎(chǔ)設(shè)施等維度的瓶頸。


更多混合線性注意力的探索,在2025年下半年爆發(fā)。

去年9月,阿里通義實(shí)驗(yàn)室發(fā)布了下一代基礎(chǔ)模型架構(gòu)Qwen3-Next,并在80B模型上完成驗(yàn)證。該模型用線性注意力和門控注意力的組合替換標(biāo)準(zhǔn)注意力,實(shí)現(xiàn)長(zhǎng)上下文的有效建模。在1:3的混合比例下,其性能可以超過(guò)單一架構(gòu)。

阿里的研究團(tuán)隊(duì)發(fā)現(xiàn),相比常用的滑動(dòng)窗口注意力,線性注意力擁有更強(qiáng)大的上下文學(xué)習(xí)能力。


同樣在去年9月,螞蟻百靈團(tuán)隊(duì)開源了Ring-mini-linear-2.0與Ring-flash-linear-2.0,驗(yàn)證了其研發(fā)的Lightning Linear線性注意力在工業(yè)規(guī)模訓(xùn)練和長(zhǎng)上下文推理中的可用性。

這兩款模型采用了更多的線性注意力層,驗(yàn)證了1:7的混合比例。其在高FLOP預(yù)算下表現(xiàn),明顯優(yōu)于純Softmax結(jié)構(gòu)。

在這項(xiàng)研究中,螞蟻百靈還進(jìn)一步探索了架構(gòu)創(chuàng)新與基礎(chǔ)設(shè)施系統(tǒng)工程優(yōu)化的協(xié)同。他們打造的FP8融合算子,將FP8混合精度訓(xùn)練的計(jì)算效率提升至原來(lái)的1.5-1.7倍左右。


在推理端,他們開發(fā)了更高效的線性注意力融合算子,進(jìn)一步提升推理引擎的吞吐。

架構(gòu)優(yōu)化與高性能算子協(xié)同之下,兩款Ring-linear模型在深度推理場(chǎng)景下的成本僅為同尺寸稠密模型的約1/10,相較原有Ring系列成本也下降超過(guò)50%。

去年10月,月之暗面開源了混合線性注意力架構(gòu)Kimi Linear。其核心是Kimi Delta Attention(KDA),這是一個(gè)新型的線性注意力模塊,通過(guò)細(xì)粒度設(shè)計(jì)改進(jìn)了門控delta規(guī)則。這一線性架構(gòu)采用1:3的混合比例,在減少內(nèi)存占用的同時(shí)超越了全注意力模型的質(zhì)量。


盡管上述探索已在多維度驗(yàn)證了混合線性注意力架構(gòu)的潛力,但大多數(shù)成果仍停留在中小規(guī)模。而在真實(shí)應(yīng)用中,大模型需要直面萬(wàn)億級(jí)參數(shù)、百萬(wàn)級(jí)上下文窗口、高并發(fā)推理等工程挑戰(zhàn)。

因此,下一步的關(guān)鍵在于:將這些技術(shù)探索推向真正的超大規(guī)模模型,在工業(yè)級(jí)應(yīng)用中系統(tǒng)驗(yàn)證其可靠性、可擴(kuò)展性與經(jīng)濟(jì)價(jià)值。

三、萬(wàn)億模型成試金石,效率與成本的終極驗(yàn)證

將混合線性注意力架構(gòu)推向萬(wàn)億參數(shù)量級(jí)的工程落地,正在穩(wěn)步推進(jìn)。

月之暗面創(chuàng)始人兼CEO楊植麟對(duì)混合線性注意力的前景表達(dá)了明確信心。他認(rèn)為線性架構(gòu)是一個(gè)非常值得探索的方向,其團(tuán)隊(duì)已在Kimi Linear等項(xiàng)目中積累了大量研究。

在下一代模型Kimi K3中,月之暗面計(jì)劃在混合線性注意力架構(gòu)的基礎(chǔ)上,引入更多架構(gòu)層面的優(yōu)化。他相信,下一代模型Kimi K3就算沒比K2.5強(qiáng)出10倍,也必然會(huì)“強(qiáng)得多”。

同樣押注這一技術(shù)路線的螞蟻百靈團(tuán)隊(duì),已經(jīng)接連交出兩個(gè)萬(wàn)億參數(shù)大模型。一個(gè)是超大型混合線性注意力架構(gòu)模型Ling-2.5-1T,另一個(gè)是全球首個(gè)混合線性注意力架構(gòu)的萬(wàn)億參數(shù)思考模型Ring-2.5-1T。

在前期研究基礎(chǔ)上,螞蟻百靈團(tuán)隊(duì)通過(guò)增量訓(xùn)練方式構(gòu)建了Ling 2.5架構(gòu)。該架構(gòu)將GQA+Lightning Linear升級(jí)為更高效的MLA+Lightning Linear組合,在進(jìn)一步壓縮KV緩存的同時(shí),保留了模型的表達(dá)能力。

Ling 2.5架構(gòu)采用1:7混合比例,還保留了QK Norm、Partial RoPE等核心機(jī)制,確保架構(gòu)遷移過(guò)程中模型性能不發(fā)生退化。


在降本增效方面,Ling-2.5-1T僅需約6000個(gè)token的平均輸出長(zhǎng)度,即可完成前沿模型需要1.5萬(wàn)-2.3萬(wàn)個(gè)token才能勝任的復(fù)雜任務(wù)。其訪存規(guī)模壓縮至傳統(tǒng)架構(gòu)的1/10,生成吞吐量提升至3倍。

上述種種對(duì)混合線性注意力架構(gòu)的探索,意義已不止于性能提升本身,而是在重新劃定大模型的應(yīng)用邊界與商業(yè)形態(tài)。

試想一下,當(dāng)推理成本顯著下降、token使用效率持續(xù)優(yōu)化,模型調(diào)用成本或許不再是限制其大規(guī)模落地的核心瓶頸。

隨之而來(lái)的,是應(yīng)用范式的自然轉(zhuǎn)變。企業(yè)不再需要精打細(xì)算地“按需調(diào)用”模型,而可以將其作為一種默認(rèn)能力嵌入到更多業(yè)務(wù)環(huán)節(jié)之中,實(shí)現(xiàn)更廣泛、更深入的效率提升。

大模型在高頻與實(shí)時(shí)場(chǎng)景中的角色可能因此發(fā)生變化,在搜索、推薦、智能客服等場(chǎng)景中,它們不再只是傳統(tǒng)系統(tǒng)的補(bǔ)充模塊,而是有望扮演核心驅(qū)動(dòng)引擎,成為如同數(shù)據(jù)庫(kù)、操作系統(tǒng)般默認(rèn)存在的底層基礎(chǔ)設(shè)施。

結(jié)語(yǔ):從堆參數(shù)到拼工程,大模型廣泛落地更近了

混合線性注意力架構(gòu)的探索仍在不斷深化,但這條路徑注定不會(huì)一帆風(fēng)順。不同技術(shù)路線之間仍在反復(fù)博弈與驗(yàn)證,例如MiniMax在階段性探索后選擇回歸全注意力模型,以優(yōu)先保證復(fù)雜場(chǎng)景下的穩(wěn)定性與可靠性。

不過(guò),更深層的信號(hào)已經(jīng)愈發(fā)清晰:大模型競(jìng)爭(zhēng)正從“暴力堆參數(shù)”轉(zhuǎn)向“工程效率的精算”。當(dāng)行業(yè)逐漸形成共識(shí),決定勝負(fù)的將不再只是規(guī)模本身,而是單位算力所能釋放的有效能力。

架構(gòu)層面的細(xì)微差異,最終會(huì)在企業(yè)級(jí)落地中放大為顯著的成本優(yōu)勢(shì)與體驗(yàn)差距,并推動(dòng)大模型從“可用”邁向“好用”,再走向真正的廣泛普及。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
騰訊、愛奇藝聯(lián)合發(fā)布聲明!熱播劇《逐玉》全集遭大規(guī)模泄露

騰訊、愛奇藝聯(lián)合發(fā)布聲明!熱播劇《逐玉》全集遭大規(guī)模泄露

鞭牛士
2026-03-22 17:25:05
汪小菲馬筱梅基因太絕!家中“小炸毛”萌翻全網(wǎng)這顏值太招人疼!

汪小菲馬筱梅基因太絕!家中“小炸毛”萌翻全網(wǎng)這顏值太招人疼!

小娛樂(lè)悠悠
2026-03-22 16:27:26
誰(shuí)能被稱為“黨的創(chuàng)始人”,僅此12人!

誰(shuí)能被稱為“黨的創(chuàng)始人”,僅此12人!

兵卒史
2026-03-22 08:43:17
以軍承認(rèn)未能攔截兩枚伊朗導(dǎo)彈,稱屬于“偶發(fā)”事件

以軍承認(rèn)未能攔截兩枚伊朗導(dǎo)彈,稱屬于“偶發(fā)”事件

界面新聞
2026-03-22 17:28:07
俄高官:歐盟和英國(guó)燃料危機(jī)迫在眉睫,或?qū)⒍颗浣o

俄高官:歐盟和英國(guó)燃料危機(jī)迫在眉睫,或?qū)⒍颗浣o

界面新聞
2026-03-22 16:45:15
太慘烈了,很多地方房?jī)r(jià)大跌了70%,這一輪房?jī)r(jià)到底跌了多少呢?

太慘烈了,很多地方房?jī)r(jià)大跌了70%,這一輪房?jī)r(jià)到底跌了多少呢?

玉辭心
2026-03-22 20:52:51
特朗普怒批澤連斯基:你在中東不是幫忙,是作秀

特朗普怒批澤連斯基:你在中東不是幫忙,是作秀

桂系007
2026-03-21 19:51:45
突發(fā)訃告!他于2026年3月18日去世,年僅33歲,留下兩個(gè)孩子

突發(fā)訃告!他于2026年3月18日去世,年僅33歲,留下兩個(gè)孩子

糖逗在娛樂(lè)
2026-03-22 18:12:56
淚流滿面!網(wǎng)傳20歲女生倒追40歲副教授,半年拿下,倒貼12萬(wàn)嫁妝

淚流滿面!網(wǎng)傳20歲女生倒追40歲副教授,半年拿下,倒貼12萬(wàn)嫁妝

火山詩(shī)話
2026-03-20 06:32:04
78歲連路都走不穩(wěn)還開演唱會(huì),全網(wǎng)罵聲一片,她卻揚(yáng)言回饋粉絲

78歲連路都走不穩(wěn)還開演唱會(huì),全網(wǎng)罵聲一片,她卻揚(yáng)言回饋粉絲

洲洲影視娛評(píng)
2026-01-28 12:23:18
奧運(yùn)冠軍夢(mèng)碎!伊朗欺騙19歲摔跤冠軍將見家人 次日將他絞刑處決

奧運(yùn)冠軍夢(mèng)碎!伊朗欺騙19歲摔跤冠軍將見家人 次日將他絞刑處決

念洲
2026-03-22 09:56:28
“寶貝回家”創(chuàng)始人張寶艷回應(yīng)“梅姨”落網(wǎng):原以為她會(huì)永遠(yuǎn)逍遙法外

“寶貝回家”創(chuàng)始人張寶艷回應(yīng)“梅姨”落網(wǎng):原以為她會(huì)永遠(yuǎn)逍遙法外

紅星新聞
2026-03-22 18:31:59
95后女教師自拍淫穢視頻售賣獲利24萬(wàn) 獲刑三年、緩刑三年

95后女教師自拍淫穢視頻售賣獲利24萬(wàn) 獲刑三年、緩刑三年

閃電新聞
2026-03-22 12:06:17
普京也沒料到!中亞領(lǐng)袖親赴北京搶生意,截胡俄羅斯鎖定中國(guó)大單

普京也沒料到!中亞領(lǐng)袖親赴北京搶生意,截胡俄羅斯鎖定中國(guó)大單

嫹筆牂牂
2026-03-22 11:22:24
680家門店的最大粵菜連鎖竟然不是廣東人開的

680家門店的最大粵菜連鎖竟然不是廣東人開的

商業(yè)弧光
2026-03-22 07:09:18
3月22日,財(cái)政部發(fā)布重要消息,強(qiáng)調(diào)4個(gè)字,養(yǎng)老金調(diào)整敲定了嗎?

3月22日,財(cái)政部發(fā)布重要消息,強(qiáng)調(diào)4個(gè)字,養(yǎng)老金調(diào)整敲定了嗎?

有范又有料
2026-03-22 15:51:20
蹭飯哥舉報(bào)比亞迪稅務(wù)?劇情反轉(zhuǎn)太離譜,網(wǎng)友:這下社死了!

蹭飯哥舉報(bào)比亞迪稅務(wù)?劇情反轉(zhuǎn)太離譜,網(wǎng)友:這下社死了!

阿芒娛樂(lè)說(shuō)
2026-03-22 19:57:45
伊朗議長(zhǎng)回應(yīng)特朗普開放霍爾木茲海峽“最后通牒”

伊朗議長(zhǎng)回應(yīng)特朗普開放霍爾木茲海峽“最后通牒”

澎湃新聞
2026-03-22 19:56:28
章子怡這一整像好多人 就是越來(lái)越不像自己 網(wǎng)友:變萌變好看了

章子怡這一整像好多人 就是越來(lái)越不像自己 網(wǎng)友:變萌變好看了

塵埃里的看客
2026-03-20 22:32:14
鎖定備胎!利物浦物色頂級(jí)少帥替代阿隆索,斯洛特基本確定下課

鎖定備胎!利物浦物色頂級(jí)少帥替代阿隆索,斯洛特基本確定下課

夜白侃球
2026-03-22 23:06:20
2026-03-22 23:52:49
智東西 incentive-icons
智東西
聚焦智能變革,服務(wù)產(chǎn)業(yè)升級(jí)。
11406文章數(shù) 117007關(guān)注度
往期回顧 全部

科技要聞

嫌臺(tái)積電太慢 馬斯克要把芯片產(chǎn)能飆升50倍

頭條要聞

媒體:特朗普48小時(shí)通牒砸向伊朗 不排除美國(guó)鋌而走險(xiǎn)

頭條要聞

媒體:特朗普48小時(shí)通牒砸向伊朗 不排除美國(guó)鋌而走險(xiǎn)

體育要聞

46歲生日快樂(lè)!巴薩全隊(duì)穿10號(hào)致敬小羅

娛樂(lè)要聞

47歲“國(guó)際章”身材走樣?讓嘲笑她的人閉嘴

財(cái)經(jīng)要聞

睡夢(mèng)中欠債1.2萬(wàn)?這只“蝦”殺瘋了

汽車要聞

14.28萬(wàn)元起 吉利銀河星耀8遠(yuǎn)航家開啟預(yù)售

態(tài)度原創(chuàng)

健康
親子
旅游
時(shí)尚
藝術(shù)

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

親子要聞

學(xué)術(shù)期刊發(fā)表兒童如廁研究引爭(zhēng)議,專家:倫理層面存在明顯缺失

旅游要聞

“春約五蓮·共享繁花”賞花主題活動(dòng)在五蓮縣叩官鎮(zhèn)大旺村盛大啟幕

她憑這件旗袍在賽場(chǎng)圈粉無(wú)數(shù)

藝術(shù)要聞

扎哈事務(wù)所掌門人:建筑學(xué),已經(jīng)死了!

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版