奧特曼的“溫和奇點”愿景，線性注意力的勝利？MiniMax-M1技術(shù)報告深度解析

2025-06-17 18:19:29　來源: 平凡AI

海外舉報

分享至

OpenAI CEO 奧特曼前兩天發(fā)了一篇博文，名字叫「溫和的奇點」（The Gentle Singularity），文中有一句話是這么說的：

“Then focus on making superintelligence cheap, widely available, and not too concentrated with any person, company, or country.”

這段話明確指出，未來的超級智能（superintelligence）必須實現(xiàn)低成本、大規(guī)模普及，且不應(yīng)被少數(shù)個人、公司或國家壟斷。換言之，AI 應(yīng)像電力一樣普及——前提是要做好基礎(chǔ)設(shè)施建設(shè)并將價格壓到足夠低。然而，OpenAI 自身在這兩方面一直被人詬?。浩湟?，自 GPT-3.5 以來一直采取閉源策略；其二，ChatGPT 在世界許多地區(qū)仍無法使用。

要讓 AI 真正“廉價且廣泛可用”，并滿足當(dāng)下應(yīng)用需求（奧特曼、黃仁勛等一眾將 2025 年稱為“Agent 元年”），至少需要具備以下三項能力：

推理reasoning能力，對應(yīng)了應(yīng)運而生的各種復(fù)雜任務(wù)，傳統(tǒng)大模型思考能力有限，只有帶有推理能力的大模型才能搞定。
tool calling，所謂的Agent其實就是縮小版的人類，它得熟練使用各類不同的工具（聯(lián)網(wǎng)搜索，畫圖，調(diào)用程序等），并且最好跟現(xiàn)在的各種MCP，A2A協(xié)議適配。
盡可能長的上下文context：很多大型文檔或者稍大點的開源repo需要消耗大量token，短的上下文別說工作，連資料都讀不完。

這三點需求正好體現(xiàn)了 AI 模型從“寫詩對對子”的玩具階段向“具備實際工作能力”的工具階段的演進(jìn)。

而演進(jìn)的速度其實受到了很多方面的制約，硬件、算法和架構(gòu)缺一不可，現(xiàn)有的大模型大多基于英偉達(dá)的硬件，所以能夠做文章的地方主要就是架構(gòu)和算法。

這次MiniMax-M1的發(fā)布，在這兩個方向都有不小的創(chuàng)新。

Lighting Transformer的創(chuàng)新性應(yīng)用：在盡可能保留信息的前提下降低了訓(xùn)練成本
Hybrid MoE架構(gòu)：適應(yīng)Lighting Transformer，Dense級別的消耗，10x大小模型性能
RL算法創(chuàng)新：CISPO

論文以及開源代碼地址：https://github.com/MiniMax-AI/MiniMax-M1

技術(shù)報告地址：https://arxiv.org/abs/2506.13585

前兩個算架構(gòu)的創(chuàng)新性應(yīng)用，特別是Lighting Transformer的應(yīng)用，現(xiàn)有的絕大多數(shù)大模型都采用的是傳統(tǒng)的Transformer結(jié)構(gòu)，這個結(jié)構(gòu)圖估計大家見過非常多次了。

Transformer這個圖復(fù)雜，但其實它的原理很簡單，就是把一句話的每個詞之間的關(guān)系都找出來，比如我吃飯，它會找到（我，吃）（我，飯）（吃，飯）這些關(guān)系，但這只有三個字，如果字?jǐn)?shù)變數(shù)，關(guān)系數(shù)量直接翻倍（3->6）。

特別是很多朋友喜歡直接把一本幾十萬字的書扔給AI分析，那對于顯卡的負(fù)擔(dān)可想而知，而Lighting Transformer的本質(zhì)就是盡可能的保證準(zhǔn)確的前提下，降低對于計算資源的消耗。這就是Lighting Transformer的發(fā)力的地方，它的原理其實在數(shù)學(xué)上很簡單，傳統(tǒng)的Transfomer需要Q*K^T*V，QK這兩個數(shù)的乘積會隨著輸入文字的長度劇烈的擴張，也就說傳統(tǒng)的方法好用，但是碰到超長的文本，就會算的非常吃力。

而Lighting Transformer可以說就是利用了數(shù)學(xué)上的乘法定律，A*B*C = A*(B*C)，只是讓后面兩個數(shù)先乘，就這簡單的一步就可以將所需要的計算量降低很多。

但有一個問題，那就是在數(shù)學(xué)角度上看起來很直觀的公式，真正到了實際應(yīng)用中卻非常難以實現(xiàn)，因為有非常多的瓶頸限制。MiniMax-M1用的lighting transformer其實并不是簡單的線性注意力，而是一個針對現(xiàn)代GPU硬件特性進(jìn)行深度優(yōu)化I/O-aware的變體，它的存在可以讓理論盡可能的貼近了現(xiàn)實。

其實除了M1用的這個lighting transformer，LLM領(lǐng)域也有幾個很火的架構(gòu)，分別是Mamba和RWKV，都比傳統(tǒng)的Transformer處理速度要快很多，但是他們的局限性也很強，那就是碰到超長上下文的時候會捉襟見肘，在前LLM時代還能行，但agent時代明顯不太夠用了。

特別的是M1的架構(gòu)也不是純Lighting Transformer，而是每7層Lighting后會加一層傳統(tǒng)的softmax transformer，因為只要省算力，那肯定會有代價，這是一種深思熟慮的工程權(quán)衡。

這種設(shè)計體現(xiàn)了一種務(wù)實的架構(gòu)理念：在享受線性注意力帶來的巨大計算和內(nèi)存效率的同時，周期性地利用標(biāo)準(zhǔn)softmax注意力的能力來校準(zhǔn)和鞏固模型的表征。

感興趣的朋友可以看看，純粹的線性注意力模型雖然高效，但學(xué)術(shù)界已經(jīng)指出其存在一些固有缺陷，例如可能導(dǎo)致表征能力的“秩崩潰”（low-rank nature），從而在需要精細(xì)區(qū)分和復(fù)雜關(guān)系建模的任務(wù)上表現(xiàn)不佳。

論文地址：

https://arxiv.org/html/2411.07635v1 https://arxiv.org/abs/2411.07635

可以看到新架構(gòu)的優(yōu)勢，同樣的生成長度（橫軸），M1的消耗幾乎是直線，而DeepSeek-R1和Qwen的消耗明顯大的多，從實際效果中也印證了線性注意力的效果。

另一部分的創(chuàng)新就是RL算法，現(xiàn)在新出的大模型基本上都是推理大模型，而推理大模型的前身就是傳統(tǒng)大模型，多加的步驟就是post-training，相當(dāng)于給一個具備了高中知識的人灌了一大堆博士級別的思考方式，本質(zhì)上知識量沒變，只是掌握了更多的思考方式和技巧。

這個核心就是用強化學(xué)習(xí)RL來做，主流的算法有兩個，PPO（Proximal Policy Optimization）、GRPO（Group Relative Policy Optimization），其中最近的大模型基本上都是后者，比如DeepSeek，Qwen3等等，它倆的核心思路都是相同的，都是讓模型朝著性能提升的方向走。

但是M1的作者們發(fā)現(xiàn)了一個問題，那就是Token Clipping，通俗來講，就是你在學(xué)數(shù)學(xué)，對于一個很難的問題，你突然有了靈感，比老師設(shè)想的解題速度快很多，老師就直接把你的做法否定了，這么做當(dāng)然可以讓你更扎實的學(xué)知識，但是也有問題，那就是把你那些靈光乍現(xiàn)的經(jīng)驗人為的遏制了。

但問題是在Agent時代，模型需要這種靈感乍現(xiàn)，需要這種深度的長思考能力。

本文提出的CISPO就是發(fā)現(xiàn)了這個問題會導(dǎo)致模型的性能提不上去，特別是采用了獨特的Lighting Transformer，CISPO的核心思路就是不限制任何思路，只是“提醒”，如果思考的太快，那就提示“慢一點兒”，這種溫和的約束可以保持大模型的訓(xùn)練目標(biāo)是正向向前的同時，還能夠穩(wěn)定的學(xué)到所有重要的地方。

紅色的部分（CISPO）實現(xiàn)了兩倍的訓(xùn)練速度，同時效果還最好。

同時有架構(gòu)和算法上的創(chuàng)新，MiniMax-M1的性能也很不錯，跟世界上最強的幾個模型相比也很不錯，特別是跟Agent相關(guān)能力的維度上，幾乎跟最強的幾個閉源模型齊平了。

別忘了，M1的幾個特性都是奔著性價比去的，你看文中的這句話，3周、512塊H800（DeepSeek R1同款），0.53M美元。

這是什么意思，也就是只用了53萬美元就完成了RL訓(xùn)練，這釋放出的信號對于大模型領(lǐng)域的玩家都是非常積極的，你想，一個世界梯隊的Reasnoing大模型，只需要租512張H800，三周時間就能迭代一輪，相比起之前動輒幾個月才能完成的訓(xùn)練，M1讓大模型這盤蛋糕變的更大，成本直接降低了一個數(shù)量級，顯而易見的入場門檻也更加友好了。

所以說，M1的這篇論文要傳達(dá)并不是單純的性價比或者技術(shù)力，更多的是一種新路徑的探索，它不僅是一個在多個基準(zhǔn)測試上取得優(yōu)異成績的模型，它更是一次成功的技術(shù)宣言。它宣告了通過底層的架構(gòu)和算法創(chuàng)新，我們完全有能力構(gòu)建出既強大又高效的大規(guī)模AI系統(tǒng)。它所開辟的這條非Transformer、高效率、高性能的道路，為整個AI領(lǐng)域邁向更復(fù)雜、更智能、更普惠的未來，提供了一份極具價值的參考設(shè)計。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.