網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

硅谷豪賭算力燒到停電，中國團隊反向出擊！這一刀，直接砍碎Scaling Law

2026-02-11 19:02:52　來源: 新智元

北京舉報

分享至

新智元報道

編輯：KingHZ Aeneas

【新智元導(dǎo)讀】思考token在精不在多。Yuan 3.0 Flash用RAPO+RIRM雙殺過度思考，推理token砍75%，網(wǎng)友們驚呼：這就是下一代AI模型的發(fā)展方向！

硅谷的算力戰(zhàn)爭，已經(jīng)不是「拼GPU」，而是「搶電網(wǎng)」。

OpenAI萬億豪賭Scaling，瞄準10GW級超級集群。

在孟菲斯，馬斯克豎起xAI的Colossus，55.5萬張GPU與2GW電力轟鳴待命。

還不止地面。馬斯克已經(jīng)把目光看向太空：下一座「算力堡壘」，仿佛就在地球近地軌道的黑暗里發(fā)光。

奧特曼在賭，馬斯克在賭，整個硅谷都在賭：堆起最高的「算力山」，就能先摸到AGI的門把手。

可就在這場萬億級狂飆里，Anthropic的一個更刺耳的結(jié)論浮出水面——

模型越大，算力越多，不一定越聰明。更可能的是：浪費更大、思維鏈更亂、幻覺更猛。

左右滑動查看

真正決定勝負的，可能不是更多GPU，而是能讓模型在正確答案前及時剎車的算法。

而就在這個節(jié)點，Yuan 3.0 Flash悄然登場。

它出自YuanLab.ai團隊之手——沒有喧囂的發(fā)布，沒有張揚的宣告，卻也吸引了全球開發(fā)者的注意。26年伊始，YuanLab.ai團隊交出了它的階段性的成果，向行業(yè)展示了自己的節(jié)奏。

可以說，Yuan 3.0 Flash不是又一個參數(shù)爆炸的巨獸，而是一場針對「想太多」的精準手術(shù)——以更高效的機制，實現(xiàn)更敏捷的思考。

40B總參數(shù)的MoE（Mixture-of-Experts）架構(gòu)，僅激活約3.7B參數(shù)，卻在多模態(tài)任務(wù)上展現(xiàn)出媲美甚至超越數(shù)百億參數(shù)模型的表現(xiàn)。

更關(guān)鍵的是，它讓模型學(xué)會「適可而止」，從訓(xùn)練階段就教會它：什么時候該停手。

鏈接：https://arxiv.org/pdf/2601.01718

開源：https://github.com/Yuan-lab-LLM/Yuan3.0

因此，Yuan 3.0 Flash一經(jīng)發(fā)布，就在全球開發(fā)者中引起了巨大轟動。

有人說，這是高效多模態(tài)AI邁出的一大步：一個400億模型僅僅激活了37億參數(shù)，這就是下一代AI模型的發(fā)展方向！

沒想到，開源模型竟然能有這種級別的控制力，這種AI，是真的可以應(yīng)用于生產(chǎn)環(huán)境的。

打破業(yè)內(nèi)魔咒

想太多，就更好嗎？

推理模型的興盛，引發(fā)了全行業(yè)對「長思維鏈」的追逐。

然而，企業(yè)AI落地時，卻存在著這樣一個「TOKEN成本悖論」——

想要高智能，就必須承擔(dān)成倍增長的Token消耗和推理延遲；

想要控制成本，往往只能犧牲模型能力。

要知道，對企業(yè)而言，每一個無效消耗的Token，都是真金白銀的流失！

真正的成本黑洞，不在「求解」，而在「答對之后」：很多推理模型一旦摸到正確答案，就開始反復(fù)確認、來回推翻、沒有新證據(jù)也要繼續(xù)「再想想」。

事實上，在數(shù)學(xué)與科學(xué)任務(wù)中，超過70%的token消耗發(fā)生在正確答案之后，卻仍在進行無效反復(fù)驗證的階段。

舉個例子，你問了AI一個數(shù)學(xué)題，它會先給出正確解，然后又開始「但是……或許……再檢查一遍」，最終輸出比答案本身長三倍的文字。

答案早已浮現(xiàn)，卻被淹沒在無休止的自我對話中。

這不是「幻覺」，是當(dāng)下大模型的普遍頑疾：過度反思（overthinking）。

為了解決這一矛盾，Yuan 3.0 Flash正式登場了！團隊的目標是——「用更少算力，實現(xiàn)更高的智能」。

四兩撥千斤

更少算力，但更高智能

Yuan 3.0 Flash，在MoE架構(gòu)的基礎(chǔ)上，實現(xiàn)了RIRM（反思抑制獎勵機制）和RAPO（反思感知自適應(yīng)策略優(yōu)化）兩項算法創(chuàng)新，這樣就從根本上修正了模型的「過度思考」。

由此，模型實現(xiàn)了以下突破：

· 精準定位：準確識別首次得出正確答案的關(guān)鍵節(jié)點

· 抑制冗余：有效抑制后續(xù)冗余推理行為

· 雙重提升：在提升精度的同時，將推理token數(shù)量降低約75%

首先，來看它在架構(gòu)上的優(yōu)雅革命。

傳統(tǒng)稠密模型像一支全員出動的軍隊，每一次推理都調(diào)動所有神經(jīng)元。

Yuan 3.0 Flash則更像一支特種部隊：MoE機制只喚醒最合適的「專家」應(yīng)對當(dāng)前任務(wù)。

視覺編碼器處理高分辨率圖像，通過自適應(yīng)分割機制將圖片拆分成高效token，避免顯存爆炸；語言主干網(wǎng)絡(luò)采用Local Filtered Attention（LFA），進一步降低計算開銷。

結(jié)果很出彩——

上下文長度輕松達到128K，在「needle-in-a-haystack」（大海撈針）測試中實現(xiàn)100%準確召回。

就是說，它能從海量文檔中精準定位關(guān)鍵信息，而不會因為長度而迷失。

想象一下，你的企業(yè)需要分析一份數(shù)百頁的財務(wù)報告，夾雜著復(fù)雜嵌套表格和圖表。

過去，模型或許卡頓、幻覺頻出，或者token消耗到天價。

而Yuan 3.0 Flash像一位專注的審計師，多模態(tài)輸入（文本+圖像+表格+文檔）無縫融合：

RAG（檢索增強生成）準確率達64.47%，
Docmatix多模態(tài)檢索65.10%，
MMTab表格理解58.30%，
SummEval摘要生成59.30%。

在企業(yè)場景，Yuan 3.0 Flash遠超GPT-5.1的46.10%，直接瞄準了LLM的痛點。

RIRM：拒絕無效內(nèi)耗

真正讓Yuan 3.0 Flash脫穎而出的，就是對「過度反思」的致命一擊。

在MATH-500和AIME等數(shù)學(xué)基準上，傳統(tǒng)推理模型的token分布像一座冰山：

淺色部分是問題求解，深色巨大區(qū)域是后答案反思

比如，在MATH-500上，「后答案反思」占比高達71.6%，整體token在3362上居高不下。

為了顯著降低這一無效反思的占比，團隊提出了一種創(chuàng)新機制——反思抑制獎勵機制（RIRM）。

RIRM的原理簡單卻深刻：在強化學(xué)習(xí)中，它識別模型首次輸出正確答案的「節(jié)點」，然后對后續(xù)缺乏新證據(jù)的重復(fù)驗證、自我推翻施以負獎勵。

模型不再被鼓勵「想得越久越好」，而是學(xué)會辨別「足夠好」的邊界。

RIRM工作流程示意

從首次正確答案識別到反思階段獎勵抑制的完整鏈路

也就是說，在強化學(xué)習(xí)中，RIRM首次教導(dǎo)了模型識別「何時思考已足夠」。它會獎勵模型在首次得出正確答案后停止無效反思，而非鼓勵無止境的推演。

為此，團隊引入了三個維度的獎勵：首次正確答案、最終正確性，以及反思步驟數(shù)量是否落在合理區(qū)間內(nèi)。

果然，Yuan 3.0Flash引入RIRM后，上面這座冰山被腰斬：反思階段token占比驟降至28.4%，總token壓縮至1777左右，減少約47%，而準確率不降反升（MATH-500從83.20%提升至89.47%）。

這就說明被壓縮的并不是有效推理，而是答案已經(jīng)確定之后的反復(fù)自檢、復(fù)述與格式化解釋等低價值token。

不僅如此，該模型在數(shù)學(xué)、科學(xué)等領(lǐng)域也表現(xiàn)出強大的推理能力，直接把無效反思的Token消耗最高削減至75%，即可達到前沿模型的精度水平！

這樣，就能讓算力聚焦于真正有價值的推理步驟?？梢哉f，RIRM的作用并非「壓長度」，而是讓模型學(xué)會在正確節(jié)點停止思考。

RIRM訓(xùn)練前后Token消耗對比

反思階段（深色部分）顯著縮減，而首次解題階段基本保持不變

RAPO：高效訓(xùn)練引擎

然而，僅靠對推理行為的抑制，并不足以支撐一個穩(wěn)定、高效的企業(yè)級模型訓(xùn)練。

由此，團隊引入了RAPO（反思感知自適應(yīng)策略優(yōu)化），這并非一次局部技巧的優(yōu)化，而是對強化學(xué)習(xí)訓(xùn)練框架的一次系統(tǒng)性改進。

它兼顧了訓(xùn)練效率、訓(xùn)練穩(wěn)定性及推理效率，使模型能在多任務(wù)、異構(gòu)場景中形成更具實用價值的策略。

具體來說，它從訓(xùn)練框架層面實現(xiàn)保駕護航：

自適應(yīng)動態(tài)采樣(Adaptive Dynamic Sampling，ADS）：動態(tài)過濾掉低信息量的重復(fù)樣本，訓(xùn)練效率提升52.91%
80/20高熵token更新規(guī)則：只更新不確定性最高的前20%的token梯度，聚焦真正需要優(yōu)化的部分
優(yōu)化雙剪裁：同時對策略梯度和值函數(shù)梯度進行雙重裁剪，防止MoE架構(gòu)常見的梯度爆炸
多任務(wù)交替訓(xùn)練+KL散度正則，讓大型MoE模型也能穩(wěn)定收斂

讓整個RL過程效率提升52.91%，即使在大型MoE模型上也保持穩(wěn)定。

這不是強制縮短輸出，而是重塑模型對「好推理」的認知：從「長度即真理」，轉(zhuǎn)向「時機即智慧」。

更重要的是，RAPO與RIRM是協(xié)同設(shè)計的。

RAPO決定模型「如何學(xué)習(xí)」，而 RIRM明確模型「學(xué)到什么程度該停」。

當(dāng)然，任何創(chuàng)新都有其張力。

RIRM在抑制冗余的同時，可能在極度不確定、需要多輪探索的任務(wù)中略微限制有益反思——這需要在實際部署中持續(xù)觀察與平衡。

AI下半場，YuanLab.ai團隊這樣想

Yuan 3.0 Flash指向一個清晰的結(jié)論：當(dāng)模型具備基礎(chǔ)推理能力后，其進化的關(guān)鍵已非「延長思考」，而在于「優(yōu)化思考的質(zhì)量與效率」。

它不僅為企業(yè)提供一種「更少算力、更高智能」的選擇，更重要的是對「長思維鏈」競賽的理性補充。

背后團隊YuanLab.ai深深理解深度推理的價值，但也知道隱藏的算力浪費風(fēng)險。

因此，Yuan 3.0 Flash提供了追求「有效思考」的平衡方案，推動行業(yè)關(guān)注智能的實用性與經(jīng)濟性。

Yuan 3.0 Flash被網(wǎng)友盛贊：這不是一個demo，而是一個真正為生產(chǎn)構(gòu)建的模型！

當(dāng)模型能夠在獲得正確答案時主動停止推理，本質(zhì)上意味著它開始進行一種隱式的成本—收益分析。從此，token成為推理過程中可被模型內(nèi)部感知和調(diào)節(jié)的計算資源。

這就標志著推理目標的一次轉(zhuǎn)變：從單純模仿人類冗長、外顯的思維過程，轉(zhuǎn)向更適合機器的、以最小token預(yù)算達成正確性的效用導(dǎo)向智能形態(tài)。

為什么這種更高效的智能，是出自YuanLab.ai團隊之手？

實際上，這個成果可以看作YuanLab.ai團隊在此領(lǐng)域多年經(jīng)驗的厚積薄發(fā)。作為在行業(yè)內(nèi)深耕多年的大模型探索者，團隊的發(fā)展足跡本身已成為中國大模型演進歷程中一個真實而生動的縮影。

2021年，當(dāng)業(yè)界對大模型的認知尚處朦朧時，YuanLab.ai團隊便已勇闖無人區(qū)，發(fā)布了2457億參數(shù)的源1.0大模型，這是對GPT-3架構(gòu)的成功驗證。

發(fā)布之際，團隊開源了平臺、代碼以及珍貴的中文數(shù)據(jù)集，滋養(yǎng)了國內(nèi)早期大模型成長土壤。

隨著ChatGPT的橫空出世，YuanLab.ai團隊立足自身技術(shù)積累與市場需求，于同期成功推出自主研發(fā)的「源2.0」大模型。

2024年5月，團隊發(fā)布了采用創(chuàng)新MoE架構(gòu)的源2.0-M32，以僅2.25萬億Tokens的訓(xùn)練量，實現(xiàn)了出色的性能。

站在「源2.0-M32」的肩膀上，YuanLab.ai團隊已向著下一個里程碑進發(fā)——「源3.0」，劍指多模態(tài)、更少算力、更高智能的AGI路徑。在此過程中，也有了團隊近期交出的階段性成果——Yuan 3.0 Flash。

AI下半場，走向哪里

回望過去，我們或許會發(fā)現(xiàn)，AI的下半場真的來了。

上半場，大家追求的是「大」：更大的參數(shù)、更多的顯卡、更高的智能。那是AI的青春期，迅速成長。
下半場，我們開始追求「準」：更精煉的邏輯、更克制的表達、更高效的決策。這是AI成年禮的開始。

當(dāng)我們不再迷信「越大越強」，而轉(zhuǎn)向「更精煉、更適配」，AI才真正從實驗室走向生產(chǎn)，從昂貴的玩具變成可持續(xù)的工具。

此時，我們觸及了本質(zhì)：AI智能的邊界，正在從「深度」轉(zhuǎn)向「時機」。

真正的聰明，往往不是想得最多，而是知道何時果斷收手。

人類智慧最珍貴的部分，從來不是喋喋不休的長篇大論，而是由于洞察本質(zhì)而帶來的適時沉默。

所以，當(dāng)你下一次面對AI冗長輸出時，不妨問自己：它是在推理，還是在演推理？

在AGI星辰大海里，我們或許不再需要追逐參數(shù)巨獸，而是學(xué)會點亮一盞更精準、更節(jié)制的燈塔。

大廠需要學(xué)會的，是參與一場「適可而止」的革命。

參考資料：

https://arxiv.org/pdf/2601.01718

https://github.com/Yuan-lab-LLM/Yuan3.0

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.