国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

硅谷豪賭算力燒到停電,中國團隊反向出擊!這一刀,直接砍碎Scaling Law

0
分享至


新智元報道

編輯:KingHZ Aeneas

【新智元導(dǎo)讀】思考token在精不在多。Yuan 3.0 Flash用RAPO+RIRM雙殺過度思考,推理token砍75%,網(wǎng)友們驚呼:這就是下一代AI模型的發(fā)展方向!

硅谷的算力戰(zhàn)爭,已經(jīng)不是「拼GPU」,而是「搶電網(wǎng)」。

OpenAI萬億豪賭Scaling,瞄準10GW級超級集群。

在孟菲斯,馬斯克豎起xAI的Colossus,55.5萬張GPU與2GW電力轟鳴待命。

還不止地面。馬斯克已經(jīng)把目光看向太空:下一座「算力堡壘」,仿佛就在地球近地軌道的黑暗里發(fā)光。


奧特曼在賭,馬斯克在賭,整個硅谷都在賭:堆起最高的「算力山」,就能先摸到AGI的門把手。

可就在這場萬億級狂飆里,Anthropic的一個更刺耳的結(jié)論浮出水面——

模型越大,算力越多,不一定越聰明。更可能的是:浪費更大、思維鏈更亂、幻覺更猛。




左右滑動查看

真正決定勝負的,可能不是更多GPU,而是能讓模型在正確答案前及時剎車的算法。

而就在這個節(jié)點,Yuan 3.0 Flash悄然登場。

它出自YuanLab.ai團隊之手——沒有喧囂的發(fā)布,沒有張揚的宣告,卻也吸引了全球開發(fā)者的注意。26年伊始,YuanLab.ai團隊交出了它的階段性的成果,向行業(yè)展示了自己的節(jié)奏。

可以說,Yuan 3.0 Flash不是又一個參數(shù)爆炸的巨獸,而是一場針對「想太多」的精準手術(shù)——以更高效的機制,實現(xiàn)更敏捷的思考。

40B總參數(shù)的MoE(Mixture-of-Experts)架構(gòu),僅激活約3.7B參數(shù),卻在多模態(tài)任務(wù)上展現(xiàn)出媲美甚至超越數(shù)百億參數(shù)模型的表現(xiàn)。

更關(guān)鍵的是,它讓模型學(xué)會「適可而止」,從訓(xùn)練階段就教會它:什么時候該停手。


鏈接:https://arxiv.org/pdf/2601.01718

開源:https://github.com/Yuan-lab-LLM/Yuan3.0

因此,Yuan 3.0 Flash一經(jīng)發(fā)布,就在全球開發(fā)者中引起了巨大轟動。

有人說,這是高效多模態(tài)AI邁出的一大步:一個400億模型僅僅激活了37億參數(shù),這就是下一代AI模型的發(fā)展方向!


沒想到,開源模型竟然能有這種級別的控制力,這種AI,是真的可以應(yīng)用于生產(chǎn)環(huán)境的。


打破業(yè)內(nèi)魔咒

想太多,就更好嗎?

推理模型的興盛,引發(fā)了全行業(yè)對「長思維鏈」的追逐。

然而,企業(yè)AI落地時,卻存在著這樣一個「TOKEN成本悖論」——

想要高智能,就必須承擔(dān)成倍增長的Token消耗和推理延遲;

想要控制成本,往往只能犧牲模型能力。

要知道,對企業(yè)而言,每一個無效消耗的Token,都是真金白銀的流失!

真正的成本黑洞,不在「求解」,而在「答對之后」:很多推理模型一旦摸到正確答案,就開始反復(fù)確認、來回推翻、沒有新證據(jù)也要繼續(xù)「再想想」。

事實上,在數(shù)學(xué)與科學(xué)任務(wù)中,超過70%的token消耗發(fā)生在正確答案之后,卻仍在進行無效反復(fù)驗證的階段。

舉個例子,你問了AI一個數(shù)學(xué)題,它會先給出正確解,然后又開始「但是……或許……再檢查一遍」,最終輸出比答案本身長三倍的文字。


答案早已浮現(xiàn),卻被淹沒在無休止的自我對話中。

這不是「幻覺」,是當(dāng)下大模型的普遍頑疾:過度反思(overthinking)。

為了解決這一矛盾,Yuan 3.0 Flash正式登場了!團隊的目標是——「用更少算力,實現(xiàn)更高的智能」。

四兩撥千斤

更少算力,但更高智能

Yuan 3.0 Flash,在MoE架構(gòu)的基礎(chǔ)上,實現(xiàn)了RIRM(反思抑制獎勵機制)和RAPO(反思感知自適應(yīng)策略優(yōu)化)兩項算法創(chuàng)新,這樣就從根本上修正了模型的「過度思考」。

由此,模型實現(xiàn)了以下突破:

· 精準定位:準確識別首次得出正確答案的關(guān)鍵節(jié)點

· 抑制冗余:有效抑制后續(xù)冗余推理行為

· 雙重提升:在提升精度的同時,將推理token數(shù)量降低約75%

首先,來看它在架構(gòu)上的優(yōu)雅革命。

傳統(tǒng)稠密模型像一支全員出動的軍隊,每一次推理都調(diào)動所有神經(jīng)元。

Yuan 3.0 Flash則更像一支特種部隊:MoE機制只喚醒最合適的「專家」應(yīng)對當(dāng)前任務(wù)。

視覺編碼器處理高分辨率圖像,通過自適應(yīng)分割機制將圖片拆分成高效token,避免顯存爆炸;語言主干網(wǎng)絡(luò)采用Local Filtered Attention(LFA),進一步降低計算開銷。


結(jié)果很出彩——

上下文長度輕松達到128K,在「needle-in-a-haystack」(大海撈針)測試中實現(xiàn)100%準確召回。


就是說,它能從海量文檔中精準定位關(guān)鍵信息,而不會因為長度而迷失。

想象一下,你的企業(yè)需要分析一份數(shù)百頁的財務(wù)報告,夾雜著復(fù)雜嵌套表格和圖表。

過去,模型或許卡頓、幻覺頻出,或者token消耗到天價。

而Yuan 3.0 Flash像一位專注的審計師,多模態(tài)輸入(文本+圖像+表格+文檔)無縫融合:

  • RAG(檢索增強生成)準確率達64.47%,

  • Docmatix多模態(tài)檢索65.10%,

  • MMTab表格理解58.30%,

  • SummEval摘要生成59.30%。


在企業(yè)場景,Yuan 3.0 Flash遠超GPT-5.1的46.10%,直接瞄準了LLM的痛點。

RIRM:拒絕無效內(nèi)耗

真正讓Yuan 3.0 Flash脫穎而出的,就是對「過度反思」的致命一擊。

在MATH-500和AIME等數(shù)學(xué)基準上,傳統(tǒng)推理模型的token分布像一座冰山:


淺色部分是問題求解,深色巨大區(qū)域是后答案反思

比如,在MATH-500上,「后答案反思」占比高達71.6%,整體token在3362上居高不下。

為了顯著降低這一無效反思的占比,團隊提出了一種創(chuàng)新機制——反思抑制獎勵機制(RIRM)。

RIRM的原理簡單卻深刻:在強化學(xué)習(xí)中,它識別模型首次輸出正確答案的「節(jié)點」,然后對后續(xù)缺乏新證據(jù)的重復(fù)驗證、自我推翻施以負獎勵。

模型不再被鼓勵「想得越久越好」,而是學(xué)會辨別「足夠好」的邊界。


RIRM工作流程示意

從首次正確答案識別到反思階段獎勵抑制的完整鏈路

也就是說,在強化學(xué)習(xí)中,RIRM首次教導(dǎo)了模型識別「何時思考已足夠」。它會獎勵模型在首次得出正確答案后停止無效反思,而非鼓勵無止境的推演。

為此,團隊引入了三個維度的獎勵:首次正確答案、最終正確性,以及反思步驟數(shù)量是否落在合理區(qū)間內(nèi)。

果然,Yuan 3.0Flash引入RIRM后,上面這座冰山被腰斬:反思階段token占比驟降至28.4%,總token壓縮至1777左右,減少約47%,而準確率不降反升(MATH-500從83.20%提升至89.47%)。

這就說明被壓縮的并不是有效推理,而是答案已經(jīng)確定之后的反復(fù)自檢、復(fù)述與格式化解釋等低價值token。


不僅如此,該模型在數(shù)學(xué)、科學(xué)等領(lǐng)域也表現(xiàn)出強大的推理能力,直接把無效反思的Token消耗最高削減至75%,即可達到前沿模型的精度水平!

這樣,就能讓算力聚焦于真正有價值的推理步驟??梢哉f,RIRM的作用并非「壓長度」,而是讓模型學(xué)會在正確節(jié)點停止思考。


RIRM訓(xùn)練前后Token消耗對比

反思階段(深色部分)顯著縮減,而首次解題階段基本保持不變

RAPO:高效訓(xùn)練引擎

然而,僅靠對推理行為的抑制,并不足以支撐一個穩(wěn)定、高效的企業(yè)級模型訓(xùn)練。

由此,團隊引入了RAPO(反思感知自適應(yīng)策略優(yōu)化),這并非一次局部技巧的優(yōu)化,而是對強化學(xué)習(xí)訓(xùn)練框架的一次系統(tǒng)性改進。

它兼顧了訓(xùn)練效率、訓(xùn)練穩(wěn)定性及推理效率,使模型能在多任務(wù)、異構(gòu)場景中形成更具實用價值的策略。

具體來說,它從訓(xùn)練框架層面實現(xiàn)保駕護航:

  • 自適應(yīng)動態(tài)采樣(Adaptive Dynamic Sampling,ADS):動態(tài)過濾掉低信息量的重復(fù)樣本,訓(xùn)練效率提升52.91%

  • 80/20高熵token更新規(guī)則:只更新不確定性最高的前20%的token梯度,聚焦真正需要優(yōu)化的部分

  • 優(yōu)化雙剪裁:同時對策略梯度和值函數(shù)梯度進行雙重裁剪,防止MoE架構(gòu)常見的梯度爆炸

  • 多任務(wù)交替訓(xùn)練+KL散度正則,讓大型MoE模型也能穩(wěn)定收斂

讓整個RL過程效率提升52.91%,即使在大型MoE模型上也保持穩(wěn)定。


這不是強制縮短輸出,而是重塑模型對「好推理」的認知: 從「長度即真理」,轉(zhuǎn)向「時機即智慧」。

更重要的是,RAPO與RIRM是協(xié)同設(shè)計的。

RAPO決定模型「如何學(xué)習(xí)」,而 RIRM明確模型「學(xué)到什么程度該停」。

當(dāng)然,任何創(chuàng)新都有其張力。

RIRM在抑制冗余的同時,可能在極度不確定、需要多輪探索的任務(wù)中略微限制有益反思——這需要在實際部署中持續(xù)觀察與平衡。

AI下半場,YuanLab.ai團隊這樣想

Yuan 3.0 Flash指向一個清晰的結(jié)論:當(dāng)模型具備基礎(chǔ)推理能力后,其進化的關(guān)鍵已非「延長思考」,而在于 「優(yōu)化思考的質(zhì)量與效率」

它不僅為企業(yè)提供一種「更少算力、更高智能」的選擇,更重要的是對「長思維鏈」競賽的理性補充。

背后團隊YuanLab.ai深深理解深度推理的價值,但也知道隱藏的算力浪費風(fēng)險。

因此,Yuan 3.0 Flash提供了追求「有效思考」的平衡方案,推動行業(yè)關(guān)注智能的實用性與經(jīng)濟性。


Yuan 3.0 Flash被網(wǎng)友盛贊:這不是一個demo, 而是一個真正為生產(chǎn)構(gòu)建的模型!

當(dāng)模型能夠在獲得正確答案時主動停止推理,本質(zhì)上意味著它開始進行一種隱式的成本—收益分析。從此,token成為推理過程中可被模型內(nèi)部感知和調(diào)節(jié)的計算資源。

這就標志著推理目標的一次轉(zhuǎn)變:從單純模仿人類冗長、外顯的思維過程,轉(zhuǎn)向更適合機器的、以最小token預(yù)算達成正確性的效用導(dǎo)向智能形態(tài)。

為什么這種更高效的智能,是出自YuanLab.ai團隊之手?

實際上,這個成果可以看作YuanLab.ai團隊在此領(lǐng)域多年經(jīng)驗的厚積薄發(fā)。作為在行業(yè)內(nèi)深耕多年的大模型探索者,團隊的發(fā)展足跡本身已成為中國大模型演進歷程中一個真實而生動的縮影。

2021年,當(dāng)業(yè)界對大模型的認知尚處朦朧時,YuanLab.ai團隊便已勇闖無人區(qū),發(fā)布了2457億參數(shù)的源1.0大模型,這是對GPT-3架構(gòu)的成功驗證。

發(fā)布之際,團隊開源了平臺、代碼以及珍貴的中文數(shù)據(jù)集,滋養(yǎng)了國內(nèi)早期大模型成長土壤。

隨著ChatGPT的橫空出世,YuanLab.ai團隊立足自身技術(shù)積累與市場需求,于同期成功推出自主研發(fā)的「源2.0」大模型。

2024年5月,團隊發(fā)布了采用創(chuàng)新MoE架構(gòu)的源2.0-M32,以僅2.25萬億Tokens的訓(xùn)練量,實現(xiàn)了出色的性能。


站在「源2.0-M32」的肩膀上,YuanLab.ai團隊已向著下一個里程碑進發(fā)——「源3.0」 ,劍指多模態(tài)、更少算力、更高智能的AGI路徑。在此過程中,也有了團隊近期交出的階段性成果——Yuan 3.0 Flash。

AI下半場,走向哪里

回望過去,我們或許會發(fā)現(xiàn),AI的下半場真的來了。

  • 上半場,大家追求的是「大」:更大的參數(shù)、更多的顯卡、更高的智能。那是AI的青春期,迅速成長。

  • 下半場,我們開始追求「準」:更精煉的邏輯、更克制的表達、更高效的決策。這是AI成年禮的開始。

當(dāng)我們不再迷信「越大越強」,而轉(zhuǎn)向「更精煉、更適配」,AI才真正從實驗室走向生產(chǎn),從昂貴的玩具變成可持續(xù)的工具。

此時,我們觸及了本質(zhì):AI智能的邊界,正在從「深度」轉(zhuǎn)向「時機」。

真正的聰明,往往不是想得最多,而是知道何時果斷收手。

人類智慧最珍貴的部分,從來不是喋喋不休的長篇大論,而是由于洞察本質(zhì)而帶來的適時沉默。

所以,當(dāng)你下一次面對AI冗長輸出時,不妨問自己:它是在推理,還是在演推理?

在AGI星辰大海里,我們或許不再需要追逐參數(shù)巨獸,而是學(xué)會點亮一盞更精準、更節(jié)制的燈塔。

大廠需要學(xué)會的,是參與一場「適可而止」的革命。

參考資料:

https://arxiv.org/pdf/2601.01718

https://github.com/Yuan-lab-LLM/Yuan3.0


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
廣東宏遠大外援即將到位!218cm巨塔能否補強內(nèi)線短板?

廣東宏遠大外援即將到位!218cm巨塔能否補強內(nèi)線短板?

林子說事
2026-02-27 08:09:57
警惕!凡是微信里有錢的、綁銀行卡的,今后要多注意了

警惕!凡是微信里有錢的、綁銀行卡的,今后要多注意了

冷峻視角下的世界
2026-02-26 22:06:04
昆凌知三當(dāng)三,周杰倫綠了田馥甄???

八卦瘋叔
2026-02-27 10:35:17

巴拿馬總統(tǒng)慌了,他猛然發(fā)現(xiàn):強吞中國18億資產(chǎn),竟是自尋死路

巴拿馬總統(tǒng)慌了,他猛然發(fā)現(xiàn):強吞中國18億資產(chǎn),竟是自尋死路

小陸搞笑日常
2026-02-26 18:39:03
衛(wèi)星圖像顯示美國11架F-22隱形戰(zhàn)機抵達以色列

衛(wèi)星圖像顯示美國11架F-22隱形戰(zhàn)機抵達以色列

環(huán)球網(wǎng)資訊
2026-02-27 06:21:11
男子凌晨開車跑高速突然聽到“鷹眼”預(yù)警 車速急減后發(fā)現(xiàn)前方有事故現(xiàn)場

男子凌晨開車跑高速突然聽到“鷹眼”預(yù)警 車速急減后發(fā)現(xiàn)前方有事故現(xiàn)場

閃電新聞
2026-02-27 00:07:07
后悔了?大巴黎戰(zhàn)績起伏因主力替補差距大 放走多納魯馬太沖動

后悔了?大巴黎戰(zhàn)績起伏因主力替補差距大 放走多納魯馬太沖動

雪狼侃體育
2026-02-27 11:31:38
5.5億元索賠“砍”至6400萬元,實地探訪東莞大面積停運純電公交:生產(chǎn)企業(yè)已停產(chǎn)兩年,司機稱顯示能跑近400公里實際只跑160公里

5.5億元索賠“砍”至6400萬元,實地探訪東莞大面積停運純電公交:生產(chǎn)企業(yè)已停產(chǎn)兩年,司機稱顯示能跑近400公里實際只跑160公里

每日經(jīng)濟新聞
2026-02-26 22:31:30
大二年入百萬的唐尚珺,要為母親蓋別墅了,坦言這是他第三次流淚

大二年入百萬的唐尚珺,要為母親蓋別墅了,坦言這是他第三次流淚

江山揮筆
2026-02-26 17:08:46
日版《水滸傳》開播,看得我臉都紅了

日版《水滸傳》開播,看得我臉都紅了

i書與房
2026-02-26 14:51:41
德國總理默茨杭州之行,意外揭開了一座“寶藏”

德國總理默茨杭州之行,意外揭開了一座“寶藏”

愛下廚的阿釃
2026-02-27 08:57:46
傅彪兒子近照曝光!過年和張一山聚餐,生活奢華難掩35歲滿頭白發(fā)

傅彪兒子近照曝光!過年和張一山聚餐,生活奢華難掩35歲滿頭白發(fā)

叨嘮
2026-02-24 21:53:09
黃曉明戀情曝光!與美女穿情侶裝并同游,女方年齡被扒疑似小22歲

黃曉明戀情曝光!與美女穿情侶裝并同游,女方年齡被扒疑似小22歲

萌神木木
2026-02-25 16:55:16
美伊談判基本告吹、攻擊隨時可能開始;另,巴基斯坦或攻入阿富汗

美伊談判基本告吹、攻擊隨時可能開始;另,巴基斯坦或攻入阿富汗

邵旭峰域
2026-02-27 10:54:56
日本橫豎想不明白,高市大選贏了好幾天了,中國怎么還不認?

日本橫豎想不明白,高市大選贏了好幾天了,中國怎么還不認?

安珈使者啊
2026-02-27 11:32:22
希拉里就愛潑斯坦案作證 稱對犯罪活動一無所知

希拉里就愛潑斯坦案作證 稱對犯罪活動一無所知

看看新聞Knews
2026-02-27 07:44:12
120救護車醫(yī)護人員拒絕抬擔(dān)架下樓 拖延40分鐘 85歲老人搶救無效死亡 法院判了!

120救護車醫(yī)護人員拒絕抬擔(dān)架下樓 拖延40分鐘 85歲老人搶救無效死亡 法院判了!

閃電新聞
2026-02-26 15:27:12
梅根為返回英國曬女兒正臉,要求待遇對標凱特,威廉:愛回不回

梅根為返回英國曬女兒正臉,要求待遇對標凱特,威廉:愛回不回

白露文娛志
2026-02-26 10:51:42
大批美國游客涌入中國,回國后坦言:客觀對比,中國比美國強多了

大批美國游客涌入中國,回國后坦言:客觀對比,中國比美國強多了

老搽學(xué)科普
2026-02-26 14:23:34
李易峰祈福!素顏清秀似大學(xué)生,復(fù)出無望,活成了有錢有閑的普通人

李易峰祈福!素顏清秀似大學(xué)生,復(fù)出無望,活成了有錢有閑的普通人

八卦王者
2026-02-27 10:20:35
2026-02-27 13:07:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
14600文章數(shù) 66644關(guān)注度
往期回顧 全部

科技要聞

英偉達業(yè)績亮眼仍跌5% 兩大因素成核心隱憂

頭條要聞

86歲暢銷書作家楊本芬就“抄襲”道歉 曾獲谷雨文學(xué)獎

頭條要聞

86歲暢銷書作家楊本芬就“抄襲”道歉 曾獲谷雨文學(xué)獎

體育要聞

一場必須要贏的比賽,男籃何止擊敗了裁判

娛樂要聞

繼網(wǎng)暴谷愛凌后 美國欲沒收其全部收入

財經(jīng)要聞

魅族手機,終成棄子?

汽車要聞

寶馬X5傳承版發(fā)布:給經(jīng)典G05的一場體面謝幕?

態(tài)度原創(chuàng)

房產(chǎn)
數(shù)碼
教育
公開課
軍事航空

房產(chǎn)要聞

巨虧160億后,這家房企巨頭,轉(zhuǎn)戰(zhàn)海南做貿(mào)易!

數(shù)碼要聞

從議價到被動接受:蘋果被迫接受三星內(nèi)存漲價100%背后的供應(yīng)鏈變局

教育要聞

甘肅廣河縣教育局發(fā)布情況通報

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美國11架F-22隱形戰(zhàn)機抵達以色列

無障礙瀏覽 進入關(guān)懷版