網易首頁 > 網易號 > 正文申請入駐

Yuan 3.0 Flash避免“過度思考”，大幅壓縮推理成本

2026-01-08 18:23:17　來源: wisemodel開源社區(qū)

北京舉報

分享至

始智AI wisemodel.cn社區(qū)是源自中國的中立開放的AI開源社區(qū)，始終堅持“中立、開放、共建、共創(chuàng)、合作”五項基本原則，歡迎加入共同成長。

YuanLab.ai 團隊正式開源發(fā)布源Yuan3.0 Flash 多模態(tài)基礎大模型。Yuan3.0 Flash 是一款 40B 參數規(guī)模的多模態(tài)基礎大模型，采用稀疏混合專家（MoE）架構，單次推理僅激活約 3.7B 參數。Yuan3.0 Flash創(chuàng)新性地提出和采用了強化學習訓練方法（RAPO），通過反思抑制獎勵機制（RIRM），從訓練層面引導模型減少無效反思，在提升推理準確性的同時，大幅壓縮了推理過程的 token 消耗，顯著降低算力成本，在 “更少算力、更高智能” 的大模型優(yōu)化路徑上更進一步。Yuan3.0 Flash已上線始智AI-wisemodel開源社區(qū)，歡迎大家前去體驗。

模型地址

https://wisemodel.cn/models/YuanLabAI/Yuan3.0-Flash

https://wisemodel.cn/models/YuanLabAI/Yuan3.0-Flash-4bit

Yuan3.0 Flash 由視覺編碼器、語言主干網絡以及多模態(tài)對齊模塊組成。語言主干網絡采用局部過濾增強的Attention結構（LFA）和混合專家（MoE）結構，在提升注意力精度的同時，顯著降低訓練與推理的算力開銷。多模態(tài)方面，采用視覺編碼器，將視覺信號轉化為token，與語言token一起輸入到語言主干網絡，通過多模態(tài)對齊模塊實現(xiàn)高效、穩(wěn)定的跨模態(tài)特征對齊。同時，引入自適應圖像分割機制，在支持高分辨率圖像理解的同時，有效降低顯存需求及算力開銷（如圖1）。

圖1：Yuan 3.0整體架構和基于MoE的語言主干

左側為Yuan 3.0架構，含三個組件：(1) ViT編碼器處理圖像；(2) 輕量級MLP投影器對齊視覺與文本特征；(3) 基于MoE的語言模型。右側為采用局部過濾注意力(LFA) 的源3.0語言主干網絡。

更值得關注的是，在企業(yè)場景的 RAG（ChatRAG）、多模態(tài)檢索（Docmatix）、多模態(tài)表格理解（MMTab）、摘要生成（SummEval）等任務中, Yuan3.0 Flash 的表現(xiàn)已優(yōu)于 GPT-5.1，體現(xiàn)出其在企業(yè)應用場景中的明顯能力優(yōu)勢。在多模態(tài)推理與語言推理評測中，Yuan3.0 Flash（40B）精度接近Qwen3-VL235B-A22B（235B）與DeepSeek-R1-0528（671B），但 token 消耗僅約為其 1/4 ~ 1/2，顯著降低了企業(yè)大模型應用成本（如圖2）。

圖2：Yuan3.0 Flash在企業(yè)級、多模態(tài)和語言模態(tài)上的基準測試表現(xiàn)

01.

避免想得太多，而是“更有效思考”

近年來，長思維鏈（Chain-of-Thought）成為提升大模型推理能力的主流范式，但在實際應用中也帶來了新的問題：推理過程冗長、算力消耗大、部署成本高，甚至在得到正確答案后仍持續(xù)大量生成冗長的內容（如圖3）。

圖3： DeepSeek-R1的重復反思行為示例

針對推理模型普遍存在的 “過度思考（Overthinking）”問題，Yuan3.0 Flash 創(chuàng)新Reflection-aware Adaptive Policy Optimization（RAPO）強化學習算法，提出反思抑制獎勵機制（RIRM），從訓練層面引導模型減少無效反思，專注于必要推理步驟（如圖4）。

RIRM：通過獎勵“思考過程”優(yōu)化模型訓練

RIRM（Reflection Inhibition Reward Mechanism，反思抑制獎勵機制）的核心思想并不復雜，卻極具突破性：模型不僅要為“答對”負責，也要為“什么時候停止思考”負責。

在傳統(tǒng)訓練中，只要最終答案正確，模型在中途經歷了多少次自我否定、重復驗證，幾乎不會被區(qū)分對待。而RIRM首次明確引入了一條新的判斷標準——當模型已經形成可靠結論后，繼續(xù)反思是否還具有信息價值。

圖4：反思抑制獎勵機制（RIRM）

該機制能夠識別模型首次得到正確答案的關鍵節(jié)點，并對后續(xù)冗余推理行為進行抑制，使模型在保證答案正確性的前提下，大幅壓縮輸出長度。實驗結果表明，在數學、科學與復雜推理任務中，Yuan3.0 Flash 在準確率提升的同時，推理 token 數量最高可減少約 75%，顯著降低推理成本。

表1：Yuan3.0 Flash采用RIRM的強化學習訓練與DAPO+長度懲罰的精度與輸出token數量對比

RAPO：反思感知的自適應策略優(yōu)化算法

然而，僅靠對推理行為的抑制，并不足以支撐一個穩(wěn)定、高效的企業(yè)級模型訓練。Yuan 3.0 Flash所引入的RAPO（Reflection-aware Adaptive Policy Optimization，反思感知自適應策略優(yōu)化）并非一次局部技巧的優(yōu)化，而是對強化學習訓練框架的一次系統(tǒng)性改進：從數據采樣效率、到學習目標、到推理過程評估（RIRM），同時兼顧訓練效率、訓練穩(wěn)定性及推理效率，使模型能夠在多任務、異構場景中形成更具實用價值的策略。

RAPO通過自適應采樣、梯度穩(wěn)定性控制等機制，顯著減少了強化學習階段的過度數據采樣，有效抑制了訓練過程的梯度波動。在大規(guī)模MoE模型上，這種改進尤為關鍵——實驗顯示，RAPO可使整體訓練效率提升超過 50%，在保證模型能力提升的同時，大幅縮短訓練周期。

更重要的是，RAPO與RIRM在設計上是協(xié)同的。RAPO決定模型“如何學習”，而 RIRM 明確模型“學到什么程度該停”。前者提供穩(wěn)定高效的學習框架，后者則為推理行為劃定邊界，兩者疊加，才使“想對就?！闭嬲蔀槟Ｐ偷哪J行為，而非例外情況。

02.

企業(yè)場景下模型能力的提升，

離不開高質量數據支撐

Yuan3.0 Flash的優(yōu)秀表現(xiàn)，并非僅依賴算法本身，而是建立在面向企業(yè)真實場景的數據準備工作之上。與通用對話或互聯(lián)網語料不同，模型在訓練階段重點引入了大量貼近企業(yè)生產環(huán)境的數據形態(tài)，包括：

長篇技術文檔、解決方案材料、操作手冊、投標文件等復雜文本
財務與業(yè)務報表、多級表頭表格、嵌套表格與圖文混排頁面

跨頁面、多模態(tài)信息聯(lián)合理解的真實業(yè)務場景

圍繞這些輸入形態(tài)，訓練數據重點覆蓋多模態(tài)信息檢索、對比分析、摘要生成、表格分析與理解等企業(yè)高頻任務。同時，在數據構建階段，團隊顯式區(qū)分了無需深度推理即可完成的任務與確需多步推理的復雜任務，為后續(xù)強化學習階段優(yōu)化推理效率提供了明確的數據基礎。

03.

面向企業(yè)場景的多模態(tài)基礎能力

在能力層面，Yuan3.0 Flash 并非圍繞單一 Benchmark 優(yōu)化，而是針對企業(yè)真實業(yè)務需求進行了系統(tǒng)設計。在多項企業(yè)級評測中，模型在以下能力上表現(xiàn)突出：

■檢索增強生成（RAG）：在 ChatRAG、Docmatix 等評測中取得領先成績

■復雜表格與文檔理解：在 MMTab 等多任務基準中展現(xiàn)領先能力

■高質量總結生成：在 SummEval 上兼顧語義一致性與事實準確性

■多模態(tài)推理效率：在 ChartQA、DocVQA 等任務中，以更少token 達到比肩前沿大模型的精度

結合對128K長上下文的穩(wěn)定支持，Yuan3.0 Flash 能夠勝任企業(yè)級長文檔分析、跨頁面信息檢索與多源知識融合任務（如圖5）。

圖5：Yuan3.0 Flash在"大海撈針"測試中實現(xiàn)100%精度召回

04.

“更少算力、更高智能”

如何落地企業(yè)真實場景中

在架構層面，Yuan3.0 Flash采用稀疏MoE設計，在推理時僅激活少量專家，降低單次推理的計算開銷；而在行為層面，RAPO與RIRM進一步確保這些算力被用于真正有價值的判斷，而非冗余反思。

這種組合效應，在企業(yè)高頻場景中表現(xiàn)尤為明顯。在RAG場景下，模型能夠更快聚焦于檢索到的關鍵信息，而不是圍繞同一內容反復展開解釋；在復雜表格理解中，推理路徑更加直接，不再被冗余驗證拖慢；在長文檔分析中，模型避免了層層遞歸式總結，顯著提升了響應效率。

對企業(yè)而言，這意味著一個非常關鍵的變化：默認推理模式本身就已經足夠可靠。無需額外開啟高成本的“深度思考模式”，模型就能在大多數業(yè)務任務中保持穩(wěn)定、可控的表現(xiàn)，也就是更快、更準、更省。

Yuan3.0 Flash的技術實踐表明：當大模型已經具備足夠的推理能力后，真正稀缺的，不再是“讓它想得更多”，而是“讓它知道什么時候該?！薄?/p>

RIRM通過獎勵機制約束無效反思，解決了“想得太多”的問題；RAPO通過高效、穩(wěn)定的強化學習策略，解決了“學得太慢、學得不實用”的問題。兩者共同構成了一條面向企業(yè)級落地的現(xiàn)實路徑——在不犧牲能力的前提下，實現(xiàn)更低成本、更高效率的智能系統(tǒng)。

Yuan3.0 Flash大模型全面開源，不僅包括模型權重（16bit與4bit模型）、技術報告，也涵蓋完整的訓練方法與評測結果，支持社區(qū)在此基礎上進行二次訓練與行業(yè)定制。YuanLab.ai團隊希望通過這一開源基礎模型，推動大模型從“能力展示”走向“規(guī)?；涞亍保瑸槠髽I(yè)提供可控成本、可預測性能、可持續(xù)演進的多模態(tài)智能底座。

“更少算力，并不意味著更弱能力；更高智能，也不一定依賴更大模型。” Yuan3.0 Flash 正是在這一理念下，對下一代基礎大模型形態(tài)的一次探索與實踐。

源Yuan 3.0基礎大模型將包含F(xiàn)lash、Pro和Ultra等版本，模型參數量為40B、200B和1T等，我們將陸續(xù)發(fā)布相關工作。

編輯：成蘊年

----- END -----

wisemodel相關：

系列模型：

關于wisemodel更多

歡迎持續(xù)關注和支持

開源社區(qū)建設需要長期堅持和投入，更需要廣大用戶的積極參與、貢獻和維護，歡迎大家加入wisemodel開源社區(qū)的志愿者計劃和開源共創(chuàng)計劃。期待更多開發(fā)者將開源成果，包括模型、數據集和代碼等發(fā)布到 wisemodel.cn 社區(qū)，共建中立、開放的AI開源社區(qū)生態(tài)。歡迎掃碼添加wisemodel微信，申請加入wisemodel社群，持續(xù)關注wisemodel.cn開源社區(qū)動態(tài)。

歡迎加盟wisemodel開源社區(qū)

歡迎投稿優(yōu)質內容

歡迎投稿分享人工智能領域相關的優(yōu)秀研究成果，鼓勵高校實驗室、大企業(yè)研究團隊、個人等，在wisemodel平臺上分享各類優(yōu)質內容，可以是AI領域最新論文解讀、最新開源成果介紹，也可以是關于AI技術實踐、應用和總結等。投稿可以發(fā)郵件到liudaoquan@wisemodel.cn，也可以掃碼添加wisemodel微信。

關于wisemodel開源社區(qū)

始智AI wisemodel.cn開源社區(qū)由清華校友總會AI大數據專委會副秘書長劉道全創(chuàng)立，旨在打造和建設中立開放的AI開源創(chuàng)新社區(qū)，將打造成“HuggingFace”之外最活躍的AI開源社區(qū)，匯聚主要AI開源模型、數據集和代碼等，歡迎高?？蒲性核?、大型互聯(lián)網公司、創(chuàng)新創(chuàng)業(yè)企業(yè)、廣大個人開發(fā)者，以及政府部門、學會協(xié)會、聯(lián)盟、基金會等，還有投資機構、科技媒體等，共同參與建設AI開源創(chuàng)新生態(tài)。

向上滑動查看

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.