国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

Yuan 3.0 Flash避免“過度思考”,大幅壓縮推理成本

0
分享至


始智AI wisemodel.cn社區(qū)是源自中國的中立開放的AI開源社區(qū),始終堅持“中立、開放、共建、共創(chuàng)、合作”五項基本原則,歡迎加入共同成長。

YuanLab.ai 團隊正式開源發(fā)布源Yuan3.0 Flash 多模態(tài)基礎大模型。Yuan3.0 Flash 是一款 40B 參數規(guī)模的多模態(tài)基礎大模型,采用稀疏混合專家(MoE)架構,單次推理僅激活約 3.7B 參數。Yuan3.0 Flash創(chuàng)新性地提出和采用了強化學習訓練方法(RAPO),通過反思抑制獎勵機制(RIRM),從訓練層面引導模型減少無效反思,在提升推理準確性的同時,大幅壓縮了推理過程的 token 消耗,顯著降低算力成本,在 “更少算力、更高智能” 的大模型優(yōu)化路徑上更進一步。Yuan3.0 Flash已上線始智AI-wisemodel開源社區(qū),歡迎大家前去體驗。


模型地址

https://wisemodel.cn/models/YuanLabAI/Yuan3.0-Flash

https://wisemodel.cn/models/YuanLabAI/Yuan3.0-Flash-4bit

Yuan3.0 Flash 由視覺編碼器、語言主干網絡以及多模態(tài)對齊模塊組成。語言主干網絡采用局部過濾增強的Attention結構(LFA)和混合專家(MoE)結構,在提升注意力精度的同時,顯著降低訓練與推理的算力開銷。多模態(tài)方面,采用視覺編碼器,將視覺信號轉化為token,與語言token一起輸入到語言主干網絡,通過多模態(tài)對齊模塊實現(xiàn)高效、穩(wěn)定的跨模態(tài)特征對齊。同時,引入自適應圖像分割機制,在支持高分辨率圖像理解的同時,有效降低顯存需求及算力開銷(如圖1)。


圖1:Yuan 3.0整體架構和基于MoE的語言主干

左側為Yuan 3.0架構,含三個組件:(1) ViT編碼器處理圖像;(2) 輕量級MLP投影器對齊視覺與文本特征;(3) 基于MoE的語言模型。右側為采用局部過濾注意力(LFA) 的源3.0語言主干網絡。

更值得關注的是,在企業(yè)場景的 RAG(ChatRAG)、多模態(tài)檢索(Docmatix)、多模態(tài)表格理解(MMTab)、摘要生成(SummEval)等任務中, Yuan3.0 Flash 的表現(xiàn)已優(yōu)于 GPT-5.1,體現(xiàn)出其在企業(yè)應用場景中的明顯能力優(yōu)勢。在多模態(tài)推理與語言推理評測中,Yuan3.0 Flash(40B)精度接近Qwen3-VL235B-A22B(235B)與DeepSeek-R1-0528(671B),但 token 消耗僅約為其 1/4 ~ 1/2,顯著降低了企業(yè)大模型應用成本(如圖2)。


圖2:Yuan3.0 Flash在企業(yè)級、多模態(tài)和語言模態(tài)上的基準測試表現(xiàn)

01.

避免想得太多,而是“更有效思考”

近年來,長思維鏈(Chain-of-Thought)成為提升大模型推理能力的主流范式,但在實際應用中也帶來了新的問題:推理過程冗長、算力消耗大、部署成本高,甚至在得到正確答案后仍持續(xù)大量生成冗長的內容(如圖3)。


圖3: DeepSeek-R1的重復反思行為示例

針對推理模型普遍存在的 “過度思考(Overthinking)”問題,Yuan3.0 Flash 創(chuàng)新Reflection-aware Adaptive Policy Optimization(RAPO) 強化學習算法,提出反思抑制獎勵機制(RIRM),從訓練層面引導模型減少無效反思,專注于必要推理步驟(如圖4)。

RIRM:通過獎勵“思考過程”優(yōu)化模型訓練

RIRM(Reflection Inhibition Reward Mechanism,反思抑制獎勵機制)的核心思想并不復雜,卻極具突破性:模型不僅要為“答對”負責,也要為“什么時候停止思考”負責。

在傳統(tǒng)訓練中,只要最終答案正確,模型在中途經歷了多少次自我否定、重復驗證,幾乎不會被區(qū)分對待。而RIRM首次明確引入了一條新的判斷標準——當模型已經形成可靠結論后,繼續(xù)反思是否還具有信息價值。


圖4:反思抑制獎勵機制(RIRM)

該機制能夠識別模型首次得到正確答案的關鍵節(jié)點,并對后續(xù)冗余推理行為進行抑制,使模型在保證答案正確性的前提下,大幅壓縮輸出長度。實驗結果表明,在數學、科學與復雜推理任務中,Yuan3.0 Flash 在準確率提升的同時,推理 token 數量最高可減少約 75%,顯著降低推理成本。


表1:Yuan3.0 Flash采用RIRM的強化學習訓練與DAPO+長度懲罰的精度與輸出token數量對比

RAPO:反思感知的自適應策略優(yōu)化算法

然而,僅靠對推理行為的抑制,并不足以支撐一個穩(wěn)定、高效的企業(yè)級模型訓練。Yuan 3.0 Flash所引入的RAPO(Reflection-aware Adaptive Policy Optimization,反思感知自適應策略優(yōu)化)并非一次局部技巧的優(yōu)化,而是對強化學習訓練框架的一次系統(tǒng)性改進:從數據采樣效率、到學習目標、到推理過程評估(RIRM),同時兼顧訓練效率、訓練穩(wěn)定性及推理效率,使模型能夠在多任務、異構場景中形成更具實用價值的策略。


RAPO通過自適應采樣、梯度穩(wěn)定性控制等機制,顯著減少了強化學習階段的過度數據采樣,有效抑制了訓練過程的梯度波動。在大規(guī)模MoE模型上,這種改進尤為關鍵——實驗顯示,RAPO可使整體訓練效率提升超過 50%,在保證模型能力提升的同時,大幅縮短訓練周期。

更重要的是,RAPO與RIRM在設計上是協(xié)同的。RAPO決定模型“如何學習”,而 RIRM 明確模型“學到什么程度該停”。前者提供穩(wěn)定高效的學習框架,后者則為推理行為劃定邊界,兩者疊加,才使“想對就?!闭嬲蔀槟P偷哪J行為,而非例外情況。

02.

企業(yè)場景下模型能力的提升,

離不開高質量數據支撐

Yuan3.0 Flash的優(yōu)秀表現(xiàn),并非僅依賴算法本身,而是建立在面向企業(yè)真實場景的數據準備工作之上。與通用對話或互聯(lián)網語料不同,模型在訓練階段重點引入了大量貼近企業(yè)生產環(huán)境的數據形態(tài),包括:


  • 長篇技術文檔、解決方案材料、操作手冊、投標文件等復雜文本

  • 財務與業(yè)務報表、多級表頭表格、嵌套表格與圖文混排頁面

  • 跨頁面、多模態(tài)信息聯(lián)合理解的真實業(yè)務場景


圍繞這些輸入形態(tài),訓練數據重點覆蓋多模態(tài)信息檢索、對比分析、摘要生成、表格分析與理解等企業(yè)高頻任務。同時,在數據構建階段,團隊顯式區(qū)分了無需深度推理即可完成的任務與確需多步推理的復雜任務,為后續(xù)強化學習階段優(yōu)化推理效率提供了明確的數據基礎。

03.

面向企業(yè)場景的多模態(tài)基礎能力

在能力層面,Yuan3.0 Flash 并非圍繞單一 Benchmark 優(yōu)化,而是針對企業(yè)真實業(yè)務需求進行了系統(tǒng)設計。在多項企業(yè)級評測中,模型在以下能力上表現(xiàn)突出:

檢索增強生成(RAG):在 ChatRAG、Docmatix 等評測中取得領先成績

復雜表格與文檔理解:在 MMTab 等多任務基準中展現(xiàn)領先能力

高質量總結生成:在 SummEval 上兼顧語義一致性與事實準確性

多模態(tài)推理效率:在 ChartQA、DocVQA 等任務中,以更少token 達到比肩前沿大模型的精度

結合對128K長上下文的穩(wěn)定支持,Yuan3.0 Flash 能夠勝任企業(yè)級長文檔分析、跨頁面信息檢索與多源知識融合任務(如圖5)。


圖5:Yuan3.0 Flash在"大海撈針"測試中實現(xiàn)100%精度召回

04.

“更少算力、更高智能”

如何落地企業(yè)真實場景中

在架構層面,Yuan3.0 Flash采用稀疏MoE設計,在推理時僅激活少量專家,降低單次推理的計算開銷;而在行為層面,RAPO與RIRM進一步確保這些算力被用于真正有價值的判斷,而非冗余反思。

這種組合效應,在企業(yè)高頻場景中表現(xiàn)尤為明顯。在RAG場景下,模型能夠更快聚焦于檢索到的關鍵信息,而不是圍繞同一內容反復展開解釋;在復雜表格理解中,推理路徑更加直接,不再被冗余驗證拖慢;在長文檔分析中,模型避免了層層遞歸式總結,顯著提升了響應效率。

對企業(yè)而言,這意味著一個非常關鍵的變化:默認推理模式本身就已經足夠可靠。無需額外開啟高成本的“深度思考模式”,模型就能在大多數業(yè)務任務中保持穩(wěn)定、可控的表現(xiàn),也就是更快、更準、更省。

Yuan3.0 Flash的技術實踐表明:當大模型已經具備足夠的推理能力后,真正稀缺的,不再是“讓它想得更多”,而是“讓它知道什么時候該?!薄?/p>

RIRM通過獎勵機制約束無效反思,解決了“想得太多”的問題;RAPO通過高效、穩(wěn)定的強化學習策略,解決了“學得太慢、學得不實用”的問題。兩者共同構成了一條面向企業(yè)級落地的現(xiàn)實路徑——在不犧牲能力的前提下,實現(xiàn)更低成本、更高效率的智能系統(tǒng)。

Yuan3.0 Flash大模型全面開源,不僅包括模型權重(16bit與4bit模型)、技術報告,也涵蓋完整的訓練方法與評測結果,支持社區(qū)在此基礎上進行二次訓練與行業(yè)定制。YuanLab.ai團隊希望通過這一開源基礎模型,推動大模型從“能力展示”走向“規(guī)?;涞亍保瑸槠髽I(yè)提供可控成本、可預測性能、可持續(xù)演進的多模態(tài)智能底座。

更少算力,并不意味著更弱能力;更高智能,也不一定依賴更大模型。” Yuan3.0 Flash 正是在這一理念下,對下一代基礎大模型形態(tài)的一次探索與實踐。

源Yuan 3.0基礎大模型將包含F(xiàn)lash、Pro和Ultra等版本,模型參數量為40B、200B和1T等,我們將陸續(xù)發(fā)布相關工作。

編輯:成蘊年

----- END -----

wisemodel相關:

系列模型:


關于wisemodel更多


1

歡迎持續(xù)關注和支持

開源社區(qū)建設需要長期堅持和投入,更需要廣大用戶的積極參與、貢獻和維護,歡迎大家加入wisemodel開源社區(qū)的志愿者計劃和開源共創(chuàng)計劃。期待更多開發(fā)者將開源成果,包括模型、數據集和代碼等發(fā)布到 wisemodel.cn 社區(qū),共建中立、開放的AI開源社區(qū)生態(tài)。歡迎掃碼添加wisemodel微信,申請加入wisemodel社群,持續(xù)關注wisemodel.cn開源社區(qū)動態(tài)。

2

歡迎加盟wisemodel開源社區(qū)

3

歡迎投稿優(yōu)質內容

歡迎投稿分享人工智能領域相關的優(yōu)秀研究成果,鼓勵高校實驗室、大企業(yè)研究團隊、個人等,在wisemodel平臺上分享各類優(yōu)質內容,可以是AI領域最新論文解讀、最新開源成果介紹,也可以是關于AI技術實踐、應用和總結等。投稿可以發(fā)郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。

4

關于wisemodel開源社區(qū)

始智AI wisemodel.cn開源社區(qū)由清華校友總會AI大數據專委會副秘書長劉道全創(chuàng)立,旨在打造和建設中立開放的AI開源創(chuàng)新社區(qū),將打造成“HuggingFace”之外最活躍的AI開源社區(qū),匯聚主要AI開源模型、數據集和代碼等,歡迎高??蒲性核?、大型互聯(lián)網公司、創(chuàng)新創(chuàng)業(yè)企業(yè)、廣大個人開發(fā)者,以及政府部門、學會協(xié)會、聯(lián)盟、基金會等,還有投資機構、科技媒體等,共同參與建設AI開源創(chuàng)新生態(tài)。

向上滑動查看

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
香港城大副教授行賄港幣1000元被判監(jiān)4.5月,自稱因受內地文化影響而犯案,讓我們羞愧難當

香港城大副教授行賄港幣1000元被判監(jiān)4.5月,自稱因受內地文化影響而犯案,讓我們羞愧難當

法律學堂
2026-03-27 00:07:33
我在西班牙呆了8年,說句可能不太好聽的大實話,不要急著反駁我

我在西班牙呆了8年,說句可能不太好聽的大實話,不要急著反駁我

世界圈
2026-03-19 13:02:46
中美情況有變,特朗普民調崩了,奧托爾巴耶夫出山,美國衰落已定

中美情況有變,特朗普民調崩了,奧托爾巴耶夫出山,美國衰落已定

夢亦沐歌
2026-03-27 09:32:42
以色列通報全球,吞并黎巴嫩南部!伊朗放下狠話,歐盟出山救場

以色列通報全球,吞并黎巴嫩南部!伊朗放下狠話,歐盟出山救場

近史談
2026-03-27 09:44:27
李雙江慶87歲大壽!怒吼要奮斗到90歲,切不動蛋糕戴玉強扶手幫忙

李雙江慶87歲大壽!怒吼要奮斗到90歲,切不動蛋糕戴玉強扶手幫忙

小撇說事
2026-03-25 22:47:49
賽點驚魂!張帥再成賽事走最遠中國球員

賽點驚魂!張帥再成賽事走最遠中國球員

網球之家
2026-03-26 13:25:20
豆包推薦:人生回報率最高的8件事,盡早“焊死”在孩子身上

豆包推薦:人生回報率最高的8件事,盡早“焊死”在孩子身上

十點讀書
2026-02-20 18:37:13
一舞封神后,被東莞首富收入囊中,如今她已是7歲孩子媽媽

一舞封神后,被東莞首富收入囊中,如今她已是7歲孩子媽媽

白面書誏
2026-03-06 16:34:31
快訊!美國鷹派開始重新調整思路了!

快訊!美國鷹派開始重新調整思路了!

達文西看世界
2026-03-27 09:57:27
比國足還慘!意大利已12年未踢世界杯,僅剩33歲維拉蒂踢過世界杯

比國足還慘!意大利已12年未踢世界杯,僅剩33歲維拉蒂踢過世界杯

林子說事
2026-03-27 00:00:05
加圖索:我必須大聲說出來,我們要去參加這場決賽了!

加圖索:我必須大聲說出來,我們要去參加這場決賽了!

懂球帝
2026-03-27 06:20:37
問界M6預售24小時訂單突破6萬,26.98萬起劍指Model Y

問界M6預售24小時訂單突破6萬,26.98萬起劍指Model Y

泡泡網
2026-03-24 17:26:07
30萬存款意味著什么?看懂的人都在悄悄攢錢

30萬存款意味著什么?看懂的人都在悄悄攢錢

牛鍋巴小釩
2026-03-27 08:29:51
東莞車主最近小心!“黑科技”已上線!

東莞車主最近小心!“黑科技”已上線!

東莞好生活
2026-03-26 12:09:26
姐弟倆被繼母逼吃大便、熱水燙下體、垃圾桶覓食、渾身淤青......生父威脅鄰居別管閑事,已被逮捕!

姐弟倆被繼母逼吃大便、熱水燙下體、垃圾桶覓食、渾身淤青......生父威脅鄰居別管閑事,已被逮捕!

新民周刊
2026-03-26 19:12:17
快扔掉!戴一天,輻射量相當于拍117次胸片

快扔掉!戴一天,輻射量相當于拍117次胸片

FM93浙江交通之聲
2025-10-28 00:01:43
“老人味”的禍首被揪出!醫(yī)生提醒:55歲后要少碰,老了或也沒味

“老人味”的禍首被揪出!醫(yī)生提醒:55歲后要少碰,老了或也沒味

今日養(yǎng)生之道
2026-03-23 11:46:39
特朗普:對伊朗能源設施空襲再推遲10天,至美東時間4月6日晚8時恢復;伊朗總統(tǒng):伊朗致力于結束戰(zhàn)爭,從未尋求擁有核武器

特朗普:對伊朗能源設施空襲再推遲10天,至美東時間4月6日晚8時恢復;伊朗總統(tǒng):伊朗致力于結束戰(zhàn)爭,從未尋求擁有核武器

極目新聞
2026-03-27 06:53:03
“住宅禁放骨灰盒”新規(guī)出爐,引爭議!網友:可以去化房地產庫存

“住宅禁放骨灰盒”新規(guī)出爐,引爭議!網友:可以去化房地產庫存

火山詩話
2026-03-26 11:11:22
一路走好!短短7天,已有5位名人去世,最大45歲最小才21歲

一路走好!短短7天,已有5位名人去世,最大45歲最小才21歲

觀察鑒娛
2026-03-27 09:46:30
2026-03-27 11:00:49
wisemodel開源社區(qū) incentive-icons
wisemodel開源社區(qū)
始智AI wisemodel.cn開源社區(qū),打造中國版“huggingface”
466文章數 14關注度
往期回顧 全部

科技要聞

OpenAI果斷砍掉"成人模式",死磕生產力

頭條要聞

媒體:內塔尼亞胡夫人為兩個兒子訴苦 加沙兒童怎么看

頭條要聞

媒體:內塔尼亞胡夫人為兩個兒子訴苦 加沙兒童怎么看

體育要聞

近29戰(zhàn)23勝!這支黃蜂有多強?

娛樂要聞

劉曉慶妹妹發(fā)聲!稱姐姐受身邊人挑撥

財經要聞

很反常!油價向上,黃金向下

汽車要聞

線控底盤+千問上車 智己LS8預售權益價25.98萬起

態(tài)度原創(chuàng)

家居
游戲
教育
公開課
軍事航空

家居要聞

傍海而居 靜觀蝴蝶海

大的要來了!IGN 10分超好評游戲官宣大更新

教育要聞

從72分到141分!數學提分的關鍵,不是天賦,更不是題海

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

擔心特朗普突然停戰(zhàn) 以總理下令48小時盡力摧毀伊設施

無障礙瀏覽 進入關懷版