国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

周伯文的一個近期演講:從推理到科學發(fā)現(xiàn),AI邁向可精專通才之路(萬字長文)

0
分享至

資料圖。本文來源:北京商報、中國國創(chuàng)會

本賬號接受投稿,投稿郵箱:jingjixuejiaquan@126.com


1月22日下午,上海人工智能實驗室主任、首席科學家周伯文于第四十屆人工智能協(xié)會年會(AAAI 2026)發(fā)表特邀報告,題為《從推理到科學發(fā)現(xiàn):探索通專融合的AI之路》(Quest of AI towards Specializable Generalist:From Reasoning to Scientific Discovery)。本文來源:上海人工智能實驗室

本賬號接受投稿,投稿郵箱:jingjixuejiaquan@126.com



周伯文:從推理到科學發(fā)現(xiàn),AI邁向可精專通才之路

演進預判:從ANI到AGI的歷史跨越

人工智能的發(fā)展歷程并非線性堆疊,而是呈現(xiàn)出明顯的階段性躍遷。回顧AI發(fā)展的歷史坐標,有助于我們厘清當前所處的位置及未來的方向。

早在1996年涉足AI研究之初,我便開始思考智能的本質(zhì)。特別是在擔任IBM人工智能基礎研究院院長期間,首次提出了通往通用人工智能(AGI)的戰(zhàn)略路線圖,明確界定了AI發(fā)展的三個關(guān)鍵階段:ANI(狹義人工智能)、ABI(廣義人工智能)與AGI,并給出了各自明確定義。

我當時的判斷是ANI在2016年已趨于成熟,而通往AGI的必經(jīng)之路并非直接躍遷,而是必須率先實現(xiàn)具備跨領域泛化能力的ABI。我們認為這一跨越需要技術(shù)范式的根本性變革,最少包括三個方面:即從有監(jiān)督學習轉(zhuǎn)向自監(jiān)督學習,從人類分割任務級聯(lián)式系統(tǒng)轉(zhuǎn)向端到端架構(gòu),從判別式工具進化為生成式助手。

六年多后ChatGPT的問世,第一次驗證了人工智能系統(tǒng)在以上三方面的同時達成,實質(zhì)上宣告了ABI階段的到來。這一歷史性突破驗證了規(guī)模法則(Scaling Law)的有效性——即通過擴大Transformer架構(gòu)并將“下一個詞預測”作為優(yōu)化目標,人類首次實現(xiàn)了對世界知識的壓縮。值得一提的是,我和團隊早在2016年提出的關(guān)于“多頭自注意力”機制的研究,作為“與下游任務無關(guān)"(也就是"預訓練")的自然語言長上下文壓縮表征的首批成果之一,被開創(chuàng)性的Transformer論文引用與認可①,為這一預訓練時代的壓縮智能奠定了重要的理論基石。



重訪路線圖(2016年):通往AGI之路

戰(zhàn)略路徑:通專融合與科學發(fā)現(xiàn)的終極試煉

隨著Scaling Law賦予了大語言模型廣泛的泛化能力(ABI),在2023年初我們提出了一個關(guān)鍵的戰(zhàn)略設問:通往AGI的下一步,僅僅是計算量的堆疊嗎?對這些設問的思考促使我在2023年提出了“通專融合”路徑。核心思想是如何動態(tài)實行融合人類認知思維的系統(tǒng)1和系統(tǒng)2,以應對各種現(xiàn)實世界的任務。

重新定義AGI之路

過去70年AI的發(fā)展長期在“專業(yè)性”與“通用性”兩個維度上分別進展。以AlphaFold為代表的早期系統(tǒng)是極致的“專家”,在特定領域超越人類卻缺乏遷移能力;而當前的大語言模型則是博聞廣識的“通才”,雖具廣度但在處理復雜專業(yè)任務時往往難以企及專家深度和缺失關(guān)鍵細節(jié)。真正的AGI必須打破這種二元對立,構(gòu)建一種能夠動態(tài)融合“系統(tǒng)1”(直覺式快思考)與“系統(tǒng)2”(邏輯式慢思考)的智能架構(gòu)——即在保持通用認知基座的同時,能夠在任意特定任務上通過持續(xù)學習與深度推理實現(xiàn)專家級的專精(闡述這一思路系統(tǒng)的立場論文已于2024年在ArXiv上發(fā)表)②。


通專融合是通往AGI的戰(zhàn)略路徑

2024年末OpenAI o1與2025年初DeepSeek-R1的出現(xiàn),通過在大模型之上應用強化學習顯著提升邏輯推理能力,有力地驗證了關(guān)于“通專融合”路徑預判的正確性。2025年10月,約書亞·本吉奧教授等人提出了AGI的定義,將其分解為十種核心通用能力以及眾多狹義的專業(yè)能力。若能全面達成這些能力,即意味著實現(xiàn)了AGI。這一定義與我們 “通專融合是通往AGI的戰(zhàn)略路徑” 的觀點高度吻合——這表明該路徑正日益成為整個學術(shù)社區(qū)的普遍共識。

科學發(fā)現(xiàn):推理智能的終極前沿

下一個前沿領域是什么?我認為是科學發(fā)現(xiàn)(Scientific Discovery, SD)。在我看來,除了科學智能(AI for Science, AI4S)所承諾的治愈癌癥等諸多益處之外,科學發(fā)現(xiàn)更是推理智能的終極考驗,因此也是AI探索的絕對前沿??茖W發(fā)現(xiàn)是已知與未知之間復雜的相互作用,涵蓋了從假設生成、實驗驗證到理論總結(jié)的全過程。其對AI提出了三重極限挑戰(zhàn):

已知的未知:典型的如組合爆炸,比如分子設計或材料科學的搜索空間高達1060量級,遠超傳統(tǒng)遍歷能力;

未知的未知:科學探索本質(zhì)上是對分布外(OOD)知識的泛化,是對模型創(chuàng)造力的真正考驗;

稀疏與延遲獎勵:科學實驗的周期長、反饋慢,是對強化學習算法的嚴峻測試③。

因此,科學發(fā)現(xiàn)不僅是AI的最佳應用場景,更是驅(qū)動“通專融合”邁向AGI的根本動力。

接下來,我想分享我們?yōu)閼獙@一挑戰(zhàn)提出的技術(shù)架構(gòu)——『智者』SAGE。

技術(shù)架構(gòu):遞歸循環(huán)的通用專家協(xié)同架構(gòu)『智者』SAGE

為將“通專融合”戰(zhàn)略轉(zhuǎn)化為可落地的技術(shù)方案,上海AI實驗室在2024年提出了『智者』SAGE架構(gòu)——其并非若干模型的簡單堆砌,而是一個旨在彌合廣泛泛化與深度專精鴻溝的統(tǒng)一認知生態(tài)系統(tǒng)④。該架構(gòu)由三個邏輯耦合的層次構(gòu)成:

底部的基礎模型層致力于結(jié)構(gòu)上的重構(gòu),通過將知識儲備與推理能力解耦,為高階因果推理提供更靈活的“畫布”;

中間的融合協(xié)同層通過密集過程獎勵機制,動態(tài)協(xié)調(diào)直覺式“快思考”與邏輯性“慢思考”,精準把控泛化與專精的節(jié)奏;

頂層的探索進化層則賦予AI主動能動性,完成從被動數(shù)據(jù)擬合到主動環(huán)境探索的范式轉(zhuǎn)變。

至關(guān)重要的是,SAGE絕非靜態(tài)的架構(gòu),而是一個遞歸運行的活體生態(tài)。它通過雙向循環(huán)實現(xiàn)全棧進化:一方面,底層解耦的表征自下而上地支撐推理策略的生成;另一方面,頂層主動發(fā)現(xiàn)獲得的高水平反饋自上而下回流,將探索中的“未知”轉(zhuǎn)化為新的訓練信號。這種閉環(huán)機制確保了SAGE不僅能實現(xiàn)模型參數(shù)的優(yōu)化,更能推動認知策略本身的持續(xù)進化。


遞歸循環(huán)的通專融合技術(shù)架構(gòu)『智者』(SAGE)

基礎模型層:知識與推理的解構(gòu)與動態(tài)耦合

SAGE的底層致力于解決現(xiàn)有LLM將“事實記憶”與“邏輯推理”混淆的問題。以記憶解碼器(Memory Decoder)⑤為例,它針對性地解決了現(xiàn)有大模型架構(gòu)的兩大頑疾:一是檢索增強生成(RAG)在長文本語境推理中存在的顯著延遲與高昂工程成本;二是領域自適應全參數(shù)微調(diào)所帶來的算力消耗及災難性遺忘風險。

作為一種預訓練、即插即用的獨立組件,記憶解碼器創(chuàng)新性地采用與基礎模型并行運行并融合輸出分布的機制。它首次用緊湊的參數(shù)化模型替代了傳統(tǒng)非參數(shù)檢索器,在無需修改基礎模型參數(shù)、無在線檢索開銷的前提下,實現(xiàn)了高效的知識注入。實驗數(shù)據(jù)顯示,其推理開銷僅為基礎模型的1.28倍,顯著低于現(xiàn)有主流方案。這一設計成功填補了“高密度知識供給”與“推理引擎解耦”之間的技術(shù)鴻溝,在SAGE框架中實現(xiàn)了推理能力與長期記憶的“解耦但可集成的推理與知識”,同時強化了“長期記憶”能力。




記憶解碼器:面向大語言模型的預訓練、即插即用記憶體

強化學習:連接基礎層與進化層的紐帶

強化學習(RL)是連接SAGE基礎層與融合層、進化層的紐帶,也是實現(xiàn)“通專融合”的核心動力之一。回顧其演進歷程,RL經(jīng)歷了從早期封閉環(huán)境下的博弈(如AlphaGo),演進至通過RLHF實現(xiàn)人類偏好對齊,目前正處于以o1和DeepSeek-R1為代表的可驗證推理(RLVR)階段,并終將邁向面向物理世界與科學發(fā)現(xiàn)的開放式體驗學習新紀元。



適用于可通專融合的強化學習及其三大支柱

在微觀機制上,RL被歸納為三大支柱:獎勵設計作為“指南針”,通過稀疏或密集信號界定模型專精的目標;策略優(yōu)化作為“引擎”,涵蓋從PPO到GRPO的算法迭代,驅(qū)動模型高效更新;采樣與探索則決定了模型在龐大搜索空間中的導航路徑⑥。

鑒于不同任務對RL配置的需求各異,構(gòu)建系統(tǒng)的核心技術(shù)挑戰(zhàn)在于統(tǒng)一:我們?nèi)绾螌⒍鄻有缘淖罴训莫剟顧C制、策略優(yōu)化與采樣探索整合為一個協(xié)調(diào)一致的系統(tǒng),從而打造出真正的“可深度專業(yè)化通用模型”?

融合協(xié)同層:強化學習驅(qū)動的深度推理進化

在SAGE架構(gòu)中,融合協(xié)同層承載著協(xié)調(diào)“直覺快思考”與“邏輯慢思考”的核心職能,而強化學習(RL)則是實現(xiàn)這一動態(tài)協(xié)同的關(guān)鍵橋梁。為了構(gòu)建一個真正的“可深度專業(yè)化通用模型”,必須克服傳統(tǒng)RL在復雜推理任務中面臨的三大核心挑戰(zhàn):高昂的監(jiān)督成本、訓練過程中的熵坍縮以及單一路徑的模式崩潰。為此,我們在該層引入了三項具有范式意義的算法創(chuàng)新,旨在構(gòu)建密集的獎勵機制、維持持續(xù)的探索能力以及激發(fā)推理路徑的多樣性。

隱式獎勵強化學習算法(PRIME):突破高密度監(jiān)督的成本悖論

高度專家化的模型與人類專家在學習機制上具有相似性:專家化模型在訓練過程中需要更密集的反饋信息。對于“通專融合”大模型而言,要解決科學發(fā)現(xiàn)中的長鏈條推理問題,僅依賴最終結(jié)果的稀疏獎勵往往捉襟見肘,模型急需密集的逐步監(jiān)督信號。然而,傳統(tǒng)的解決方案依賴于過程獎勵模型(PRM),這要求對海量推理步驟進行人工細粒度標注,其成本之高昂,使得規(guī)?;瘮U展幾乎成為不可能。

針對這一“高密度監(jiān)督需求”與“高昂標注成本”之間的矛盾,我們提出了PRIME算法⑦ ,旨在從理論層面推導并獲取“免費”的過程獎勵。其核心洞察在于,利用策略模型與參考模型之間的統(tǒng)計差異。通過將模型訓練目標設定為基于兩者對數(shù)似然比的結(jié)果獎勵模型,我們從數(shù)學方面證明,該模型能夠隱式地習得Q函數(shù)。這意味著,智能體在無需顯式訓練龐大的PRM模型的情況下,即可在推理的每一個步驟中,通過計算動作在當前狀態(tài)下的優(yōu)劣,直接推導出密集的、逐步的獎勵信號。



隱式獎勵強化學習算法(PRIME)

這一創(chuàng)新帶來了多維度的顯著優(yōu)勢:

計算效率的飛躍:與Math-Shepherd等依賴獨立PRM模型的方法相比,PRIME在推理階段無需額外的模型調(diào)用開銷,直接利用生成模型本身的概率分布即可獲得反饋,極大地提升了計算效率;

系統(tǒng)架構(gòu)的可擴展性:在SAGE的系統(tǒng)實現(xiàn)中,PRIME方案展現(xiàn)出極強的工程韌性。我們將策略模型與隱式PRM進行聯(lián)動,依托結(jié)果驗證器和前序步驟產(chǎn)出的自由過程獎勵,構(gòu)建了高效的在線更新閉環(huán);

極致的數(shù)據(jù)效率:實驗表明,PRIME方案僅需SOTA模型1/10的訓練數(shù)據(jù)量,即可達到相當?shù)男阅芩?,極大地降低了對高質(zhì)量標注數(shù)據(jù)的依賴。

基準測試結(jié)果有力地驗證了PRIME的有效性:在AIME 2024數(shù)據(jù)集上,模型準確率提升了23.4%;在AMC數(shù)據(jù)集上提升了27.7%;在MATH-500等權(quán)威測試中也取得了顯著增長。這一系列數(shù)據(jù)充分證明,通過隱式機制構(gòu)建的稠密獎勵,能夠有效驅(qū)動模型突破復雜推理的瓶頸。

強化學習的熵機制:避免“過度自信”導致探索止步

專家化模型的訓練不僅需要反饋,更需要持續(xù)不斷的學習。在深入研究用于推理的強化學習時,我們揭示了一個阻礙模型進化的根本性障礙——熵坍縮。通俗地講,這等同于解決如何讓通用模型在專家化的過程中,始終保持探索與好奇心,讓模型和頂級人類專家一樣在專業(yè)問題的挑戰(zhàn)上避免過早過分自信,而是“stay hungry, stay foolish”(求知若饑,虛心若愚)。

在訓練過程中,隨著模型性能的初步提升,策略熵往往會急劇下降。這種下降意味著模型對其輸出的置信度快速提高,導致其過早地收斂于局部最優(yōu)解,從而喪失了探索更優(yōu)推理路徑的可能性。實驗數(shù)據(jù)顯示,熵的消耗主要集中在訓練的前數(shù)百步,此后模型的性能提升便迅速進入邊際效益遞減階段。這種現(xiàn)象極似人類認知中的“過度自信”,即因自滿而停止了對問題細微差異的主動探索——而這種主動探索,恰恰是通用模型進化為能捕捉深層規(guī)律的“專精模型”的關(guān)鍵所在。

為了解決這一問題,我們深入探究了熵與獎勵之間的權(quán)衡機制,并發(fā)現(xiàn)了一個關(guān)鍵的定量關(guān)系:驗證性能(R)與熵(H)呈現(xiàn)顯著的對數(shù)線性相關(guān)⑧。這一簡潔而深刻的結(jié)論為訓練方案的優(yōu)化指明了方向:構(gòu)建可擴展推理RL框架的難點,不在于單純堆砌訓練時長,而在于對熵消耗的精細化管理,確保模型在訓練全周期內(nèi)保留足夠的不確定性,以驅(qū)動持續(xù)的探索。

我們提出了一種精準化、局部化且輕量化的熵控制方案:針對這類標記開展選擇性調(diào)控(如采用Clip-Cov、KL-Cov等方法),能夠達成局部、輕量的熵控制效果,既保障模型探索性不受損,又不會干擾正常優(yōu)化流程。該方法實現(xiàn)了對熵的局部控制,既保障了模型的探索性不受損,又避免了對正常優(yōu)化流程的干擾。應用該策略后,模型在保持高探索能力的同時,顯著提升了下游任務的準確率。這一方法已被實驗室的『書生』科學多模態(tài)大模型Intern-S1等多個頭部機構(gòu)采納應用,其相關(guān)成果更由斯坦福Yejin Choi教授在2025年神經(jīng)信息處理系統(tǒng)大會(NeurIPS)上進行了重點闡述。



強化學習的熵機制

匹配大語言模型推理的獎勵分布(FlowRL):實現(xiàn)專家化模型能力多元化

真正的專家不僅能解決問題,更能能為同一個問題提供多種解決方案,專家化模型亦是如此。然而,現(xiàn)有的標準強化學習方法(如PPO、GRPO)普遍以“獎勵最大化”為單一目標。這種導向在復雜推理任務中極易導致模式崩潰,即模型傾向于反復收斂至單一的、已知的成功路徑,而忽略了其他潛在的更優(yōu)解或多樣化解法。

傳統(tǒng)RL方法生成的分布與目標分布之間的KL散度高達8.68,表現(xiàn)為極端的尖峰,意味著模型探索空間的極度狹窄。為了賦予模型真正的專家級思維多樣性,我們在融合層引入了FlowRL⑨,這是一項借鑒生成流網(wǎng)絡(GFlowNets)思想的創(chuàng)新工作,標志著強化學習優(yōu)化邏輯的范式轉(zhuǎn)變。

FlowRL的核心在于將學習目標從“獎勵最大化”重構(gòu)為“分布匹配”。模型不再僅僅追逐單一的高分答案,而是致力于學習所有有效推理路徑的概率分布。

分布擬合:FlowRL生成的分布能夠捕捉目標分布中的絕大多數(shù)概率質(zhì)量,擬合多個模態(tài)。如左側(cè)平滑曲線所示,其KL散度大幅降低至0.11,顯著優(yōu)于傳統(tǒng)方法;

多樣性生成:習得的策略在推理過程中能夠自然地促進更多樣化路徑的生成,從而在面對“未知的未知”時具備更強的魯棒性。

案例顯示,在處理同一道數(shù)學推理題時,GRPO模型陷入了思維死循環(huán),推理過程重復且最終未能求解;而FlowRL模型則成功探索了多樣化的推理路徑,最終得出了正確答案721。

整體實驗結(jié)果進一步證實了FlowRL的優(yōu)越性:

準確率提升:在32B模型的訓練條件下,F(xiàn)lowRL在數(shù)學推理任務中取得了48.39%的準確率,較GRPO提升10個百分點,較PPO提升5.1個百分點;

競賽級表現(xiàn):基于純開源數(shù)據(jù)訓練后,F(xiàn)lowRL在CodeForces平臺的評級達到1549分,性能直逼o1-preview水平;

多樣性倍增:FlowRL生成的解決方案多樣性評分高達2.28,約為PPO的2倍。


匹配大語言模型推理的獎勵分布(FlowRL)

探索進化層:從被動擬合到主動認知探索

SAGE架構(gòu)的頂層探索進化層承載著通往AGI最關(guān)鍵的愿景——打造一個具備自演化能力的“可深度專業(yè)化通用模型”。這一層的核心挑戰(zhàn)在于,如何讓通用模型不僅在單一任務上實現(xiàn)深度專精,更能在大規(guī)模任務集乃至復雜的物理世界中,通過持續(xù)的交互與反饋實現(xiàn)自我迭代。為了應對這一挑戰(zhàn),我們從信號(Signal)、規(guī)模(Scale)與落地(Ground)三個關(guān)鍵維度出發(fā),構(gòu)建了一套完整的進化機制。

信號維度:測試時強化學習(TTRL)與自我進化

在推理測試階段,模型面臨的最大困境在于訓練數(shù)據(jù)與測試數(shù)據(jù)之間的分布偏移。一旦失去真實標簽的引導,傳統(tǒng)模型便停止了學習步伐。然而,真正的“專家”——如同人類物種一樣——應當具備在任何未知境況下持續(xù)學習適應的能力。

針對這一痛點,我們提出了測試時強化學習(Test-Time Reinforcement Learning, TTRL)框架⑩,其核心洞察建立在一個簡潔的假設之上:共識即意味著正確性(Consensus implies correctness)。

具體而言,TTRL在推理過程中對多個候選解決方案進行采樣,并將多數(shù)投票的結(jié)果作為“代理獎勵”,進而利用測試數(shù)據(jù)流直接對模型參數(shù)進行在線更新。這一方法在技術(shù)實現(xiàn)上具備極致的輕量化特性,僅需不到20行代碼,即可將任何推理軌跡轉(zhuǎn)化為有效的訓練信號,實現(xiàn)了模型在無監(jiān)督環(huán)境下的“自我舉證”與“自我增強”。


測試時強化學習(TTRL)

實測數(shù)據(jù)驗證了TTRL的驚人潛力:

性能躍升:在AIME 2024數(shù)據(jù)集上,搭載TTRL的Qwen-2.5-Math-7B模型準確率實現(xiàn)了159%的相對提升;

自我超越:TTRL優(yōu)化后的模型展現(xiàn)出了“青出于藍”的特性,其性能不僅超越了自身的“最優(yōu)N采樣”基準線,甚至逼近了使用帶真實標簽訓練的理論上限(Oracle基線);

強泛化性:在AMC、MATH-500等未見過的權(quán)威基準測試中,模型同樣表現(xiàn)出強勁的泛化能力。

TTRL的成功證明了智能體具備自主螺旋式上升的成長潛力,為SAGE架構(gòu)中的自我進化提供了一條簡潔高效的路徑。

規(guī)模維度:InternBootcamp與任務擴展定律

在解決了“怎么學”的信號問題后,必須回答“在哪學”的規(guī)模問題。通專融合模型不僅需要在單一任務上通過“慢思考”實現(xiàn)專精,更需要在成百上千個任務上同時實現(xiàn)能力適配。此外,我們還希望探索一個更深刻的問題:當測試任務的數(shù)量與多樣性同步擴增時,是否存在專門針對在測試環(huán)境下、針對任務數(shù)量的Scaling Law?

為此,我們研發(fā)了大規(guī)模、標準化、可擴展的交互驗證環(huán)境——InternBootcamp?。

作為首個覆蓋8大任務類別、超1000種多樣化環(huán)境的平臺,InternBootcamp支持在指定環(huán)境中開展大規(guī)模強化學習訓練。其獨特的“任務與驗證函數(shù)自動生成”能力,使得用戶能夠便捷地將電路設計等專業(yè)領域任務轉(zhuǎn)化為可驗證環(huán)境,通過仿真手段完成結(jié)果核驗。


基于InternBootcamp的實驗揭示了兩個重要現(xiàn)象:

能力的“涌現(xiàn)”:在BootcampEVAL評測集中,Qwen2.5-32B模型的平均性能實現(xiàn)了翻倍式增長(從24.4提升至59.5)。更為關(guān)鍵的是,部分在單任務訓練下無法解決的邏輯任務,在經(jīng)過500余項混合任務訓練后變得可解。這證實了任務間的隱性關(guān)聯(lián)能夠有效增強模型的綜合理解能力。

任務擴展定律:實驗數(shù)據(jù)顯示,當任務類型數(shù)量從8種擴展至512種時,模型性能呈現(xiàn)持續(xù)上升趨勢。這一結(jié)果證實了與任務數(shù)量增長相關(guān)的規(guī)模化定律真實存在,為未來大規(guī)模訓練提供了理論依據(jù)。

落地維度:SimpleVLA-RL與具身智能演進

進化的終局,是回歸物理世界。當前具身智能面臨的核心瓶頸是數(shù)據(jù)匱乏:機器人演示數(shù)據(jù)獲取成本極高,且單純擴大監(jiān)督微調(diào)(SFT)規(guī)模面臨邊際效益遞減。我們認為,強化學習(RL)憑借其突破演示數(shù)據(jù)局限的探索能力,結(jié)合簡單的二元獎勵(成功/失敗),足以成為解決這一問題的鑰匙。

基于此,我們提出了極端數(shù)據(jù)稀缺情況下的在線強化學習框架——SimpleVLA-RL?。該框架基于視覺-語言-動作(VLA)模型,結(jié)合GRPO優(yōu)化目標,并通過并行多環(huán)境渲染技術(shù)支持交互式軌跡采樣。


極端數(shù)據(jù)稀缺情況下的在線強化學習框架SimpleVLA-RL

實驗結(jié)果顛覆了對數(shù)據(jù)效率的傳統(tǒng)認知:

超高數(shù)據(jù)效率:僅需“單軌跡”監(jiān)督微調(diào)結(jié)合RL,即可實現(xiàn)96.9%的成功率,性能反而超越了全軌跡監(jiān)督微調(diào);

策略涌現(xiàn):機器人通過RL自主探索出了從未被演示過的全新推控策略,展現(xiàn)出強大的適應性;

Sim-to-Real突破:在疊碗等典型操作任務中,仿真到現(xiàn)實的遷移成功率提升了21%;

長時程任務能力:在近期落地中,該方案在長時程靈巧操作任務上,實現(xiàn)了相對性能提升300%,并展現(xiàn)出令人驚喜的自主恢復能力。

得益于SimpleVLA-RL,我們僅用極少的數(shù)據(jù)與計算資源,便取得了可與Physical Intelligence團隊π*0.6模型比肩的性能表現(xiàn)。這一成果標志著SAGE架構(gòu)徹底打通了負責推理決策的“大腦”與負責執(zhí)行動作的“軀體”,真正實現(xiàn)了智能體在物理世界中的“具身化”演進。

經(jīng)過近兩年的扎實探索,SAGE架構(gòu)已跨越理論構(gòu)想階段,完成了全棧驗證。在基礎層,MemoryDecoder實現(xiàn)了記憶與計算的結(jié)構(gòu)性解耦;在融合層,PRIME與FlowRL攻克了監(jiān)督稀缺與推理單一性的難題;在進化層,TTRL、InternBootcamp與SimpleVLA-RL構(gòu)建了從測試時強化到“具身化”演進的閉環(huán)。

范式革命:從AI4S到AGI4S

盡管以AlphaFold為代表的AI for Science(AI4S)技術(shù)在蛋白質(zhì)折疊、氣象預測等特定領域取得了里程碑式成就,但近期《Nature》發(fā)表的研究指出,過度依賴現(xiàn)有深度學習模型可能局限新知識的探索邊界,甚至在某種程度上阻礙創(chuàng)新。這印證了我們的核心觀點:擅長處理數(shù)據(jù)充足、定義明確任務的傳統(tǒng)深度學習,若僅作為工具存在,難以應對科學發(fā)現(xiàn)中“未知的未知”。

系統(tǒng)性的評估進一步揭示了當前前沿模型的短板。我們聯(lián)合來自10個不同科學領域的100位科學家設計了評估體系,結(jié)果顯示:前沿模型在通用科學推理任務中得分可達50分(滿分100),但在各類專業(yè)推理任務(如專項文獻檢索、具體實驗方案設計)中,得分驟降至15-30分?。

這種明顯的“木桶效應”表明,科學發(fā)現(xiàn)全周期的效能正受制于專業(yè)推理能力的最薄弱環(huán)節(jié)。因此,整合通用推理與專業(yè)能力,進而推動科學智能從AI4S向AGI4S迭代成為必然選擇。


研究表明,當前所有前沿模型的科學能力均顯不足

從AI4S邁向AGI4S,這一升級旨在。通過AGI促進三者相互作用、協(xié)同演進、螺旋式上升,將創(chuàng)造出真正“”,推動科研范式變革?。


從AI4S 1.0到AI4S 2.0(AGI4S)

Intern-S1:面向科學的可深度專業(yè)化通用模型

為打破上述瓶頸,我們研發(fā)了“書生”科學多模態(tài)大模型(Intern-S1)?。作為SAGE架構(gòu)在科學領域的集中體現(xiàn),Intern-S1旨在構(gòu)建一個既具備強大通用能力,又能理解復雜科學數(shù)據(jù)的“可深度專業(yè)化通才”。其在三個層面進行了深度創(chuàng)新:

基礎層(數(shù)據(jù)適配):針對科學數(shù)據(jù)的多模態(tài)異構(gòu)性,提出了科學專用架構(gòu)。采用動態(tài)分詞器與專用編碼器,原生支持DNA序列、蛋白質(zhì)結(jié)構(gòu)、時間序列等10余種模態(tài)。相較于GPT-OSS等通用模型,其在科學數(shù)據(jù)上的壓縮率提升了1.7倍,并基于2.5萬億高質(zhì)量科學Token進行了預訓練;

融合層(混合獎勵):構(gòu)建了混合獎勵框架(MoR),將多種強化學習算法與熵機制整合。該框架平衡了計算、推理、實驗設計等不同技能所需的獎勵信號,有效緩解了特定任務過擬合問題,增強了模型在跨領域復雜推理中的泛化能力;

進化層(交互專精):依托InternBootCamp框架,模型在超1000項專業(yè)任務(如逆合成分析)中與模擬器進行交互學習,實現(xiàn)了大規(guī)模的任務專精。

測評結(jié)果顯示,Intern-S1在通用能力上對齊SOTA開源模型,而在涵蓋化學、生物、材料等9大領域的科學性能上,全面超越了包括GPT-5和Grok-4在內(nèi)的頂尖閉源模型。

Intern-Discovery:全流程科學智能體系統(tǒng)

如果說Intern-S1是科學大腦,那么Intern-Discovery則是具備行動力的科學智能體。該平臺構(gòu)建了一個將Intern-S1與海量數(shù)據(jù)、2000+專業(yè)工具及濕實驗室驗證環(huán)境深度融合的智能體系統(tǒng),實現(xiàn)了從假設生成到實驗驗證的閉環(huán)。

Intern-Discovery的核心邏輯在于建立“智能體生成”與“智能體驗證”的雙向循環(huán):前者主動洞察現(xiàn)象、提出假設并設計實驗;后者通過仿真與物理實驗驗證假設,并將反饋回傳以修正認知。

為支撐這一復雜流程,系統(tǒng)引入了兩大關(guān)鍵支柱:

科學智能上下文協(xié)議(SCP)?:針對現(xiàn)有MCP協(xié)議在科學資源整合上的不足,SCP定義了領域特定的結(jié)構(gòu)與協(xié)調(diào)機制,實現(xiàn)了對數(shù)據(jù)集、濕實驗室設備及復雜工作流的標準化調(diào)度與全生命周期管理。

分層記憶模塊:通過策略程序記憶(SPM)、任務情景記憶(TEM)與語義知識記憶(SKM)的協(xié)同,系統(tǒng)能夠沉淀高階研究模式、記錄實驗細節(jié)并整合長期知識,從而在持續(xù)迭代中避免邏輯幻覺。

案例實證:重塑科學發(fā)現(xiàn)流程

Intern-Discovery已在氣候科學與生物醫(yī)學領域展現(xiàn)出“革命性工具”的潛力。

在氣候科學領域,面對降水預測中極端復雜的非線性交互,Intern-Discovery自主調(diào)用30余種工具,分析了20年的多模態(tài)數(shù)據(jù)。它寫了4000多行專業(yè)代碼,成功發(fā)現(xiàn)了被人類專家忽略的水汽與動力項關(guān)聯(lián),并推導出一個簡潔的新型顯式非線性方程。該方程不僅形式優(yōu)雅簡潔,且顯著提升了模擬精度,有效修正了長期存在的系統(tǒng)性偏差,證明了智能體在理論構(gòu)建層面的創(chuàng)造力?。


Intern-Discovery在氣候科學的應用案例

在生物醫(yī)學領域,虛擬疾病生物學家“元生”通過模仿人類科學家的思維模板,整合遺傳學、蛋白質(zhì)組學及臨床文獻等多源數(shù)據(jù)。即便在數(shù)據(jù)稀疏條件下,它仍成功發(fā)現(xiàn)并驗證了具有高臨床潛力的隱藏靶點,展示了從數(shù)據(jù)到機制、從假說到驗證的全流程智能化能力。


Intern-Discovery在生物醫(yī)學的應用案例

從Intern-S1的底層推理突破到Intern-Discovery的系統(tǒng)級應用,我們正逐步構(gòu)建起一套覆蓋科學發(fā)現(xiàn)全周期的AGI4S基礎設施。這不僅是工具的革新,更是科研范式的重塑——讓人工智能真正成為推動科學邊界拓展的合作伙伴。

行動召喚:共拓新世界藍圖

綜上所述,我們正處在實現(xiàn)AGI的前夕,若AGI=通專融合(Specialized Generalist),則可深度專業(yè)化的通用模型(Specializable Generalist)是實現(xiàn)AGI的可行路徑,而『智者』SAGE的三層技術(shù)框架正是驅(qū)動后者發(fā)展的核心架構(gòu)。

下一個前沿陣地是科學發(fā)現(xiàn)——它既是推理智能的終極試煉場,也是“通專融合”的驗證舞臺,大規(guī)模推理將賦能科學發(fā)現(xiàn),科學發(fā)現(xiàn)亦將反哺推理能力的進化。

Intern-S1與Intern-Discovery是邁向該方向的首步實踐,但這一切僅僅是初始的雛形。如果將『智者』SAGE架構(gòu)比作一張新世界的地圖,我們目前已建立了很好的初步驗證與很多尖兵前哨站,但這張地圖上仍存在廣闊的“空白區(qū)域”。

架構(gòu)已經(jīng)就緒,但畫卷仍存在大片留白。如果這些初步進展激起了你的興趣,我邀請你深入閱讀我們的論文與代碼——它們都是開源的。但更重要的是,我邀請志同道合者與我們一同填補這些空白,共同構(gòu)建完整的藍圖。

謝謝!


本次報告核心要點總結(jié)

參考文獻

① Vaswani A, et al. Attention is all you need [C]// Advances in neural information processing systems, 2017, 30.

② Zhang K, Qi B, Zhou B. Towards building specialized generalist ai with system 1 and system 2 fusion [J]. arXiv preprint arXiv:2407.08642, 2024.

③ Qi B, Zhang K, Tian K, ..., Zhou B. Large language models as biomedical hypothesis generators: a comprehensive evaluation [C]. COLM, 2024.

④ Zhou B. Building AGI through Specialized Generalist AI: pathways and key issues [J]. Communications of CCF, 2025, 21(1): 54-62.

⑤ Cao J, Wang J, Wei R, ..., Zhou B, Lin Z. Memory Decoder: A Pretrained, Plug-and-Play Memory for Large Language Models [J]. arXiv preprint arXiv:2508.09874, 2025.

⑥ Zhang K, Zuo Y, He B, ..., Zhou B. A survey of reinforcement learning for large reasoning models [J]. arXiv preprint arXiv:2509.08827, 2025.

⑦ Cui G, Yuan L, Wang Z, ..., Zhou B, Ding N. Process Reinforcement through Implicit Rewards [J]. arXiv preprint arXiv:2502.01456, 2025.

⑧ Cui G, Zhang Y, Chen J, ..., Zhou B, Ding N. The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models [J]. arXiv preprint arXiv:2505.22617, 2025.

⑨ Zhu X, Cheng D, Zhang D, ..., Zhou B, Mei H, Lin Z. FlowRL: Matching reward distributions for LLM reasoning [J]. arXiv preprint arXiv:2509.15207, 2025.

⑩ Zuo Y, Zhang K, Sheng L, ..., Ding N, Zhou B. TTRL: Test-Time Reinforcement Learning [C]// NeurIPS, 2025.

? Li P, Ye J, Chen Y, ..., Zhou B, Chen K. InternBootcamp Technical Report: Boosting LLM Reasoning with Verifiable Task Scaling [J]. arXiv preprint arXiv:2508.08636, 2025.

? Li H, Zuo Y, Yu J, ..., Zhou B, Ding N. SimpleVLA-RL: Scaling VLA Training via Reinforcement Learning [J]. arXiv preprint arXiv:2509.09674, 2025.

? Shanghai Artificial Intelligence Laboratory. Probing Scientific General Intelligence of LLMs with Scientist-Aligned Workflows [J]. arXiv preprint arXiv:2512.16969v1, 2025.

? Zhou B, Ding N, Bai L, Zhou H. Advancing AI for science: From the revolution of tools to the tools for revolution [J]. AI Open, 2025, 6: 323-328.

? Shanghai AI Laboratory. INTERN-S1: A SCIENTIFICMULTIMODAL FOUNDATION MODEL [J]. arXiv preprint arXiv:2508.15763, 2025.

? Jiang Y, Lou W, Wang L, ..., Zhou B. SCP: Accelerating Discovery with a Global Web of Autonomous Scientific Agents [J]. arXiv preprint arXiv:2512.24189, 2025.

? Guo Z, Wang J, Ling F, ..., Zhou B, Bai L. A Self-Evolving AI Agent System for Climate Science [J]. arXiv preprint arXiv:2507.17311v3, 2025.

掃碼入群可參加全年至少12場精彩閉門研討

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
250架戰(zhàn)機集結(jié)中國大西北!美媒驚呼:中國最大規(guī)??諔?zhàn)演習來了

250架戰(zhàn)機集結(jié)中國大西北!美媒驚呼:中國最大規(guī)模空戰(zhàn)演習來了

健身狂人
2026-03-01 18:05:09
絕情臭豆腐事件大結(jié)局:店老板發(fā)聲,雙方已和解,賠償金額已到賬

絕情臭豆腐事件大結(jié)局:店老板發(fā)聲,雙方已和解,賠償金額已到賬

潮鹿逐夢
2026-02-28 21:25:16
阿聯(lián)酋迪拜再次傳出爆炸聲

阿聯(lián)酋迪拜再次傳出爆炸聲

財聯(lián)社
2026-03-01 12:46:06
陳浩民一家阿聯(lián)酋度假,妻子蔣麗莎凌晨突然更新,IP在阿布扎比

陳浩民一家阿聯(lián)酋度假,妻子蔣麗莎凌晨突然更新,IP在阿布扎比

八斗小先生
2026-03-01 08:55:57
沒指望了,公司生產(chǎn)線全停,員工放假!

沒指望了,公司生產(chǎn)線全停,員工放假!

黯泉
2026-02-28 22:26:15
交易被湖人坑苦了!年薪1150萬,場均4+3,詐騙犯讓老鷹白丟神射

交易被湖人坑苦了!年薪1150萬,場均4+3,詐騙犯讓老鷹白丟神射

你的籃球頻道
2026-03-01 14:10:49
65歲大媽直言:我選兒媳婦就一個要求,她的父母晚年必須有退休金

65歲大媽直言:我選兒媳婦就一個要求,她的父母晚年必須有退休金

清水家庭故事
2026-02-28 08:59:28
中超冠軍淪為笑話 亞冠墊底出局 超級杯0射正丟冠 恭喜北京國安

中超冠軍淪為笑話 亞冠墊底出局 超級杯0射正丟冠 恭喜北京國安

智道足球
2026-03-01 18:59:37
網(wǎng)傳新能源汽車開征“里程稅” 收費0.12元/公里 多地回應

網(wǎng)傳新能源汽車開征“里程稅” 收費0.12元/公里 多地回應

快科技
2026-02-27 21:58:15
中國男籃:奇兵19分5記三分,李弘權(quán)獨一檔+21,陳盈駿空砍26分

中國男籃:奇兵19分5記三分,李弘權(quán)獨一檔+21,陳盈駿空砍26分

體娛荒原
2026-03-01 17:59:35
伊朗媒體:伊朗南部一體育館遭空襲 20名女排球員喪生

伊朗媒體:伊朗南部一體育館遭空襲 20名女排球員喪生

環(huán)球網(wǎng)資訊
2026-03-01 07:35:13
勝中國臺北發(fā)布會!郭士強直指團隊贊陳盈駿表現(xiàn),趙繼偉大談血性

勝中國臺北發(fā)布會!郭士強直指團隊贊陳盈駿表現(xiàn),趙繼偉大談血性

籃球資訊達人
2026-03-01 18:42:53
伊朗革命衛(wèi)隊宣布大規(guī)模軍事行動

伊朗革命衛(wèi)隊宣布大規(guī)模軍事行動

界面新聞
2026-02-28 18:18:55
阿丹:我趕上最后幾趟航班撤離伊朗,現(xiàn)在已與俱樂部斷聯(lián)

阿丹:我趕上最后幾趟航班撤離伊朗,現(xiàn)在已與俱樂部斷聯(lián)

懂球帝
2026-03-01 07:40:47
要么投降,要么死在洞里——內(nèi)塔尼亞胡拒絕放走被困地道的哈馬斯

要么投降,要么死在洞里——內(nèi)塔尼亞胡拒絕放走被困地道的哈馬斯

桂系007
2025-11-05 23:52:21
美以刺殺伊朗最高領袖和總統(tǒng)失敗

美以刺殺伊朗最高領袖和總統(tǒng)失敗

財聯(lián)社
2026-02-28 18:48:32
火到臺灣!首演8萬人捧場,郭碧婷送花籃,郭書瑤楊謹華去看演出

火到臺灣!首演8萬人捧場,郭碧婷送花籃,郭書瑤楊謹華去看演出

嫹筆牂牂
2026-03-01 09:43:17
就在今天,喬丹塵封了23年的歷史第一紀錄,被41歲詹姆斯打破了

就在今天,喬丹塵封了23年的歷史第一紀錄,被41歲詹姆斯打破了

籃球看比賽
2026-03-01 15:03:13
50歲以后,別心疼錢,少吃花生,多吃8種“堿性食物”,氣色好

50歲以后,別心疼錢,少吃花生,多吃8種“堿性食物”,氣色好

美食店主
2026-02-12 00:08:26
直降1300元!新機官宣:3月11日,正式開售!

直降1300元!新機官宣:3月11日,正式開售!

科技堡壘
2026-02-27 11:25:29
2026-03-01 19:43:00
新經(jīng)濟學家智庫 incentive-icons
新經(jīng)濟學家智庫
關(guān)注增量
3523文章數(shù) 2890關(guān)注度
往期回顧 全部

科技要聞

小米超跑概念車全球首秀!殺入頂豪俱樂部

頭條要聞

中國游客遭遇航班熔斷 轉(zhuǎn)機四趟耗時48小時回國

頭條要聞

中國游客遭遇航班熔斷 轉(zhuǎn)機四趟耗時48小時回國

體育要聞

火箭輸給熱火:烏度卡又輸斯波教練

娛樂要聞

《江山為聘》:吳謹言陳哲遠燃炸朝堂

財經(jīng)要聞

中東局勢升級 如何影響A股、黃金和原油

汽車要聞

理想汽車2月交付26421輛 歷史累計交付超159萬輛

態(tài)度原創(chuàng)

親子
本地
時尚
家居
數(shù)碼

親子要聞

春日敏感肌自救指南,你get了嗎?

本地新聞

津南好·四時總相宜

普通人穿衣不需要太復雜!顏色恰當、搭配和諧,高級又耐看

家居要聞

素色肌理 品意式格調(diào)

數(shù)碼要聞

小米首款追蹤器!小米Tag海外正式發(fā)布 兼容iOS 120元起

無障礙瀏覽 進入關(guān)懷版