周伯文的一個近期演講：從推理到科學發(fā)現(xiàn)，AI邁向可精專通才之路（萬字長文）

2026-02-12 04:53:24　來源: 新經(jīng)濟學家智庫

北京舉報

分享至

資料圖。本文來源：北京商報、中國國創(chuàng)會

本賬號接受投稿，投稿郵箱：jingjixuejiaquan@126.com

1月22日下午，上海人工智能實驗室主任、首席科學家周伯文于第四十屆人工智能協(xié)會年會（AAAI 2026）發(fā)表特邀報告，題為《從推理到科學發(fā)現(xiàn)：探索通專融合的AI之路》（Quest of AI towards Specializable Generalist：From Reasoning to Scientific Discovery）。本文來源：上海人工智能實驗室

本賬號接受投稿，投稿郵箱：jingjixuejiaquan@126.com

周伯文：從推理到科學發(fā)現(xiàn)，AI邁向可精專通才之路

演進預判：從ANI到AGI的歷史跨越

人工智能的發(fā)展歷程并非線性堆疊，而是呈現(xiàn)出明顯的階段性躍遷。回顧AI發(fā)展的歷史坐標，有助于我們厘清當前所處的位置及未來的方向。

早在1996年涉足AI研究之初，我便開始思考智能的本質(zhì)。特別是在擔任IBM人工智能基礎研究院院長期間，首次提出了通往通用人工智能（AGI）的戰(zhàn)略路線圖，明確界定了AI發(fā)展的三個關(guān)鍵階段：ANI（狹義人工智能）、ABI（廣義人工智能）與AGI，并給出了各自明確定義。

我當時的判斷是ANI在2016年已趨于成熟，而通往AGI的必經(jīng)之路并非直接躍遷，而是必須率先實現(xiàn)具備跨領域泛化能力的ABI。我們認為這一跨越需要技術(shù)范式的根本性變革，最少包括三個方面：即從有監(jiān)督學習轉(zhuǎn)向自監(jiān)督學習，從人類分割任務級聯(lián)式系統(tǒng)轉(zhuǎn)向端到端架構(gòu)，從判別式工具進化為生成式助手。

六年多后ChatGPT的問世，第一次驗證了人工智能系統(tǒng)在以上三方面的同時達成，實質(zhì)上宣告了ABI階段的到來。這一歷史性突破驗證了規(guī)模法則（Scaling Law）的有效性——即通過擴大Transformer架構(gòu)并將“下一個詞預測”作為優(yōu)化目標，人類首次實現(xiàn)了對世界知識的壓縮。值得一提的是，我和團隊早在2016年提出的關(guān)于“多頭自注意力”機制的研究，作為“與下游任務無關(guān)"（也就是"預訓練"）的自然語言長上下文壓縮表征的首批成果之一，被開創(chuàng)性的Transformer論文引用與認可①，為這一預訓練時代的壓縮智能奠定了重要的理論基石。

重訪路線圖（2016年）：通往AGI之路

戰(zhàn)略路徑：通專融合與科學發(fā)現(xiàn)的終極試煉

隨著Scaling Law賦予了大語言模型廣泛的泛化能力（ABI），在2023年初我們提出了一個關(guān)鍵的戰(zhàn)略設問：通往AGI的下一步，僅僅是計算量的堆疊嗎？對這些設問的思考促使我在2023年提出了“通專融合”路徑。核心思想是如何動態(tài)實行融合人類認知思維的系統(tǒng)1和系統(tǒng)2，以應對各種現(xiàn)實世界的任務。

重新定義AGI之路

過去70年AI的發(fā)展長期在“專業(yè)性”與“通用性”兩個維度上分別進展。以AlphaFold為代表的早期系統(tǒng)是極致的“專家”，在特定領域超越人類卻缺乏遷移能力；而當前的大語言模型則是博聞廣識的“通才”，雖具廣度但在處理復雜專業(yè)任務時往往難以企及專家深度和缺失關(guān)鍵細節(jié)。真正的AGI必須打破這種二元對立，構(gòu)建一種能夠動態(tài)融合“系統(tǒng)1”（直覺式快思考）與“系統(tǒng)2”（邏輯式慢思考）的智能架構(gòu)——即在保持通用認知基座的同時，能夠在任意特定任務上通過持續(xù)學習與深度推理實現(xiàn)專家級的專精（闡述這一思路系統(tǒng)的立場論文已于2024年在ArXiv上發(fā)表）②。

通專融合是通往AGI的戰(zhàn)略路徑

2024年末OpenAI o1與2025年初DeepSeek-R1的出現(xiàn)，通過在大模型之上應用強化學習顯著提升邏輯推理能力，有力地驗證了關(guān)于“通專融合”路徑預判的正確性。2025年10月，約書亞·本吉奧教授等人提出了AGI的定義，將其分解為十種核心通用能力以及眾多狹義的專業(yè)能力。若能全面達成這些能力，即意味著實現(xiàn)了AGI。這一定義與我們 “通專融合是通往AGI的戰(zhàn)略路徑” 的觀點高度吻合——這表明該路徑正日益成為整個學術(shù)社區(qū)的普遍共識。

科學發(fā)現(xiàn)：推理智能的終極前沿

下一個前沿領域是什么？我認為是科學發(fā)現(xiàn)（Scientific Discovery, SD）。在我看來，除了科學智能（AI for Science, AI4S）所承諾的治愈癌癥等諸多益處之外，科學發(fā)現(xiàn)更是推理智能的終極考驗，因此也是AI探索的絕對前沿?？茖W發(fā)現(xiàn)是已知與未知之間復雜的相互作用，涵蓋了從假設生成、實驗驗證到理論總結(jié)的全過程。其對AI提出了三重極限挑戰(zhàn)：

已知的未知：典型的如組合爆炸，比如分子設計或材料科學的搜索空間高達1060量級，遠超傳統(tǒng)遍歷能力；

未知的未知：科學探索本質(zhì)上是對分布外（OOD）知識的泛化，是對模型創(chuàng)造力的真正考驗；

稀疏與延遲獎勵：科學實驗的周期長、反饋慢，是對強化學習算法的嚴峻測試③。

因此，科學發(fā)現(xiàn)不僅是AI的最佳應用場景，更是驅(qū)動“通專融合”邁向AGI的根本動力。

接下來，我想分享我們?yōu)閼獙@一挑戰(zhàn)提出的技術(shù)架構(gòu)——『智者』SAGE。

技術(shù)架構(gòu)：遞歸循環(huán)的通用專家協(xié)同架構(gòu)『智者』SAGE

為將“通專融合”戰(zhàn)略轉(zhuǎn)化為可落地的技術(shù)方案，上海AI實驗室在2024年提出了『智者』SAGE架構(gòu)——其并非若干模型的簡單堆砌，而是一個旨在彌合廣泛泛化與深度專精鴻溝的統(tǒng)一認知生態(tài)系統(tǒng)④。該架構(gòu)由三個邏輯耦合的層次構(gòu)成：

底部的基礎模型層致力于結(jié)構(gòu)上的重構(gòu)，通過將知識儲備與推理能力解耦，為高階因果推理提供更靈活的“畫布”；

中間的融合協(xié)同層通過密集過程獎勵機制，動態(tài)協(xié)調(diào)直覺式“快思考”與邏輯性“慢思考”，精準把控泛化與專精的節(jié)奏；

頂層的探索進化層則賦予AI主動能動性，完成從被動數(shù)據(jù)擬合到主動環(huán)境探索的范式轉(zhuǎn)變。

至關(guān)重要的是，SAGE絕非靜態(tài)的架構(gòu)，而是一個遞歸運行的活體生態(tài)。它通過雙向循環(huán)實現(xiàn)全棧進化：一方面，底層解耦的表征自下而上地支撐推理策略的生成；另一方面，頂層主動發(fā)現(xiàn)獲得的高水平反饋自上而下回流，將探索中的“未知”轉(zhuǎn)化為新的訓練信號。這種閉環(huán)機制確保了SAGE不僅能實現(xiàn)模型參數(shù)的優(yōu)化，更能推動認知策略本身的持續(xù)進化。

遞歸循環(huán)的通專融合技術(shù)架構(gòu)『智者』（SAGE）

基礎模型層：知識與推理的解構(gòu)與動態(tài)耦合

SAGE的底層致力于解決現(xiàn)有LLM將“事實記憶”與“邏輯推理”混淆的問題。以記憶解碼器（Memory Decoder）⑤為例，它針對性地解決了現(xiàn)有大模型架構(gòu)的兩大頑疾：一是檢索增強生成（RAG）在長文本語境推理中存在的顯著延遲與高昂工程成本；二是領域自適應全參數(shù)微調(diào)所帶來的算力消耗及災難性遺忘風險。

作為一種預訓練、即插即用的獨立組件，記憶解碼器創(chuàng)新性地采用與基礎模型并行運行并融合輸出分布的機制。它首次用緊湊的參數(shù)化模型替代了傳統(tǒng)非參數(shù)檢索器，在無需修改基礎模型參數(shù)、無在線檢索開銷的前提下，實現(xiàn)了高效的知識注入。實驗數(shù)據(jù)顯示，其推理開銷僅為基礎模型的1.28倍，顯著低于現(xiàn)有主流方案。這一設計成功填補了“高密度知識供給”與“推理引擎解耦”之間的技術(shù)鴻溝，在SAGE框架中實現(xiàn)了推理能力與長期記憶的“解耦但可集成的推理與知識”，同時強化了“長期記憶”能力。

記憶解碼器：面向大語言模型的預訓練、即插即用記憶體

強化學習：連接基礎層與進化層的紐帶

強化學習（RL）是連接SAGE基礎層與融合層、進化層的紐帶，也是實現(xiàn)“通專融合”的核心動力之一。回顧其演進歷程，RL經(jīng)歷了從早期封閉環(huán)境下的博弈（如AlphaGo），演進至通過RLHF實現(xiàn)人類偏好對齊，目前正處于以o1和DeepSeek-R1為代表的可驗證推理（RLVR）階段，并終將邁向面向物理世界與科學發(fā)現(xiàn)的開放式體驗學習新紀元。

適用于可通專融合的強化學習及其三大支柱

在微觀機制上，RL被歸納為三大支柱：獎勵設計作為“指南針”，通過稀疏或密集信號界定模型專精的目標；策略優(yōu)化作為“引擎”，涵蓋從PPO到GRPO的算法迭代，驅(qū)動模型高效更新；采樣與探索則決定了模型在龐大搜索空間中的導航路徑⑥。

鑒于不同任務對RL配置的需求各異，構(gòu)建系統(tǒng)的核心技術(shù)挑戰(zhàn)在于統(tǒng)一：我們?nèi)绾螌⒍鄻有缘淖罴训莫剟顧C制、策略優(yōu)化與采樣探索整合為一個協(xié)調(diào)一致的系統(tǒng)，從而打造出真正的“可深度專業(yè)化通用模型”？

融合協(xié)同層：強化學習驅(qū)動的深度推理進化

在SAGE架構(gòu)中，融合協(xié)同層承載著協(xié)調(diào)“直覺快思考”與“邏輯慢思考”的核心職能，而強化學習（RL）則是實現(xiàn)這一動態(tài)協(xié)同的關(guān)鍵橋梁。為了構(gòu)建一個真正的“可深度專業(yè)化通用模型”，必須克服傳統(tǒng)RL在復雜推理任務中面臨的三大核心挑戰(zhàn)：高昂的監(jiān)督成本、訓練過程中的熵坍縮以及單一路徑的模式崩潰。為此，我們在該層引入了三項具有范式意義的算法創(chuàng)新，旨在構(gòu)建密集的獎勵機制、維持持續(xù)的探索能力以及激發(fā)推理路徑的多樣性。

隱式獎勵強化學習算法（PRIME）：突破高密度監(jiān)督的成本悖論

高度專家化的模型與人類專家在學習機制上具有相似性：專家化模型在訓練過程中需要更密集的反饋信息。對于“通專融合”大模型而言，要解決科學發(fā)現(xiàn)中的長鏈條推理問題，僅依賴最終結(jié)果的稀疏獎勵往往捉襟見肘，模型急需密集的逐步監(jiān)督信號。然而，傳統(tǒng)的解決方案依賴于過程獎勵模型（PRM），這要求對海量推理步驟進行人工細粒度標注，其成本之高昂，使得規(guī)?；瘮U展幾乎成為不可能。

針對這一“高密度監(jiān)督需求”與“高昂標注成本”之間的矛盾，我們提出了PRIME算法⑦ ，旨在從理論層面推導并獲取“免費”的過程獎勵。其核心洞察在于，利用策略模型與參考模型之間的統(tǒng)計差異。通過將模型訓練目標設定為基于兩者對數(shù)似然比的結(jié)果獎勵模型，我們從數(shù)學方面證明，該模型能夠隱式地習得Q函數(shù)。這意味著，智能體在無需顯式訓練龐大的PRM模型的情況下，即可在推理的每一個步驟中，通過計算動作在當前狀態(tài)下的優(yōu)劣，直接推導出密集的、逐步的獎勵信號。

隱式獎勵強化學習算法（PRIME）

這一創(chuàng)新帶來了多維度的顯著優(yōu)勢：

計算效率的飛躍：與Math-Shepherd等依賴獨立PRM模型的方法相比，PRIME在推理階段無需額外的模型調(diào)用開銷，直接利用生成模型本身的概率分布即可獲得反饋，極大地提升了計算效率；

系統(tǒng)架構(gòu)的可擴展性：在SAGE的系統(tǒng)實現(xiàn)中，PRIME方案展現(xiàn)出極強的工程韌性。我們將策略模型與隱式PRM進行聯(lián)動，依托結(jié)果驗證器和前序步驟產(chǎn)出的自由過程獎勵，構(gòu)建了高效的在線更新閉環(huán)；

極致的數(shù)據(jù)效率：實驗表明，PRIME方案僅需SOTA模型1/10的訓練數(shù)據(jù)量，即可達到相當?shù)男阅芩?，極大地降低了對高質(zhì)量標注數(shù)據(jù)的依賴。

基準測試結(jié)果有力地驗證了PRIME的有效性：在AIME 2024數(shù)據(jù)集上，模型準確率提升了23.4%；在AMC數(shù)據(jù)集上提升了27.7%；在MATH-500等權(quán)威測試中也取得了顯著增長。這一系列數(shù)據(jù)充分證明，通過隱式機制構(gòu)建的稠密獎勵，能夠有效驅(qū)動模型突破復雜推理的瓶頸。

強化學習的熵機制：避免“過度自信”導致探索止步

專家化模型的訓練不僅需要反饋，更需要持續(xù)不斷的學習。在深入研究用于推理的強化學習時，我們揭示了一個阻礙模型進化的根本性障礙——熵坍縮。通俗地講，這等同于解決如何讓通用模型在專家化的過程中，始終保持探索與好奇心，讓模型和頂級人類專家一樣在專業(yè)問題的挑戰(zhàn)上避免過早過分自信，而是“stay hungry, stay foolish”（求知若饑，虛心若愚）。

在訓練過程中，隨著模型性能的初步提升，策略熵往往會急劇下降。這種下降意味著模型對其輸出的置信度快速提高，導致其過早地收斂于局部最優(yōu)解，從而喪失了探索更優(yōu)推理路徑的可能性。實驗數(shù)據(jù)顯示，熵的消耗主要集中在訓練的前數(shù)百步，此后模型的性能提升便迅速進入邊際效益遞減階段。這種現(xiàn)象極似人類認知中的“過度自信”，即因自滿而停止了對問題細微差異的主動探索——而這種主動探索，恰恰是通用模型進化為能捕捉深層規(guī)律的“專精模型”的關(guān)鍵所在。

為了解決這一問題，我們深入探究了熵與獎勵之間的權(quán)衡機制，并發(fā)現(xiàn)了一個關(guān)鍵的定量關(guān)系：驗證性能（R）與熵（H）呈現(xiàn)顯著的對數(shù)線性相關(guān)⑧。這一簡潔而深刻的結(jié)論為訓練方案的優(yōu)化指明了方向：構(gòu)建可擴展推理RL框架的難點，不在于單純堆砌訓練時長，而在于對熵消耗的精細化管理，確保模型在訓練全周期內(nèi)保留足夠的不確定性，以驅(qū)動持續(xù)的探索。

我們提出了一種精準化、局部化且輕量化的熵控制方案：針對這類標記開展選擇性調(diào)控（如采用Clip-Cov、KL-Cov等方法），能夠達成局部、輕量的熵控制效果，既保障模型探索性不受損，又不會干擾正常優(yōu)化流程。該方法實現(xiàn)了對熵的局部控制，既保障了模型的探索性不受損，又避免了對正常優(yōu)化流程的干擾。應用該策略后，模型在保持高探索能力的同時，顯著提升了下游任務的準確率。這一方法已被實驗室的『書生』科學多模態(tài)大模型Intern-S1等多個頭部機構(gòu)采納應用，其相關(guān)成果更由斯坦福Yejin Choi教授在2025年神經(jīng)信息處理系統(tǒng)大會（NeurIPS）上進行了重點闡述。

強化學習的熵機制

匹配大語言模型推理的獎勵分布（FlowRL）：實現(xiàn)專家化模型能力多元化

真正的專家不僅能解決問題，更能能為同一個問題提供多種解決方案，專家化模型亦是如此。然而，現(xiàn)有的標準強化學習方法（如PPO、GRPO）普遍以“獎勵最大化”為單一目標。這種導向在復雜推理任務中極易導致模式崩潰，即模型傾向于反復收斂至單一的、已知的成功路徑，而忽略了其他潛在的更優(yōu)解或多樣化解法。

傳統(tǒng)RL方法生成的分布與目標分布之間的KL散度高達8.68，表現(xiàn)為極端的尖峰，意味著模型探索空間的極度狹窄。為了賦予模型真正的專家級思維多樣性，我們在融合層引入了FlowRL⑨，這是一項借鑒生成流網(wǎng)絡（GFlowNets）思想的創(chuàng)新工作，標志著強化學習優(yōu)化邏輯的范式轉(zhuǎn)變。

FlowRL的核心在于將學習目標從“獎勵最大化”重構(gòu)為“分布匹配”。模型不再僅僅追逐單一的高分答案，而是致力于學習所有有效推理路徑的概率分布。

分布擬合：FlowRL生成的分布能夠捕捉目標分布中的絕大多數(shù)概率質(zhì)量，擬合多個模態(tài)。如左側(cè)平滑曲線所示，其KL散度大幅降低至0.11，顯著優(yōu)于傳統(tǒng)方法；

多樣性生成：習得的策略在推理過程中能夠自然地促進更多樣化路徑的生成，從而在面對“未知的未知”時具備更強的魯棒性。

案例顯示，在處理同一道數(shù)學推理題時，GRPO模型陷入了思維死循環(huán)，推理過程重復且最終未能求解；而FlowRL模型則成功探索了多樣化的推理路徑，最終得出了正確答案721。

整體實驗結(jié)果進一步證實了FlowRL的優(yōu)越性：

準確率提升：在32B模型的訓練條件下，F(xiàn)lowRL在數(shù)學推理任務中取得了48.39%的準確率，較GRPO提升10個百分點，較PPO提升5.1個百分點；

競賽級表現(xiàn)：基于純開源數(shù)據(jù)訓練后，F(xiàn)lowRL在CodeForces平臺的評級達到1549分，性能直逼o1-preview水平；

多樣性倍增：FlowRL生成的解決方案多樣性評分高達2.28，約為PPO的2倍。

匹配大語言模型推理的獎勵分布（FlowRL）

探索進化層：從被動擬合到主動認知探索

SAGE架構(gòu)的頂層探索進化層承載著通往AGI最關(guān)鍵的愿景——打造一個具備自演化能力的“可深度專業(yè)化通用模型”。這一層的核心挑戰(zhàn)在于，如何讓通用模型不僅在單一任務上實現(xiàn)深度專精，更能在大規(guī)模任務集乃至復雜的物理世界中，通過持續(xù)的交互與反饋實現(xiàn)自我迭代。為了應對這一挑戰(zhàn)，我們從信號（Signal）、規(guī)模（Scale）與落地（Ground）三個關(guān)鍵維度出發(fā)，構(gòu)建了一套完整的進化機制。

信號維度：測試時強化學習（TTRL）與自我進化

在推理測試階段，模型面臨的最大困境在于訓練數(shù)據(jù)與測試數(shù)據(jù)之間的分布偏移。一旦失去真實標簽的引導，傳統(tǒng)模型便停止了學習步伐。然而，真正的“專家”——如同人類物種一樣——應當具備在任何未知境況下持續(xù)學習適應的能力。

針對這一痛點，我們提出了測試時強化學習（Test-Time Reinforcement Learning, TTRL）框架⑩，其核心洞察建立在一個簡潔的假設之上：共識即意味著正確性（Consensus implies correctness）。

具體而言，TTRL在推理過程中對多個候選解決方案進行采樣，并將多數(shù)投票的結(jié)果作為“代理獎勵”，進而利用測試數(shù)據(jù)流直接對模型參數(shù)進行在線更新。這一方法在技術(shù)實現(xiàn)上具備極致的輕量化特性，僅需不到20行代碼，即可將任何推理軌跡轉(zhuǎn)化為有效的訓練信號，實現(xiàn)了模型在無監(jiān)督環(huán)境下的“自我舉證”與“自我增強”。

測試時強化學習（TTRL）

實測數(shù)據(jù)驗證了TTRL的驚人潛力：

性能躍升：在AIME 2024數(shù)據(jù)集上，搭載TTRL的Qwen-2.5-Math-7B模型準確率實現(xiàn)了159%的相對提升；

自我超越：TTRL優(yōu)化后的模型展現(xiàn)出了“青出于藍”的特性，其性能不僅超越了自身的“最優(yōu)N采樣”基準線，甚至逼近了使用帶真實標簽訓練的理論上限（Oracle基線）；

強泛化性：在AMC、MATH-500等未見過的權(quán)威基準測試中，模型同樣表現(xiàn)出強勁的泛化能力。

TTRL的成功證明了智能體具備自主螺旋式上升的成長潛力，為SAGE架構(gòu)中的自我進化提供了一條簡潔高效的路徑。

規(guī)模維度：InternBootcamp與任務擴展定律

在解決了“怎么學”的信號問題后，必須回答“在哪學”的規(guī)模問題。通專融合模型不僅需要在單一任務上通過“慢思考”實現(xiàn)專精，更需要在成百上千個任務上同時實現(xiàn)能力適配。此外，我們還希望探索一個更深刻的問題：當測試任務的數(shù)量與多樣性同步擴增時，是否存在專門針對在測試環(huán)境下、針對任務數(shù)量的Scaling Law？

為此，我們研發(fā)了大規(guī)模、標準化、可擴展的交互驗證環(huán)境——InternBootcamp?。

作為首個覆蓋8大任務類別、超1000種多樣化環(huán)境的平臺，InternBootcamp支持在指定環(huán)境中開展大規(guī)模強化學習訓練。其獨特的“任務與驗證函數(shù)自動生成”能力，使得用戶能夠便捷地將電路設計等專業(yè)領域任務轉(zhuǎn)化為可驗證環(huán)境，通過仿真手段完成結(jié)果核驗。

基于InternBootcamp的實驗揭示了兩個重要現(xiàn)象：

能力的“涌現(xiàn)”：在BootcampEVAL評測集中，Qwen2.5-32B模型的平均性能實現(xiàn)了翻倍式增長（從24.4提升至59.5）。更為關(guān)鍵的是，部分在單任務訓練下無法解決的邏輯任務，在經(jīng)過500余項混合任務訓練后變得可解。這證實了任務間的隱性關(guān)聯(lián)能夠有效增強模型的綜合理解能力。

任務擴展定律：實驗數(shù)據(jù)顯示，當任務類型數(shù)量從8種擴展至512種時，模型性能呈現(xiàn)持續(xù)上升趨勢。這一結(jié)果證實了與任務數(shù)量增長相關(guān)的規(guī)模化定律真實存在，為未來大規(guī)模訓練提供了理論依據(jù)。

落地維度：SimpleVLA-RL與具身智能演進

進化的終局，是回歸物理世界。當前具身智能面臨的核心瓶頸是數(shù)據(jù)匱乏：機器人演示數(shù)據(jù)獲取成本極高，且單純擴大監(jiān)督微調(diào)（SFT）規(guī)模面臨邊際效益遞減。我們認為，強化學習（RL）憑借其突破演示數(shù)據(jù)局限的探索能力，結(jié)合簡單的二元獎勵（成功/失敗），足以成為解決這一問題的鑰匙。

基于此，我們提出了極端數(shù)據(jù)稀缺情況下的在線強化學習框架——SimpleVLA-RL?。該框架基于視覺-語言-動作（VLA）模型，結(jié)合GRPO優(yōu)化目標，并通過并行多環(huán)境渲染技術(shù)支持交互式軌跡采樣。

極端數(shù)據(jù)稀缺情況下的在線強化學習框架SimpleVLA-RL

實驗結(jié)果顛覆了對數(shù)據(jù)效率的傳統(tǒng)認知：

超高數(shù)據(jù)效率：僅需“單軌跡”監(jiān)督微調(diào)結(jié)合RL，即可實現(xiàn)96.9%的成功率，性能反而超越了全軌跡監(jiān)督微調(diào)；

策略涌現(xiàn)：機器人通過RL自主探索出了從未被演示過的全新推控策略，展現(xiàn)出強大的適應性；

Sim-to-Real突破：在疊碗等典型操作任務中，仿真到現(xiàn)實的遷移成功率提升了21%；

長時程任務能力：在近期落地中，該方案在長時程靈巧操作任務上，實現(xiàn)了相對性能提升300%，并展現(xiàn)出令人驚喜的自主恢復能力。

得益于SimpleVLA-RL，我們僅用極少的數(shù)據(jù)與計算資源，便取得了可與Physical Intelligence團隊π*0.6模型比肩的性能表現(xiàn)。這一成果標志著SAGE架構(gòu)徹底打通了負責推理決策的“大腦”與負責執(zhí)行動作的“軀體”，真正實現(xiàn)了智能體在物理世界中的“具身化”演進。

經(jīng)過近兩年的扎實探索，SAGE架構(gòu)已跨越理論構(gòu)想階段，完成了全棧驗證。在基礎層，MemoryDecoder實現(xiàn)了記憶與計算的結(jié)構(gòu)性解耦；在融合層，PRIME與FlowRL攻克了監(jiān)督稀缺與推理單一性的難題；在進化層，TTRL、InternBootcamp與SimpleVLA-RL構(gòu)建了從測試時強化到“具身化”演進的閉環(huán)。

范式革命：從AI4S到AGI4S

盡管以AlphaFold為代表的AI for Science（AI4S）技術(shù)在蛋白質(zhì)折疊、氣象預測等特定領域取得了里程碑式成就，但近期《Nature》發(fā)表的研究指出，過度依賴現(xiàn)有深度學習模型可能局限新知識的探索邊界，甚至在某種程度上阻礙創(chuàng)新。這印證了我們的核心觀點：擅長處理數(shù)據(jù)充足、定義明確任務的傳統(tǒng)深度學習，若僅作為工具存在，難以應對科學發(fā)現(xiàn)中“未知的未知”。

系統(tǒng)性的評估進一步揭示了當前前沿模型的短板。我們聯(lián)合來自10個不同科學領域的100位科學家設計了評估體系，結(jié)果顯示：前沿模型在通用科學推理任務中得分可達50分（滿分100），但在各類專業(yè)推理任務（如專項文獻檢索、具體實驗方案設計）中，得分驟降至15-30分?。

這種明顯的“木桶效應”表明，科學發(fā)現(xiàn)全周期的效能正受制于專業(yè)推理能力的最薄弱環(huán)節(jié)。因此，整合通用推理與專業(yè)能力，進而推動科學智能從AI4S向AGI4S迭代成為必然選擇。

研究表明，當前所有前沿模型的科學能力均顯不足

從AI4S邁向AGI4S，這一升級旨在。通過AGI促進三者相互作用、協(xié)同演進、螺旋式上升，將創(chuàng)造出真正“”，推動科研范式變革?。

從AI4S 1.0到AI4S 2.0（AGI4S）

Intern-S1：面向科學的可深度專業(yè)化通用模型

為打破上述瓶頸，我們研發(fā)了“書生”科學多模態(tài)大模型（Intern-S1）?。作為SAGE架構(gòu)在科學領域的集中體現(xiàn)，Intern-S1旨在構(gòu)建一個既具備強大通用能力，又能理解復雜科學數(shù)據(jù)的“可深度專業(yè)化通才”。其在三個層面進行了深度創(chuàng)新：

基礎層（數(shù)據(jù)適配）：針對科學數(shù)據(jù)的多模態(tài)異構(gòu)性，提出了科學專用架構(gòu)。采用動態(tài)分詞器與專用編碼器，原生支持DNA序列、蛋白質(zhì)結(jié)構(gòu)、時間序列等10余種模態(tài)。相較于GPT-OSS等通用模型，其在科學數(shù)據(jù)上的壓縮率提升了1.7倍，并基于2.5萬億高質(zhì)量科學Token進行了預訓練；

融合層（混合獎勵）：構(gòu)建了混合獎勵框架（MoR），將多種強化學習算法與熵機制整合。該框架平衡了計算、推理、實驗設計等不同技能所需的獎勵信號，有效緩解了特定任務過擬合問題，增強了模型在跨領域復雜推理中的泛化能力；

進化層（交互專精）：依托InternBootCamp框架，模型在超1000項專業(yè)任務（如逆合成分析）中與模擬器進行交互學習，實現(xiàn)了大規(guī)模的任務專精。

測評結(jié)果顯示，Intern-S1在通用能力上對齊SOTA開源模型，而在涵蓋化學、生物、材料等9大領域的科學性能上，全面超越了包括GPT-5和Grok-4在內(nèi)的頂尖閉源模型。

Intern-Discovery：全流程科學智能體系統(tǒng)

如果說Intern-S1是科學大腦，那么Intern-Discovery則是具備行動力的科學智能體。該平臺構(gòu)建了一個將Intern-S1與海量數(shù)據(jù)、2000+專業(yè)工具及濕實驗室驗證環(huán)境深度融合的智能體系統(tǒng)，實現(xiàn)了從假設生成到實驗驗證的閉環(huán)。

Intern-Discovery的核心邏輯在于建立“智能體生成”與“智能體驗證”的雙向循環(huán)：前者主動洞察現(xiàn)象、提出假設并設計實驗；后者通過仿真與物理實驗驗證假設，并將反饋回傳以修正認知。

為支撐這一復雜流程，系統(tǒng)引入了兩大關(guān)鍵支柱：

科學智能上下文協(xié)議（SCP）?：針對現(xiàn)有MCP協(xié)議在科學資源整合上的不足，SCP定義了領域特定的結(jié)構(gòu)與協(xié)調(diào)機制，實現(xiàn)了對數(shù)據(jù)集、濕實驗室設備及復雜工作流的標準化調(diào)度與全生命周期管理。

分層記憶模塊：通過策略程序記憶（SPM）、任務情景記憶（TEM）與語義知識記憶（SKM）的協(xié)同，系統(tǒng)能夠沉淀高階研究模式、記錄實驗細節(jié)并整合長期知識，從而在持續(xù)迭代中避免邏輯幻覺。

案例實證：重塑科學發(fā)現(xiàn)流程

Intern-Discovery已在氣候科學與生物醫(yī)學領域展現(xiàn)出“革命性工具”的潛力。

在氣候科學領域，面對降水預測中極端復雜的非線性交互，Intern-Discovery自主調(diào)用30余種工具，分析了20年的多模態(tài)數(shù)據(jù)。它寫了4000多行專業(yè)代碼，成功發(fā)現(xiàn)了被人類專家忽略的水汽與動力項關(guān)聯(lián)，并推導出一個簡潔的新型顯式非線性方程。該方程不僅形式優(yōu)雅簡潔，且顯著提升了模擬精度，有效修正了長期存在的系統(tǒng)性偏差，證明了智能體在理論構(gòu)建層面的創(chuàng)造力?。

Intern-Discovery在氣候科學的應用案例

在生物醫(yī)學領域，虛擬疾病生物學家“元生”通過模仿人類科學家的思維模板，整合遺傳學、蛋白質(zhì)組學及臨床文獻等多源數(shù)據(jù)。即便在數(shù)據(jù)稀疏條件下，它仍成功發(fā)現(xiàn)并驗證了具有高臨床潛力的隱藏靶點，展示了從數(shù)據(jù)到機制、從假說到驗證的全流程智能化能力。

Intern-Discovery在生物醫(yī)學的應用案例

從Intern-S1的底層推理突破到Intern-Discovery的系統(tǒng)級應用，我們正逐步構(gòu)建起一套覆蓋科學發(fā)現(xiàn)全周期的AGI4S基礎設施。這不僅是工具的革新，更是科研范式的重塑——讓人工智能真正成為推動科學邊界拓展的合作伙伴。

行動召喚：共拓新世界藍圖

綜上所述，我們正處在實現(xiàn)AGI的前夕，若AGI=通專融合（Specialized Generalist），則可深度專業(yè)化的通用模型（Specializable Generalist）是實現(xiàn)AGI的可行路徑，而『智者』SAGE的三層技術(shù)框架正是驅(qū)動后者發(fā)展的核心架構(gòu)。

下一個前沿陣地是科學發(fā)現(xiàn)——它既是推理智能的終極試煉場，也是“通專融合”的驗證舞臺，大規(guī)模推理將賦能科學發(fā)現(xiàn)，科學發(fā)現(xiàn)亦將反哺推理能力的進化。

Intern-S1與Intern-Discovery是邁向該方向的首步實踐，但這一切僅僅是初始的雛形。如果將『智者』SAGE架構(gòu)比作一張新世界的地圖，我們目前已建立了很好的初步驗證與很多尖兵前哨站，但這張地圖上仍存在廣闊的“空白區(qū)域”。

架構(gòu)已經(jīng)就緒，但畫卷仍存在大片留白。如果這些初步進展激起了你的興趣，我邀請你深入閱讀我們的論文與代碼——它們都是開源的。但更重要的是，我邀請志同道合者與我們一同填補這些空白，共同構(gòu)建完整的藍圖。

謝謝！

本次報告核心要點總結(jié)

參考文獻

① Vaswani A, et al. Attention is all you need [C]// Advances in neural information processing systems, 2017, 30.

② Zhang K, Qi B, Zhou B. Towards building specialized generalist ai with system 1 and system 2 fusion [J]. arXiv preprint arXiv:2407.08642, 2024.

③ Qi B, Zhang K, Tian K, ..., Zhou B. Large language models as biomedical hypothesis generators: a comprehensive evaluation [C]. COLM, 2024.

④ Zhou B. Building AGI through Specialized Generalist AI: pathways and key issues [J]. Communications of CCF, 2025, 21(1): 54-62.

⑤ Cao J, Wang J, Wei R, ..., Zhou B, Lin Z. Memory Decoder: A Pretrained, Plug-and-Play Memory for Large Language Models [J]. arXiv preprint arXiv:2508.09874, 2025.

⑥ Zhang K, Zuo Y, He B, ..., Zhou B. A survey of reinforcement learning for large reasoning models [J]. arXiv preprint arXiv:2509.08827, 2025.

⑦ Cui G, Yuan L, Wang Z, ..., Zhou B, Ding N. Process Reinforcement through Implicit Rewards [J]. arXiv preprint arXiv:2502.01456, 2025.

⑧ Cui G, Zhang Y, Chen J, ..., Zhou B, Ding N. The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models [J]. arXiv preprint arXiv:2505.22617, 2025.

⑨ Zhu X, Cheng D, Zhang D, ..., Zhou B, Mei H, Lin Z. FlowRL: Matching reward distributions for LLM reasoning [J]. arXiv preprint arXiv:2509.15207, 2025.

⑩ Zuo Y, Zhang K, Sheng L, ..., Ding N, Zhou B. TTRL: Test-Time Reinforcement Learning [C]// NeurIPS, 2025.

? Li P, Ye J, Chen Y, ..., Zhou B, Chen K. InternBootcamp Technical Report: Boosting LLM Reasoning with Verifiable Task Scaling [J]. arXiv preprint arXiv:2508.08636, 2025.

? Li H, Zuo Y, Yu J, ..., Zhou B, Ding N. SimpleVLA-RL: Scaling VLA Training via Reinforcement Learning [J]. arXiv preprint arXiv:2509.09674, 2025.

? Shanghai Artificial Intelligence Laboratory. Probing Scientific General Intelligence of LLMs with Scientist-Aligned Workflows [J]. arXiv preprint arXiv:2512.16969v1, 2025.

? Zhou B, Ding N, Bai L, Zhou H. Advancing AI for science: From the revolution of tools to the tools for revolution [J]. AI Open, 2025, 6: 323-328.

? Shanghai AI Laboratory. INTERN-S1: A SCIENTIFICMULTIMODAL FOUNDATION MODEL [J]. arXiv preprint arXiv:2508.15763, 2025.

? Jiang Y, Lou W, Wang L, ..., Zhou B. SCP: Accelerating Discovery with a Global Web of Autonomous Scientific Agents [J]. arXiv preprint arXiv:2512.24189, 2025.

? Guo Z, Wang J, Ling F, ..., Zhou B, Bai L. A Self-Evolving AI Agent System for Climate Science [J]. arXiv preprint arXiv:2507.17311v3, 2025.■

掃碼入群可參加全年至少12場精彩閉門研討

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.