国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

頂尖模型離“科學(xué)家”還差得遠(yuǎn)?AI4S亟待邁向2.0時(shí)代

0
分享至

機(jī)器之心發(fā)布

當(dāng)前,科學(xué)智能(AI for Science)被稱之為人工智能的 “皇冠”,以 AlphaFold 為代表的 AI for Science(AI4S)技術(shù)在蛋白質(zhì)折疊、氣象預(yù)測(cè)等特定領(lǐng)域取得了里程碑式成就,但近期《Nature》發(fā)表的研究指出,過度依賴現(xiàn)有深度學(xué)習(xí)模型可能局限新知識(shí)的探索邊界,甚至在某種程度上阻礙創(chuàng)新。

一項(xiàng)來自上海人工智能實(shí)驗(yàn)室(上海 AI Lab)的系統(tǒng)性評(píng)估①進(jìn)一步揭示了當(dāng)前前沿模型的短板。來自 10 個(gè)不同科學(xué)領(lǐng)域的 100 位科學(xué)家為模型構(gòu)建了評(píng)測(cè)題目,結(jié)果顯示:前沿模型在通用科學(xué)推理任務(wù)中得分可達(dá) 50 分(滿分 100),但在各類專業(yè)推理任務(wù)(如專項(xiàng)文獻(xiàn)檢索、具體實(shí)驗(yàn)方案設(shè)計(jì))中,得分驟降至 15-30 分。

“我們已身處 “通用人工智能”(AGI)前夕,但仍面臨重要環(huán)節(jié)的缺失 —— 通專融合的智能。我們亟需推動(dòng)科學(xué)智能從 1.0 向 2.0 迭代,即從 AI4S 邁向 AGI4S! 日前,上海人工智能實(shí)驗(yàn)室主任、首席科學(xué)家周伯文在第四十屆人工智能協(xié)會(huì)年會(huì)(AAAI 2026)發(fā)表特邀報(bào)告時(shí)提出,科學(xué)發(fā)現(xiàn)是 AI 的下一個(gè)前沿陣地 —— 它既是推理智能的終極試煉場(chǎng),也是 “通專融合 AGI” 的驗(yàn)證舞臺(tái)。若 AGI = 通專融合(Specialized Generalist),則可深度專業(yè)化通用模型(Specializable Generalist)是實(shí)現(xiàn) AGI 的可行路徑。

除了分享前沿觀點(diǎn),周伯文還詳細(xì)介紹了上海 AI 實(shí)驗(yàn)室近年來開展的前沿探索與實(shí)踐,包括驅(qū)動(dòng) “通專融合” 發(fā)展的技術(shù)架構(gòu) ——“智者”SAGE(Synergistic Architecture for Generalizable Experts),其包含基礎(chǔ)、融合與進(jìn)化三個(gè)層次,并可雙向循環(huán)實(shí)現(xiàn)全棧進(jìn)化;支撐 AGI4S 探索的兩大基礎(chǔ)設(shè)施“書生”科學(xué)多模態(tài)大模型 Intern-S1、“書生”科學(xué)發(fā)現(xiàn)平臺(tái) Intern-Discovery 及一系列相關(guān)階段性進(jìn)展。

演講最后,周伯文向會(huì)場(chǎng)內(nèi)外的觀眾發(fā)出行動(dòng)召喚:架構(gòu)已經(jīng)就緒,但畫卷仍存大片留白,期待與更多同行者共拓藍(lán)圖!

以下為報(bào)告全文,略有修訂。



演進(jìn)預(yù)判:從 ANI 到 AGI 的歷史跨越

人工智能的發(fā)展歷程并非線性堆疊,而是呈現(xiàn)出明顯的階段性躍遷;仡 AI 發(fā)展的歷史坐標(biāo),有助于我們厘清當(dāng)前所處的位置及未來的方向。

早在 1996 年涉足 AI 研究之初,我便開始思考智能的本質(zhì)。特別是在擔(dān)任 IBM 人工智能基礎(chǔ)研究院院長(zhǎng)期間,首次提出了通往通用人工智能(AGI)的戰(zhàn)略路線圖,明確界定了 AI 發(fā)展的三個(gè)關(guān)鍵階段:ANI(狹義人工智能)、ABI(廣義人工智能)與 AGI,并給出了各自明確定義。

我當(dāng)時(shí)的判斷是 ANI 在 2016 年已趨于成熟,而通往 AGI 的必經(jīng)之路并非直接躍遷,而是必須率先實(shí)現(xiàn)具備跨領(lǐng)域泛化能力的 ABI。我們認(rèn)為這一跨越需要技術(shù)范式的根本性變革,最少包括三個(gè)方面:即從有監(jiān)督學(xué)習(xí)轉(zhuǎn)向自監(jiān)督學(xué)習(xí),從人類分割任務(wù)級(jí)聯(lián)式系統(tǒng)轉(zhuǎn)向端到端架構(gòu),從判別式工具進(jìn)化為生成式助手。

六年多后 ChatGPT 的問世,第一次驗(yàn)證了人工智能系統(tǒng)在以上三方面的同時(shí)達(dá)成,實(shí)質(zhì)上宣告了 ABI 階段的到來。這一歷史性突破驗(yàn)證了規(guī)模法則(Scaling Law)的有效性 —— 即通過擴(kuò)大 Transformer 架構(gòu)并將 “下一個(gè)詞預(yù)測(cè)” 作為優(yōu)化目標(biāo),人類首次實(shí)現(xiàn)了對(duì)世界知識(shí)的壓縮。值得一提的是,我和團(tuán)隊(duì)早在 2016 年提出的關(guān)于 “多頭自注意力” 機(jī)制的研究,作為 “與下游任務(wù)無關(guān)”(也就是 “預(yù)訓(xùn)練”)的自然語言長(zhǎng)上下文壓縮表征的首批成果之一,被開創(chuàng)性的 Transformer 論文引用與認(rèn)可②,為這一預(yù)訓(xùn)練時(shí)代的壓縮智能奠定了重要的理論基石。





重訪路線圖(2016 年):通往 AGI 之路

戰(zhàn)略路徑:通專融合與科學(xué)發(fā)現(xiàn)的終極試煉

隨著 Scaling Law 賦予了大語言模型廣泛的泛化能力(ABI),在 2023 年初我們提出了一個(gè)關(guān)鍵的戰(zhàn)略設(shè)問:通往 AGI 的下一步,僅僅是計(jì)算量的堆疊嗎?對(duì)這些設(shè)問的思考促使我在 2023 年提出了“通專融合” 路徑。核心思想是如何動(dòng)態(tài)實(shí)行融合人類認(rèn)知思維的系統(tǒng) 1 和系統(tǒng) 2,以應(yīng)對(duì)各種現(xiàn)實(shí)世界的任務(wù)。

重新定義 AGI 之路

過去 70 年 AI 的發(fā)展長(zhǎng)期在 “專業(yè)性” 與 “通用性” 兩個(gè)維度上分別進(jìn)展。以 AlphaFold 為代表的早期系統(tǒng)是極致的 “專家”,在特定領(lǐng)域超越人類卻缺乏遷移能力;而當(dāng)前的大語言模型則是博聞廣識(shí)的 “通才”,雖具廣度但在處理復(fù)雜專業(yè)任務(wù)時(shí)往往難以企及專家深度和缺失關(guān)鍵細(xì)節(jié)。真正的 AGI 必須打破這種二元對(duì)立,構(gòu)建一種能夠動(dòng)態(tài)融合 “系統(tǒng) 1”(直覺式快思考)與 “系統(tǒng) 2”(邏輯式慢思考)的智能架構(gòu) —— 即在保持通用認(rèn)知基座的同時(shí),能夠在任意特定任務(wù)上通過持續(xù)學(xué)習(xí)與深度推理實(shí)現(xiàn)專家級(jí)的專精(闡述這一思路系統(tǒng)的立場(chǎng)論文已于 2024 年在 ArXiv 上發(fā)表)③。



2024 年末 OpenAI o1 與 2025 年初 DeepSeek-R1 的出現(xiàn),通過在大模型之上應(yīng)用強(qiáng)化學(xué)習(xí)顯著提升邏輯推理能力,有力地驗(yàn)證了關(guān)于 “通專融合” 路徑預(yù)判的正確性。2025 年 10 月,約書亞?本吉奧教授等人提出了 AGI 的定義,將其分解為十種核心通用能力以及眾多狹義的專業(yè)能力。若能全面達(dá)成這些能力,即意味著實(shí)現(xiàn)了 AGI。這一定義與我們“通專融合是通往 AGI 的戰(zhàn)略路徑”的觀點(diǎn)高度吻合 —— 這表明該路徑正日益成為整個(gè)學(xué)術(shù)社區(qū)的普遍共識(shí)。

科學(xué)發(fā)現(xiàn):推理智能的終極前沿

下一個(gè)前沿領(lǐng)域是什么?我認(rèn)為是科學(xué)發(fā)現(xiàn)(Scientific Discovery, SD)。在我看來,除了科學(xué)智能(AI for Science, AI4S)所承諾的治愈癌癥等諸多益處之外,科學(xué)發(fā)現(xiàn)更是推理智能的終極考驗(yàn),因此也是 AI 探索的絕對(duì)前沿?茖W(xué)發(fā)現(xiàn)是已知與未知之間復(fù)雜的相互作用,涵蓋了從假設(shè)生成、實(shí)驗(yàn)驗(yàn)證到理論總結(jié)的全過程。其對(duì) AI 提出了三重極限挑戰(zhàn):

  • 已知的未知:典型的如組合爆炸,比如分子設(shè)計(jì)或材料科學(xué)的搜索空間高達(dá) 10^60 量級(jí),遠(yuǎn)超傳統(tǒng)遍歷能力;
  • 未知的未知:科學(xué)探索本質(zhì)上是對(duì)分布外(OOD)知識(shí)的泛化,是對(duì)模型創(chuàng)造力的真正考驗(yàn);
  • 稀疏與延遲獎(jiǎng)勵(lì):科學(xué)實(shí)驗(yàn)的周期長(zhǎng)、反饋慢,是對(duì)強(qiáng)化學(xué)習(xí)算法的嚴(yán)峻測(cè)試④。

因此,科學(xué)發(fā)現(xiàn)不僅是 AI 的最佳應(yīng)用場(chǎng)景,更是驅(qū)動(dòng) “通專融合” 邁向 AGI 的根本動(dòng)力。

接下來,我想分享我們?yōu)閼?yīng)對(duì)這一挑戰(zhàn)提出的技術(shù)架構(gòu) ——“智者”SAGE。

技術(shù)架構(gòu):遞歸循環(huán)的通用專家協(xié)同架構(gòu)“智者”SAGE

為將 “通專融合” 戰(zhàn)略轉(zhuǎn)化為可落地的技術(shù)方案,上海 AI 實(shí)驗(yàn)室在 2024 年提出了“智者”SAGE 架構(gòu)—— 其并非若干模型的簡(jiǎn)單堆砌,而是一個(gè)旨在彌合廣泛泛化與深度專精鴻溝的統(tǒng)一認(rèn)知生態(tài)系統(tǒng)⑤。該架構(gòu)由三個(gè)邏輯耦合的層次構(gòu)成:

  • 底部的基礎(chǔ)模型層致力于結(jié)構(gòu)上的重構(gòu),通過將知識(shí)儲(chǔ)備與推理能力解耦,為高階因果推理提供更靈活的 “畫布”;
  • 中間的融合協(xié)同層通過密集過程獎(jiǎng)勵(lì)機(jī)制,動(dòng)態(tài)協(xié)調(diào)直覺式 “快思考” 與邏輯性 “慢思考”,精準(zhǔn)把控泛化與專精的節(jié)奏;
  • 頂層的探索進(jìn)化層則賦予 AI 主動(dòng)能動(dòng)性,完成從被動(dòng)數(shù)據(jù)擬合到主動(dòng)環(huán)境探索的范式轉(zhuǎn)變。

至關(guān)重要的是,SAGE 絕非靜態(tài)的架構(gòu),而是一個(gè)遞歸運(yùn)行的活體生態(tài)。它通過雙向循環(huán)實(shí)現(xiàn)全棧進(jìn)化:一方面,底層解耦的表征自下而上地支撐推理策略的生成;另一方面,頂層主動(dòng)發(fā)現(xiàn)獲得的高水平反饋?zhàn)陨隙禄亓,將探索中?“未知” 轉(zhuǎn)化為新的訓(xùn)練信號(hào)。這種閉環(huán)機(jī)制確保了 SAGE 不僅能實(shí)現(xiàn)模型參數(shù)的優(yōu)化,更能推動(dòng)認(rèn)知策略本身的持續(xù)進(jìn)化。



遞歸循環(huán)的通專融合技術(shù)架構(gòu)“智者”(SAGE)

基礎(chǔ)模型層:知識(shí)與推理的解構(gòu)與動(dòng)態(tài)耦合

SAGE 的底層致力于解決現(xiàn)有 LLM 將 “事實(shí)記憶” 與 “邏輯推理” 混淆的問題。以記憶解碼器(Memory Decoder)⑥為例,它針對(duì)性地解決了現(xiàn)有大模型架構(gòu)的兩大頑疾:一是檢索增強(qiáng)生成(RAG)在長(zhǎng)文本語境推理中存在的顯著延遲與高昂工程成本;二是領(lǐng)域自適應(yīng)全參數(shù)微調(diào)所帶來的算力消耗及災(zāi)難性遺忘風(fēng)險(xiǎn)。

作為一種預(yù)訓(xùn)練、即插即用的獨(dú)立組件,記憶解碼器創(chuàng)新性地采用與基礎(chǔ)模型并行運(yùn)行并融合輸出分布的機(jī)制。它首次用緊湊的參數(shù)化模型替代了傳統(tǒng)非參數(shù)檢索器,在無需修改基礎(chǔ)模型參數(shù)、無在線檢索開銷的前提下,實(shí)現(xiàn)了高效的知識(shí)注入。實(shí)驗(yàn)數(shù)據(jù)顯示,其推理開銷僅為基礎(chǔ)模型的 1.28 倍,顯著低于現(xiàn)有主流方案。這一設(shè)計(jì)成功填補(bǔ)了 “高密度知識(shí)供給” 與 “推理引擎解耦” 之間的技術(shù)鴻溝,在 SAGE 框架中實(shí)現(xiàn)了推理能力與長(zhǎng)期記憶的 “解耦但可集成的推理與知識(shí)”,同時(shí)強(qiáng)化了 “長(zhǎng)期記憶” 能力。







記憶解碼器:面向大語言模型的預(yù)訓(xùn)練、即插即用記憶體

強(qiáng)化學(xué)習(xí):連接基礎(chǔ)層與進(jìn)化層的紐帶

強(qiáng)化學(xué)習(xí)(RL)是連接 SAGE 基礎(chǔ)層與融合層、進(jìn)化層的紐帶,也是實(shí)現(xiàn) “通專融合” 的核心動(dòng)力之一;仡櫰溲葸M(jìn)歷程,RL 經(jīng)歷了從早期封閉環(huán)境下的博弈(如 AlphaGo),演進(jìn)至通過 RLHF 實(shí)現(xiàn)人類偏好對(duì)齊,目前正處于以 o1 和 DeepSeek-R1 為代表的可驗(yàn)證推理(RLVR)階段,并終將邁向面向物理世界與科學(xué)發(fā)現(xiàn)的開放式體驗(yàn)學(xué)習(xí)新紀(jì)元。





適用于可通專融合的強(qiáng)化學(xué)習(xí)及其三大支柱

在微觀機(jī)制上,RL 被歸納為三大支柱:獎(jiǎng)勵(lì)設(shè)計(jì)作為 “指南針”,通過稀疏或密集信號(hào)界定模型專精的目標(biāo);策略優(yōu)化作為 “引擎”,涵蓋從 PPO 到 GRPO 的算法迭代,驅(qū)動(dòng)模型高效更新;采樣與探索則決定了模型在龐大搜索空間中的導(dǎo)航路徑⑦。

鑒于不同任務(wù)對(duì) RL 配置的需求各異,構(gòu)建系統(tǒng)的核心技術(shù)挑戰(zhàn)在于統(tǒng)一:我們?nèi)绾螌⒍鄻有缘淖罴训莫?jiǎng)勵(lì)機(jī)制、策略優(yōu)化與采樣探索整合為一個(gè)協(xié)調(diào)一致的系統(tǒng),從而打造出真正的 “可深度專業(yè)化通用模型”?

融合協(xié)同層:強(qiáng)化學(xué)習(xí)驅(qū)動(dòng)的深度推理進(jìn)化

在 SAGE 架構(gòu)中,融合協(xié)同層承載著協(xié)調(diào) “直覺快思考” 與 “邏輯慢思考” 的核心職能,而強(qiáng)化學(xué)習(xí)(RL)則是實(shí)現(xiàn)這一動(dòng)態(tài)協(xié)同的關(guān)鍵橋梁。為了構(gòu)建一個(gè)真正的 “可深度專業(yè)化通用模型”,必須克服傳統(tǒng) RL 在復(fù)雜推理任務(wù)中面臨的三大核心挑戰(zhàn):高昂的監(jiān)督成本、訓(xùn)練過程中的熵坍縮以及單一路徑的模式崩潰。為此,我們?cè)谠搶右肓巳?xiàng)具有范式意義的算法創(chuàng)新,旨在構(gòu)建密集的獎(jiǎng)勵(lì)機(jī)制、維持持續(xù)的探索能力以及激發(fā)推理路徑的多樣性。

隱式獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)算法(PRIME):突破高密度監(jiān)督的成本悖論

高度專家化的模型與人類專家在學(xué)習(xí)機(jī)制上具有相似性:專家化模型在訓(xùn)練過程中需要更密集的反饋信息。對(duì)于 “通專融合” 大模型而言,要解決科學(xué)發(fā)現(xiàn)中的長(zhǎng)鏈條推理問題,僅依賴最終結(jié)果的稀疏獎(jiǎng)勵(lì)往往捉襟見肘,模型急需密集的逐步監(jiān)督信號(hào)。然而,傳統(tǒng)的解決方案依賴于過程獎(jiǎng)勵(lì)模型(PRM),這要求對(duì)海量推理步驟進(jìn)行人工細(xì)粒度標(biāo)注,其成本之高昂,使得規(guī);瘮U(kuò)展幾乎成為不可能。

針對(duì)這一 “高密度監(jiān)督需求” 與 “高昂標(biāo)注成本” 之間的矛盾,我們提出了 PRIME 算法⑧ ,旨在從理論層面推導(dǎo)并獲取 “免費(fèi)” 的過程獎(jiǎng)勵(lì)。其核心洞察在于,利用策略模型與參考模型之間的統(tǒng)計(jì)差異。通過將模型訓(xùn)練目標(biāo)設(shè)定為基于兩者對(duì)數(shù)似然比的結(jié)果獎(jiǎng)勵(lì)模型,我們從數(shù)學(xué)方面證明,該模型能夠隱式地習(xí)得 Q 函數(shù)。這意味著,智能體在無需顯式訓(xùn)練龐大的 PRM 模型的情況下,即可在推理的每一個(gè)步驟中,通過計(jì)算動(dòng)作在當(dāng)前狀態(tài)下的優(yōu)劣,直接推導(dǎo)出密集的、逐步的獎(jiǎng)勵(lì)信號(hào)。





隱式獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)算法(PRIME)

這一創(chuàng)新帶來了多維度的顯著優(yōu)勢(shì):

  • 計(jì)算效率的飛躍:與 Math-Shepherd 等依賴獨(dú)立 PRM 模型的方法相比,PRIME 在推理階段無需額外的模型調(diào)用開銷,直接利用生成模型本身的概率分布即可獲得反饋,極大地提升了計(jì)算效率;
  • 系統(tǒng)架構(gòu)的可擴(kuò)展性:在 SAGE 的系統(tǒng)實(shí)現(xiàn)中,PRIME 方案展現(xiàn)出極強(qiáng)的工程韌性。我們將策略模型與隱式 PRM 進(jìn)行聯(lián)動(dòng),依托結(jié)果驗(yàn)證器和前序步驟產(chǎn)出的自由過程獎(jiǎng)勵(lì),構(gòu)建了高效的在線更新閉環(huán);
  • 極致的數(shù)據(jù)效率:實(shí)驗(yàn)表明,PRIME 方案僅需 SOTA 模型 1/10 的訓(xùn)練數(shù)據(jù)量,即可達(dá)到相當(dāng)?shù)男阅芩剑瑯O大地降低了對(duì)高質(zhì)量標(biāo)注數(shù)據(jù)的依賴。

基準(zhǔn)測(cè)試結(jié)果有力地驗(yàn)證了 PRIME 的有效性:在 AIME 2024 數(shù)據(jù)集上,模型準(zhǔn)確率提升了 23.4%;在 AMC 數(shù)據(jù)集上提升了 27.7%;在 MATH-500 等權(quán)威測(cè)試中也取得了顯著增長(zhǎng)。這一系列數(shù)據(jù)充分證明,通過隱式機(jī)制構(gòu)建的稠密獎(jiǎng)勵(lì),能夠有效驅(qū)動(dòng)模型突破復(fù)雜推理的瓶頸。

強(qiáng)化學(xué)習(xí)的熵機(jī)制:避免 “過度自信” 導(dǎo)致探索止步

專家化模型的訓(xùn)練不僅需要反饋,更需要持續(xù)不斷的學(xué)習(xí)。在深入研究用于推理的強(qiáng)化學(xué)習(xí)時(shí),我們揭示了一個(gè)阻礙模型進(jìn)化的根本性障礙 ——熵坍縮。通俗地講,這等同于解決如何讓通用模型在專家化的過程中,始終保持探索與好奇心,讓模型和頂級(jí)人類專家一樣在專業(yè)問題的挑戰(zhàn)上避免過早過分自信,而是 “stay hungry, stay foolish”(求知若饑,虛心若愚)。

在訓(xùn)練過程中,隨著模型性能的初步提升,策略熵往往會(huì)急劇下降。這種下降意味著模型對(duì)其輸出的置信度快速提高,導(dǎo)致其過早地收斂于局部最優(yōu)解,從而喪失了探索更優(yōu)推理路徑的可能性。實(shí)驗(yàn)數(shù)據(jù)顯示,熵的消耗主要集中在訓(xùn)練的前數(shù)百步,此后模型的性能提升便迅速進(jìn)入邊際效益遞減階段。這種現(xiàn)象極似人類認(rèn)知中的 “過度自信”,即因自滿而停止了對(duì)問題細(xì)微差異的主動(dòng)探索 —— 而這種主動(dòng)探索,恰恰是通用模型進(jìn)化為能捕捉深層規(guī)律的 “專精模型” 的關(guān)鍵所在。

為了解決這一問題,我們深入探究了熵與獎(jiǎng)勵(lì)之間的權(quán)衡機(jī)制,并發(fā)現(xiàn)了一個(gè)關(guān)鍵的定量關(guān)系:驗(yàn)證性能(R)與熵(H)呈現(xiàn)顯著的對(duì)數(shù)線性相關(guān)⑨。這一簡(jiǎn)潔而深刻的結(jié)論為訓(xùn)練方案的優(yōu)化指明了方向:構(gòu)建可擴(kuò)展推理 RL 框架的難點(diǎn),不在于單純堆砌訓(xùn)練時(shí)長(zhǎng),而在于對(duì)熵消耗的精細(xì)化管理,確保模型在訓(xùn)練全周期內(nèi)保留足夠的不確定性,以驅(qū)動(dòng)持續(xù)的探索。

我們提出了一種精準(zhǔn)化、局部化且輕量化的熵控制方案:針對(duì)這類標(biāo)記開展選擇性調(diào)控(如采用 Clip-Cov、KL-Cov 等方法),能夠達(dá)成局部、輕量的熵控制效果,既保障模型探索性不受損,又不會(huì)干擾正常優(yōu)化流程。該方法實(shí)現(xiàn)了對(duì)熵的局部控制,既保障了模型的探索性不受損,又避免了對(duì)正常優(yōu)化流程的干擾。應(yīng)用該策略后,模型在保持高探索能力的同時(shí),顯著提升了下游任務(wù)的準(zhǔn)確率。這一方法已被實(shí)驗(yàn)室的“書生”科學(xué)多模態(tài)大模型 Intern-S1 等多個(gè)頭部機(jī)構(gòu)采納應(yīng)用,其相關(guān)成果更由斯坦福 Yejin Choi 教授在 2025 年神經(jīng)信息處理系統(tǒng)大會(huì)(NeurIPS)上進(jìn)行了重點(diǎn)闡述。





強(qiáng)化學(xué)習(xí)的熵機(jī)制

匹配大語言模型推理的獎(jiǎng)勵(lì)分布(FlowRL):實(shí)現(xiàn)專家化模型能力多元化

真正的專家不僅能解決問題,更能能為同一個(gè)問題提供多種解決方案,專家化模型亦是如此。然而,現(xiàn)有的標(biāo)準(zhǔn)強(qiáng)化學(xué)習(xí)方法(如 PPO、GRPO)普遍以 “獎(jiǎng)勵(lì)最大化” 為單一目標(biāo)。這種導(dǎo)向在復(fù)雜推理任務(wù)中極易導(dǎo)致模式崩潰,即模型傾向于反復(fù)收斂至單一的、已知的成功路徑,而忽略了其他潛在的更優(yōu)解或多樣化解法。

傳統(tǒng) RL 方法生成的分布與目標(biāo)分布之間的 KL 散度高達(dá) 8.68,表現(xiàn)為極端的尖峰,意味著模型探索空間的極度狹窄。為了賦予模型真正的專家級(jí)思維多樣性,我們?cè)谌诤蠈右肓薋lowRL⑩,這是一項(xiàng)借鑒生成流網(wǎng)絡(luò)(GFlowNets)思想的創(chuàng)新工作,標(biāo)志著強(qiáng)化學(xué)習(xí)優(yōu)化邏輯的范式轉(zhuǎn)變。

FlowRL 的核心在于將學(xué)習(xí)目標(biāo)從 “獎(jiǎng)勵(lì)最大化” 重構(gòu)為 “分布匹配”。模型不再僅僅追逐單一的高分答案,而是致力于學(xué)習(xí)所有有效推理路徑的概率分布。

  • 分布擬合:FlowRL 生成的分布能夠捕捉目標(biāo)分布中的絕大多數(shù)概率質(zhì)量,擬合多個(gè)模態(tài)。如左側(cè)平滑曲線所示,其 KL 散度大幅降低至 0.11,顯著優(yōu)于傳統(tǒng)方法;
  • 多樣性生成:習(xí)得的策略在推理過程中能夠自然地促進(jìn)更多樣化路徑的生成,從而在面對(duì) “未知的未知” 時(shí)具備更強(qiáng)的魯棒性。

案例顯示,在處理同一道數(shù)學(xué)推理題時(shí),GRPO 模型陷入了思維死循環(huán),推理過程重復(fù)且最終未能求解;而 FlowRL 模型則成功探索了多樣化的推理路徑,最終得出了正確答案 721。

整體實(shí)驗(yàn)結(jié)果進(jìn)一步證實(shí)了 FlowRL 的優(yōu)越性:

  • 準(zhǔn)確率提升:在 32B 模型的訓(xùn)練條件下,F(xiàn)lowRL 在數(shù)學(xué)推理任務(wù)中取得了 48.39% 的準(zhǔn)確率,較 GRPO 提升 10 個(gè)百分點(diǎn),較 PPO 提升 5.1 個(gè)百分點(diǎn);
  • 競(jìng)賽級(jí)表現(xiàn):基于純開源數(shù)據(jù)訓(xùn)練后,F(xiàn)lowRL 在 CodeForces 平臺(tái)的評(píng)級(jí)達(dá)到 1549 分,性能直逼 o1-preview 水平;
  • 多樣性倍增:FlowRL 生成的解決方案多樣性評(píng)分高達(dá) 2.28,約為 PPO 的 2 倍。





匹配大語言模型推理的獎(jiǎng)勵(lì)分布(FlowRL)

探索進(jìn)化層:從被動(dòng)擬合到主動(dòng)認(rèn)知探索

SAGE 架構(gòu)的頂層探索進(jìn)化層承載著通往 AGI 最關(guān)鍵的愿景 —— 打造一個(gè)具備自演化能力的 “可深度專業(yè)化通用模型”。這一層的核心挑戰(zhàn)在于,如何讓通用模型不僅在單一任務(wù)上實(shí)現(xiàn)深度專精,更能在大規(guī)模任務(wù)集乃至復(fù)雜的物理世界中,通過持續(xù)的交互與反饋實(shí)現(xiàn)自我迭代。為了應(yīng)對(duì)這一挑戰(zhàn),我們從信號(hào)(Signal)、規(guī)模(Scale)與落地(Ground)三個(gè)關(guān)鍵維度出發(fā),構(gòu)建了一套完整的進(jìn)化機(jī)制。

信號(hào)維度:測(cè)試時(shí)強(qiáng)化學(xué)習(xí)(TTRL)與自我進(jìn)化

在推理測(cè)試階段,模型面臨的最大困境在于訓(xùn)練數(shù)據(jù)與測(cè)試數(shù)據(jù)之間的分布偏移。一旦失去真實(shí)標(biāo)簽的引導(dǎo),傳統(tǒng)模型便停止了學(xué)習(xí)步伐。然而,真正的 “專家”—— 如同人類物種一樣 —— 應(yīng)當(dāng)具備在任何未知境況下持續(xù)學(xué)習(xí)適應(yīng)的能力。

針對(duì)這一痛點(diǎn),我們提出了測(cè)試時(shí)強(qiáng)化學(xué)習(xí)(Test-Time Reinforcement Learning, TTRL)框架? ,其核心洞察建立在一個(gè)簡(jiǎn)潔的假設(shè)之上:共識(shí)即意味著正確性(Consensus implies correctness)。

具體而言,TTRL 在推理過程中對(duì)多個(gè)候選解決方案進(jìn)行采樣,并將多數(shù)投票的結(jié)果作為 “代理獎(jiǎng)勵(lì)”,進(jìn)而利用測(cè)試數(shù)據(jù)流直接對(duì)模型參數(shù)進(jìn)行在線更新。這一方法在技術(shù)實(shí)現(xiàn)上具備極致的輕量化特性,僅需不到 20 行代碼,即可將任何推理軌跡轉(zhuǎn)化為有效的訓(xùn)練信號(hào),實(shí)現(xiàn)了模型在無監(jiān)督環(huán)境下的 “自我舉證” 與 “自我增強(qiáng)”。



測(cè)試時(shí)強(qiáng)化學(xué)習(xí)與自我進(jìn)化(TTRL)

實(shí)測(cè)數(shù)據(jù)驗(yàn)證了 TTRL 的驚人潛力:

  • 性能躍升:在 AIME 2024 數(shù)據(jù)集上,搭載 TTRL 的 Qwen-2.5-Math-7B 模型準(zhǔn)確率實(shí)現(xiàn)了 159% 的相對(duì)提升;
  • 自我超越:TTRL 優(yōu)化后的模型展現(xiàn)出了 “青出于藍(lán)” 的特性,其性能不僅超越了自身的 “最優(yōu) N 采樣” 基準(zhǔn)線,甚至逼近了使用帶真實(shí)標(biāo)簽訓(xùn)練的理論上限(Oracle 基線);
  • 強(qiáng)泛化性:在 AMC、MATH-500 等未見過的權(quán)威基準(zhǔn)測(cè)試中,模型同樣表現(xiàn)出強(qiáng)勁的泛化能力。

TTRL 的成功證明了智能體具備自主螺旋式上升的成長(zhǎng)潛力,為 SAGE 架構(gòu)中的自我進(jìn)化提供了一條簡(jiǎn)潔高效的路徑。

規(guī)模維度:InternBootcamp 與任務(wù)擴(kuò)展定律

在解決了 “怎么學(xué)” 的信號(hào)問題后,必須回答 “在哪學(xué)” 的規(guī)模問題。通專融合模型不僅需要在單一任務(wù)上通過 “慢思考” 實(shí)現(xiàn)專精,更需要在成百上千個(gè)任務(wù)上同時(shí)實(shí)現(xiàn)能力適配。此外,我們還希望探索一個(gè)更深刻的問題:當(dāng)測(cè)試任務(wù)的數(shù)量與多樣性同步擴(kuò)增時(shí),是否存在專門針對(duì)在測(cè)試環(huán)境下、針對(duì)任務(wù)數(shù)量的 Scaling Law?

為此,我們研發(fā)了大規(guī)模、標(biāo)準(zhǔn)化、可擴(kuò)展的交互驗(yàn)證環(huán)境 ——InternBootcamp?。

作為首個(gè)覆蓋 8 大任務(wù)類別、超 1000 種多樣化環(huán)境的平臺(tái),InternBootcamp 支持在指定環(huán)境中開展大規(guī)模強(qiáng)化學(xué)習(xí)訓(xùn)練。其獨(dú)特的 “任務(wù)與驗(yàn)證函數(shù)自動(dòng)生成” 能力,使得用戶能夠便捷地將電路設(shè)計(jì)等專業(yè)領(lǐng)域任務(wù)轉(zhuǎn)化為可驗(yàn)證環(huán)境,通過仿真手段完成結(jié)果核驗(yàn)。



InternBootcamp 覆蓋 8 大任務(wù)類別、超 1000 種多樣化任務(wù)環(huán)境

基于 InternBootcamp 的實(shí)驗(yàn)揭示了兩個(gè)重要現(xiàn)象:

  • 能力的 “涌現(xiàn)”:在 BootcampEVAL 評(píng)測(cè)集中,Qwen2.5-32B 模型的平均性能實(shí)現(xiàn)了翻倍式增長(zhǎng)(從 24.4 提升至 59.5)。更為關(guān)鍵的是,部分在單任務(wù)訓(xùn)練下無法解決的邏輯任務(wù),在經(jīng)過 500 余項(xiàng)混合任務(wù)訓(xùn)練后變得可解。這證實(shí)了任務(wù)間的隱性關(guān)聯(lián)能夠有效增強(qiáng)模型的綜合理解能力。
  • 任務(wù)擴(kuò)展定律:實(shí)驗(yàn)數(shù)據(jù)顯示,當(dāng)任務(wù)類型數(shù)量從 8 種擴(kuò)展至 512 種時(shí),模型性能呈現(xiàn)持續(xù)上升趨勢(shì)。這一結(jié)果證實(shí)了與任務(wù)數(shù)量增長(zhǎng)相關(guān)的規(guī)模化定律真實(shí)存在,為未來大規(guī)模訓(xùn)練提供了理論依據(jù)。

落地維度:SimpleVLA-RL 與具身智能演進(jìn)

進(jìn)化的終局,是回歸物理世界。當(dāng)前具身智能面臨的核心瓶頸是數(shù)據(jù)匱乏:機(jī)器人演示數(shù)據(jù)獲取成本極高,且單純擴(kuò)大監(jiān)督微調(diào)(SFT)規(guī)模面臨邊際效益遞減。我們認(rèn)為,強(qiáng)化學(xué)習(xí)(RL)憑借其突破演示數(shù)據(jù)局限的探索能力,結(jié)合簡(jiǎn)單的二元獎(jiǎng)勵(lì)(成功 / 失。阋猿蔀榻鉀Q這一問題的鑰匙。

基于此,我們提出了極端數(shù)據(jù)稀缺情況下的在線強(qiáng)化學(xué)習(xí)框架 ——SimpleVLA-RL?。該框架基于視覺 - 語言 - 動(dòng)作(VLA)模型,結(jié)合 GRPO 優(yōu)化目標(biāo),并通過并行多環(huán)境渲染技術(shù)支持交互式軌跡采樣。



極端數(shù)據(jù)稀缺情況下的在線強(qiáng)化學(xué)習(xí)框架 SimpleVLA-RL

實(shí)驗(yàn)結(jié)果顛覆了對(duì)數(shù)據(jù)效率的傳統(tǒng)認(rèn)知:

  • 超高數(shù)據(jù)效率:僅需 “單軌跡” 監(jiān)督微調(diào)結(jié)合 RL,即可實(shí)現(xiàn) 96.9% 的成功率,性能反而超越了全軌跡監(jiān)督微調(diào);
  • 策略涌現(xiàn):機(jī)器人通過 RL 自主探索出了從未被演示過的全新推控策略,展現(xiàn)出強(qiáng)大的適應(yīng)性;
  • Sim-to-Real 突破:在疊碗等典型操作任務(wù)中,仿真到現(xiàn)實(shí)的遷移成功率提升了 21%;
  • 長(zhǎng)時(shí)程任務(wù)能力:在近期落地中,該方案在長(zhǎng)時(shí)程靈巧操作任務(wù)上,實(shí)現(xiàn)了相對(duì)性能提升 300%,并展現(xiàn)出令人驚喜的自主恢復(fù)能力。

得益于 SimpleVLA-RL,我們僅用極少的數(shù)據(jù)與計(jì)算資源,便取得了可與 Physical Intelligence 團(tuán)隊(duì) π*0.6 模型比肩的性能表現(xiàn)。這一成果標(biāo)志著 SAGE 架構(gòu)徹底打通了負(fù)責(zé)推理決策的 “大腦” 與負(fù)責(zé)執(zhí)行動(dòng)作的 “軀體”,真正實(shí)現(xiàn)了智能體在物理世界中的 “具身化” 演進(jìn)。

經(jīng)過近兩年的扎實(shí)探索,SAGE 架構(gòu)已跨越理論構(gòu)想階段,完成了全棧驗(yàn)證。在基礎(chǔ)層,MemoryDecoder 實(shí)現(xiàn)了記憶與計(jì)算的結(jié)構(gòu)性解耦;在融合層,PRIME 與 FlowRL 攻克了監(jiān)督稀缺與推理單一性的難題;在進(jìn)化層,TTRL、InternBootcamp 與 SimpleVLA-RL 構(gòu)建了從測(cè)試時(shí)強(qiáng)化到 “具身化” 演進(jìn)的閉環(huán)。

范式革命:從 AI4S 到 AGI4S

盡管以 AlphaFold 為代表的 AI for Science(AI4S)技術(shù)在蛋白質(zhì)折疊、氣象預(yù)測(cè)等特定領(lǐng)域取得了里程碑式成就,但近期《Nature》發(fā)表的研究指出,過度依賴現(xiàn)有深度學(xué)習(xí)模型可能局限新知識(shí)的探索邊界,甚至在某種程度上阻礙創(chuàng)新。這印證了我們的核心觀點(diǎn):擅長(zhǎng)處理數(shù)據(jù)充足、定義明確任務(wù)的傳統(tǒng)深度學(xué)習(xí),若僅作為工具存在,難以應(yīng)對(duì)科學(xué)發(fā)現(xiàn)中 “未知的未知”。

系統(tǒng)性的評(píng)估進(jìn)一步揭示了當(dāng)前前沿模型的短板。我們聯(lián)合來自 10 個(gè)不同科學(xué)領(lǐng)域的 100 位科學(xué)家設(shè)計(jì)了評(píng)估體系,結(jié)果顯示:前沿模型在通用科學(xué)推理任務(wù)中得分可達(dá) 50 分(滿分 100),但在各類專業(yè)推理任務(wù)(如專項(xiàng)文獻(xiàn)檢索、具體實(shí)驗(yàn)方案設(shè)計(jì))中,得分驟降至 15-30 分。

這種明顯的 “木桶效應(yīng)” 表明,科學(xué)發(fā)現(xiàn)全周期的效能正受制于專業(yè)推理能力的最薄弱環(huán)節(jié)。因此,整合通用推理與專業(yè)能力,進(jìn)而推動(dòng)科學(xué)智能從 AI4S 向 AGI4S 迭代成為必然選擇。



研究表明,當(dāng)前所有前沿模型的科學(xué)能力均顯不足

從 AI4S 邁向 AGI4S,這一升級(jí)旨在推動(dòng)研究者、研究工具與研究對(duì)象的協(xié)同演進(jìn)。通過 AGI 促進(jìn)三者相互作用、協(xié)同演進(jìn)、螺旋式上升,將創(chuàng)造出真正“革命的工具”,推動(dòng)科研范式變革?。



從 AI4S 1.0 到 AI4S 2.0(AGI4S)

Intern-S1:面向科學(xué)的可深度專業(yè)化通用模型

為打破上述瓶頸,我們研發(fā)了 “書生” 科學(xué)多模態(tài)大模型(Intern-S1)?。作為 SAGE 架構(gòu)在科學(xué)領(lǐng)域的集中體現(xiàn),Intern-S1 旨在構(gòu)建一個(gè)既具備強(qiáng)大通用能力,又能理解復(fù)雜科學(xué)數(shù)據(jù)的 “可深度專業(yè)化通才”。其在三個(gè)層面進(jìn)行了深度創(chuàng)新:

  • 基礎(chǔ)層(數(shù)據(jù)適配):針對(duì)科學(xué)數(shù)據(jù)的多模態(tài)異構(gòu)性,提出了科學(xué)專用架構(gòu)。采用動(dòng)態(tài)分詞器與專用編碼器,原生支持 DNA 序列、蛋白質(zhì)結(jié)構(gòu)、時(shí)間序列等 10 余種模態(tài)。相較于 GPT-OSS 等通用模型,其在科學(xué)數(shù)據(jù)上的壓縮率提升了 1.7 倍,并基于 2.5 萬億高質(zhì)量科學(xué) Token 進(jìn)行了預(yù)訓(xùn)練。
  • 融合層(混合獎(jiǎng)勵(lì)):構(gòu)建了混合獎(jiǎng)勵(lì)框架(MoR),將多種強(qiáng)化學(xué)習(xí)算法與熵機(jī)制整合。該框架平衡了計(jì)算、推理、實(shí)驗(yàn)設(shè)計(jì)等不同技能所需的獎(jiǎng)勵(lì)信號(hào),有效緩解了特定任務(wù)過擬合問題,增強(qiáng)了模型在跨領(lǐng)域復(fù)雜推理中的泛化能力。
  • 進(jìn)化層(交互專精):依托 InternBootCamp 框架,模型在超 1000 項(xiàng)專業(yè)任務(wù)(如逆合成分析)中與模擬器進(jìn)行交互學(xué)習(xí),實(shí)現(xiàn)了大規(guī)模的任務(wù)專精。

測(cè)評(píng)結(jié)果顯示,Intern-S1 在通用能力上對(duì)齊 SOTA 開源模型,而在涵蓋化學(xué)、生物、材料等 9 大領(lǐng)域的科學(xué)性能上,全面超越了包括 GPT-5 和 Grok-4 在內(nèi)的頂尖閉源模型。

Intern-Discovery:全流程科學(xué)智能體系統(tǒng)

如果說 Intern-S1 是科學(xué)大腦,那么 Intern-Discovery 則是具備行動(dòng)力的科學(xué)智能體。該平臺(tái)構(gòu)建了一個(gè)將 Intern-S1 與海量數(shù)據(jù)、2000 + 專業(yè)工具及濕實(shí)驗(yàn)室驗(yàn)證環(huán)境深度融合的智能體系統(tǒng),實(shí)現(xiàn)了從假設(shè)生成到實(shí)驗(yàn)驗(yàn)證的閉環(huán)。

Intern-Discovery 的核心邏輯在于建立 “智能體生成” 與 “智能體驗(yàn)證” 的雙向循環(huán):前者主動(dòng)洞察現(xiàn)象、提出假設(shè)并設(shè)計(jì)實(shí)驗(yàn);后者通過仿真與物理實(shí)驗(yàn)驗(yàn)證假設(shè),并將反饋回傳以修正認(rèn)知。

為支撐這一復(fù)雜流程,系統(tǒng)引入了兩大關(guān)鍵支柱:

  • 科學(xué)智能上下文協(xié)議(SCP)?:針對(duì)現(xiàn)有 MCP 協(xié)議在科學(xué)資源整合上的不足,SCP 定義了領(lǐng)域特定的結(jié)構(gòu)與協(xié)調(diào)機(jī)制,實(shí)現(xiàn)了對(duì)數(shù)據(jù)集、濕實(shí)驗(yàn)室設(shè)備及復(fù)雜工作流的標(biāo)準(zhǔn)化調(diào)度與全生命周期管理。
  • 分層記憶模塊:通過策略程序記憶(SPM)、任務(wù)情景記憶(TEM)與語義知識(shí)記憶(SKM)的協(xié)同,系統(tǒng)能夠沉淀高階研究模式、記錄實(shí)驗(yàn)細(xì)節(jié)并整合長(zhǎng)期知識(shí),從而在持續(xù)迭代中避免邏輯幻覺。

案例實(shí)證:重塑科學(xué)發(fā)現(xiàn)流程

Intern-Discovery 已在氣候科學(xué)與生物醫(yī)學(xué)領(lǐng)域展現(xiàn)出 “革命性工具” 的潛力。

在氣候科學(xué)領(lǐng)域,面對(duì)降水預(yù)測(cè)中極端復(fù)雜的非線性交互,Intern-Discovery 自主調(diào)用 30 余種工具,分析了 20 年的多模態(tài)數(shù)據(jù)。它寫了 4000 多行專業(yè)代碼,成功發(fā)現(xiàn)了被人類專家忽略的水汽與動(dòng)力項(xiàng)關(guān)聯(lián),并推導(dǎo)出一個(gè)簡(jiǎn)潔的新型顯式非線性方程。該方程不僅形式優(yōu)雅簡(jiǎn)潔,且顯著提升了模擬精度,有效修正了長(zhǎng)期存在的系統(tǒng)性偏差,證明了智能體在理論構(gòu)建層面的創(chuàng)造力?。



Intern-Discovery 在氣候科學(xué)的應(yīng)用案例

在生物醫(yī)學(xué)領(lǐng)域,虛擬疾病生物學(xué)家 “元生” 通過模仿人類科學(xué)家的思維模板,整合遺傳學(xué)、蛋白質(zhì)組學(xué)及臨床文獻(xiàn)等多源數(shù)據(jù)。即便在數(shù)據(jù)稀疏條件下,它仍成功發(fā)現(xiàn)并驗(yàn)證了具有高臨床潛力的隱藏靶點(diǎn),展示了從數(shù)據(jù)到機(jī)制、從假說到驗(yàn)證的全流程智能化能力。



Intern-Discovery 在生物醫(yī)學(xué)的應(yīng)用案例

從 Intern-S1 的底層推理突破到 Intern-Discovery 的系統(tǒng)級(jí)應(yīng)用,我們正逐步構(gòu)建起一套覆蓋科學(xué)發(fā)現(xiàn)全周期的 AGI4S 基礎(chǔ)設(shè)施。這不僅是工具的革新,更是科研范式的重塑 —— 讓人工智能真正成為推動(dòng)科學(xué)邊界拓展的合作伙伴。

行動(dòng)召喚:共拓新世界藍(lán)圖

綜上所述,我們正處在實(shí)現(xiàn) AGI 的前夕,若AGI = 通專融合(Specialized Generalist),則可深度專業(yè)化的通用模型(Specializable Generalist)是實(shí)現(xiàn) AGI 的可行路徑,而“智者”SAGE 的三層技術(shù)框架正是驅(qū)動(dòng)后者發(fā)展的核心架構(gòu)。

下一個(gè)前沿陣地是科學(xué)發(fā)現(xiàn) —— 它既是推理智能的終極試煉場(chǎng),也是 “通專融合” 的驗(yàn)證舞臺(tái),大規(guī)模推理將賦能科學(xué)發(fā)現(xiàn),科學(xué)發(fā)現(xiàn)亦將反哺推理能力的進(jìn)化。

Intern-S1 與 Intern-Discovery 是邁向該方向的首步實(shí)踐,但這一切僅僅是初始的雛形。如果將“智者”SAGE 架構(gòu)比作一張新世界的地圖,我們目前已建立了很好的初步驗(yàn)證與很多尖兵前哨站,但這張地圖上仍存在廣闊的 “空白區(qū)域”。

架構(gòu)已經(jīng)就緒,但畫卷仍存在大片留白。如果這些初步進(jìn)展激起了你的興趣,我邀請(qǐng)你深入閱讀我們的論文與代碼 —— 它們都是開源的。但更重要的是,我邀請(qǐng)志同道合者與我們一同填補(bǔ)這些空白,共同構(gòu)建完整的藍(lán)圖。

謝謝!



本次報(bào)告核心要點(diǎn)總結(jié)

參考文獻(xiàn)

① Shanghai Artificial Intelligence Laboratory. Probing Scientific General Intelligence of LLMs with Scientist-Aligned Workflows [J]. arXiv preprint arXiv:2512.16969v1, 2025.

② Vaswani A, et al. Attention is all you need [C]// Advances in neural information processing systems, 2017, 30.

③ Zhang K, Qi B, Zhou B. Towards building specialized generalist ai with system 1 and system 2 fusion [J]. arXiv preprint arXiv:2407.08642, 2024.

④ Qi B, Zhang K, Tian K, ..., Zhou B. Large language models as biomedical hypothesis generators: a comprehensive evaluation [C]. COLM, 2024.

⑤ Zhou B. Building AGI through Specialized Generalist AI: pathways and key issues [J]. Communications of CCF, 2025, 21 (1): 54-62.

⑥ Cao J, Wang J, Wei R, ..., Zhou B, Lin Z. Memory Decoder: A Pretrained, Plug-and-Play Memory for Large Language Models [J]. arXiv preprint arXiv:2508.09874, 2025.

⑦ Zhang K, Zuo Y, He B, ..., Zhou B. A survey of reinforcement learning for large reasoning models [J]. arXiv preprint arXiv:2509.08827, 2025.

⑧ Cui G, Yuan L, Wang Z, ..., Zhou B, Ding N. Process Reinforcement through Implicit Rewards [J]. arXiv preprint arXiv:2502.01456, 2025.

⑨ Cui G, Zhang Y, Chen J, ..., Zhou B, Ding N. The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models [J]. arXiv preprint arXiv:2505.22617, 2025.

⑩ Zhu X, Cheng D, Zhang D, ..., Zhou B, Mei H, Lin Z. FlowRL: Matching reward distributions for LLM reasoning [J]. arXiv preprint arXiv:2509.15207, 2025.

? Zuo Y, Zhang K, Sheng L, ..., Ding N, Zhou B. TTRL: Test-Time Reinforcement Learning [C]// NeurIPS, 2025.

? Li P, Ye J, Chen Y, ..., Zhou B, Chen K. InternBootcamp Technical Report: Boosting LLM Reasoning with Verifiable Task Scaling [J]. arXiv preprint arXiv:2508.08636, 2025.

? Li H, Zuo Y, Yu J, ..., Zhou B, Ding N. SimpleVLA-RL: Scaling VLA Training via Reinforcement Learning [J]. arXiv preprint arXiv:2509.09674, 2025.

? Zhou B, Ding N, Bai L, Zhou H. Advancing AI for science: From the revolution of tools to the tools for revolution [J]. AI Open, 2025, 6: 323-328.

? Shanghai AI Laboratory. INTERN-S1: A SCIENTIFICMULTIMODAL FOUNDATION MODEL [J]. arXiv preprint arXiv:2508.15763, 2025.

? Jiang Y, Lou W, Wang L, ..., Zhou B. SCP: Accelerating Discovery with a Global Web of Autonomous Scientific Agents [J]. arXiv preprint arXiv:2512.24189, 2025.

? Guo Z, Wang J, Ling F, ..., Zhou B, Bai L. A Self-Evolving AI Agent System for Climate Science [J]. arXiv preprint arXiv:2507.17311v3, 2025.

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
剛剛,甘肅景泰發(fā)生地震

剛剛,甘肅景泰發(fā)生地震

甘肅交通廣播
2026-01-30 16:13:17
國(guó)民黨率團(tuán)赴京,鄭麗文對(duì)大陸稱呼變了,蔡英文不排除再度出馬

國(guó)民黨率團(tuán)赴京,鄭麗文對(duì)大陸稱呼變了,蔡英文不排除再度出馬

蛙斯基娛樂中
2026-01-30 17:07:08
預(yù)制菜已經(jīng)發(fā)展到什么程度了?網(wǎng)友:在江西,預(yù)制菜可能不大好賣

預(yù)制菜已經(jīng)發(fā)展到什么程度了?網(wǎng)友:在江西,預(yù)制菜可能不大好賣

解讀熱點(diǎn)事件
2026-01-29 04:57:21
痛心!江西樟樹藍(lán)天救援隊(duì)創(chuàng)始人、前隊(duì)長(zhǎng)彭燁因車禍去世,享年50歲 曾參與多地抗洪搶險(xiǎn)救災(zāi)

痛心!江西樟樹藍(lán)天救援隊(duì)創(chuàng)始人、前隊(duì)長(zhǎng)彭燁因車禍去世,享年50歲 曾參與多地抗洪搶險(xiǎn)救災(zāi)

紅星新聞
2026-01-29 21:03:19
偉大的3-2!世界第1受傷吃止痛藥,進(jìn)澳網(wǎng)決賽沖全滿貫,靜候辛納

偉大的3-2!世界第1受傷吃止痛藥,進(jìn)澳網(wǎng)決賽沖全滿貫,靜候辛納

球場(chǎng)沒跑道
2026-01-30 17:18:54
交警再次提醒:誤闖紅燈后只需一個(gè)動(dòng)作,可以從扣6分變成只扣1分

交警再次提醒:誤闖紅燈后只需一個(gè)動(dòng)作,可以從扣6分變成只扣1分

老特有話說
2025-12-03 23:00:01
為何劉國(guó)梁沒給陳熠機(jī)會(huì),王勵(lì)勤卻重點(diǎn)培養(yǎng)?5條辣評(píng)告訴你原因

為何劉國(guó)梁沒給陳熠機(jī)會(huì),王勵(lì)勤卻重點(diǎn)培養(yǎng)?5條辣評(píng)告訴你原因

逗比演員說體育
2026-01-30 13:11:51
《鄉(xiāng)村愛情18》首發(fā)預(yù)告,一開場(chǎng)就是趙四的葬禮

《鄉(xiāng)村愛情18》首發(fā)預(yù)告,一開場(chǎng)就是趙四的葬禮

娛慧
2026-01-30 13:28:21
航母就位,狠話“刷屏” 專家:美已錯(cuò)過最佳打擊時(shí)間,目前主要是逼伊“核讓步”

航母就位,狠話“刷屏” 專家:美已錯(cuò)過最佳打擊時(shí)間,目前主要是逼伊“核讓步”

紅星新聞
2026-01-29 18:13:29
絕了!蒸一蒸這水果,喉嚨里的痰“唰唰”消失,全家都搶著喝

絕了!蒸一蒸這水果,喉嚨里的痰“唰唰”消失,全家都搶著喝

江江食研社
2025-12-29 14:30:09
不再隱瞞!樊振東深夜發(fā)文信息量大,兩年之約終兌現(xiàn)

不再隱瞞!樊振東深夜發(fā)文信息量大,兩年之約終兌現(xiàn)

羅納爾說個(gè)球
2026-01-29 22:37:10
十二生肖在2026年財(cái)運(yùn)排名前三!這些生肖神爺點(diǎn)名了

十二生肖在2026年財(cái)運(yùn)排名前三!這些生肖神爺點(diǎn)名了

毅談生肖
2026-01-29 11:58:30
椰樹為徐冬冬婚禮推出定制飲料包裝“從單身喝到結(jié)婚”,集團(tuán)回應(yīng)

椰樹為徐冬冬婚禮推出定制飲料包裝“從單身喝到結(jié)婚”,集團(tuán)回應(yīng)

中國(guó)品牌
2026-01-27 19:24:12
英國(guó)友人柯馬凱:英中正逐漸走出過去八年的波折低谷

英國(guó)友人柯馬凱:英中正逐漸走出過去八年的波折低谷

澎湃新聞
2026-01-29 18:30:04
知名國(guó)酒爆雷,純酒精兌水,標(biāo)注年份你說了算,成本10元賣899

知名國(guó)酒爆雷,純酒精兌水,標(biāo)注年份你說了算,成本10元賣899

毒sir財(cái)經(jīng)
2026-01-30 16:23:01
特朗普重兵包圍伊朗,普京通告全球:敢動(dòng)就出手!中方也有所動(dòng)作

特朗普重兵包圍伊朗,普京通告全球:敢動(dòng)就出手!中方也有所動(dòng)作

阿芒娛樂說
2026-01-28 18:07:41
善惡終有報(bào)!58歲央視美女主持王小丫,如今現(xiàn)狀令人唏噓不已

善惡終有報(bào)!58歲央視美女主持王小丫,如今現(xiàn)狀令人唏噓不已

郭蛹包工頭
2026-01-30 04:23:39
76年毛主席逝世后,華國(guó)鋒要求在悼詞中加上一句話,葉帥:我贊同

76年毛主席逝世后,華國(guó)鋒要求在悼詞中加上一句話,葉帥:我贊同

潯陽咸魚
2026-01-30 13:00:07
導(dǎo)彈還沒等點(diǎn)火,幾萬公里外的屏幕上,紅點(diǎn)就亮了“目標(biāo)已鎖定”

導(dǎo)彈還沒等點(diǎn)火,幾萬公里外的屏幕上,紅點(diǎn)就亮了“目標(biāo)已鎖定”

南權(quán)先生
2026-01-28 15:54:10
古特雷斯下課秘書長(zhǎng)候選人誕生, 對(duì)華態(tài)度堅(jiān)決, 中方看破美國(guó)心思

古特雷斯下課秘書長(zhǎng)候選人誕生, 對(duì)華態(tài)度堅(jiān)決, 中方看破美國(guó)心思

boss外傳
2026-01-30 20:00:03
2026-01-30 20:59:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12225文章數(shù) 142556關(guān)注度
往期回顧 全部

科技要聞

意念控制機(jī)器人不是科幻 1-2年就落地

頭條要聞

澤連斯基:我邀請(qǐng)普京來基輔 不可能在莫斯科與他會(huì)面

頭條要聞

澤連斯基:我邀請(qǐng)普京來基輔 不可能在莫斯科與他會(huì)面

體育要聞

“假賭黑”的子彈,還要再飛一會(huì)兒?jiǎn)幔?/h3>

娛樂要聞

金晨出事前 曾靈魂發(fā)問未收到春晚邀請(qǐng)

財(cái)經(jīng)要聞

金銀閃崩,是調(diào)整還是趨勢(shì)反轉(zhuǎn)的開始?

汽車要聞

合資品牌首搭800V/5C快充 東風(fēng)日產(chǎn)NX8將于3、4月上市

態(tài)度原創(chuàng)

藝術(shù)
時(shí)尚
健康
數(shù)碼
房產(chǎn)

藝術(shù)要聞

風(fēng)景畫選刊 | 中國(guó)油畫學(xué)會(huì)三十年藝術(shù)展

買10件退9件?到底怎么買紅衣服才能不踩雷

耳石癥分類型,癥狀大不同

數(shù)碼要聞

馬年煥新電競(jìng)房,四款27寸雙模電競(jìng)顯示器優(yōu)選導(dǎo)購(gòu)

房產(chǎn)要聞

藏不住的小城大事,海澄新城執(zhí)掌自貿(mào)港風(fēng)口,進(jìn)階兌現(xiàn)美好生活新篇

無障礙瀏覽 進(jìn)入關(guān)懷版