網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

清華劉知遠(yuǎn)團(tuán)隊(duì)論文：在嚴(yán)格可控環(huán)境下重新回答「強(qiáng)化學(xué)習(xí)能否教會(huì)大模型新能力」丨ICLR 2026

2026-02-06 17:52:21　來(lái)源: AI科技評(píng)論

廣東舉報(bào)

分享至

強(qiáng)化學(xué)習(xí)改變了模型組織技能的方式，而非簡(jiǎn)單提升指標(biāo)。

作者丨鄭佳美

編輯丨岑峰

隨著大語(yǔ)言模型規(guī)模和預(yù)訓(xùn)練強(qiáng)度的不斷提升，強(qiáng)化學(xué)習(xí)在后訓(xùn)練階段的角色正在發(fā)生微妙變化。

一方面，它仍然是當(dāng)前提升模型推理能力和多步?jīng)Q策表現(xiàn)的關(guān)鍵技術(shù)手段；另一方面，越來(lái)越多的經(jīng)驗(yàn)性結(jié)果表明，在許多任務(wù)上，強(qiáng)化學(xué)習(xí)帶來(lái)的性能提升往往難以與“新能力的形成”直接劃等號(hào)。

尤其是在 pass@k 等評(píng)測(cè)指標(biāo)下，強(qiáng)化學(xué)習(xí)模型與基礎(chǔ)模型之間的差距常常隨著采樣數(shù)的增加而迅速縮小，這使得一種觀點(diǎn)逐漸占據(jù)上風(fēng)：強(qiáng)化學(xué)習(xí)可能更多是在對(duì)模型內(nèi)部已有解法進(jìn)行篩選和重排，而非真正拓展模型的能力邊界。

問題在于，這一判斷本身并不容易被驗(yàn)證或反駁。自然語(yǔ)言任務(wù)中，技能邊界高度交織，模型在預(yù)訓(xùn)練階段所接觸的數(shù)據(jù)分布幾乎無(wú)法完全排除，使得性能變化很難被明確歸因于能力結(jié)構(gòu)的改變。在這樣的環(huán)境下，關(guān)于強(qiáng)化學(xué)習(xí)是否“教會(huì)模型新能力”的討論，往往停留在指標(biāo)層面的解釋差異，而缺乏一個(gè)能夠清晰刻畫技能、控制任務(wù)難度并排除干擾因素的實(shí)驗(yàn)基礎(chǔ)。

正是在這樣的背景下，清華大學(xué)的孫茂松、劉知遠(yuǎn)團(tuán)隊(duì)提出了《From f(x) and g(x) to f(g(x)): LLMs Learn New Skills in RL by Composing Old Ones》這項(xiàng)研究。

與其繼續(xù)在復(fù)雜的自然語(yǔ)言任務(wù)中爭(zhēng)論強(qiáng)化學(xué)習(xí)是否“有效”，研究團(tuán)隊(duì)選擇退回到一個(gè)更可控的實(shí)驗(yàn)環(huán)境，轉(zhuǎn)而聚焦一個(gè)更基礎(chǔ)也更根本的問題：強(qiáng)化學(xué)習(xí)究竟能否教會(huì)模型此前并不具備的新能力？如果可以，這些新能力具體是什么，在什么條件下才能被學(xué)習(xí)到，又是否具有跨任務(wù)的泛化性。

在這一問題框架下，研究并未將注意力放在某一具體性能指標(biāo)的提升上，而是假設(shè)模型已經(jīng)掌握了一組基本的原子技能，進(jìn)一步考察強(qiáng)化學(xué)習(xí)是否能夠推動(dòng)模型形成新的能力結(jié)構(gòu)，使其學(xué)會(huì)系統(tǒng)性地組合這些技能，從而解決更高難度、甚至分布外任務(wù)中的問題。正是出于對(duì)這些問題的系統(tǒng)性考察需求，研究者才設(shè)計(jì)了這一高度可控的實(shí)驗(yàn)環(huán)境。

論文地址：https://arxiv.org/pdf/2509.25123

01
當(dāng)語(yǔ)言模型開始真正「會(huì)組合」

研究的實(shí)驗(yàn)結(jié)果表明，在合適的激勵(lì)條件下，強(qiáng)化學(xué)習(xí)能夠使大語(yǔ)言模型獲得此前并不存在的新能力，而不僅僅是對(duì)已有答案進(jìn)行重排。

這種新能力具體體現(xiàn)為一種系統(tǒng)性的技能組合能力，即模型能夠?qū)⒁呀?jīng)掌握的原子技能按照結(jié)構(gòu)化方式進(jìn)行組合，并將這一組合策略泛化到更高難度的問題，甚至遷移到完全不同的任務(wù)中。

研究中通過設(shè)計(jì) 20 余個(gè)“非常規(guī)”字符串操作函數(shù)，將「函數(shù)結(jié)果預(yù)測(cè)」作為任務(wù)。為徹底排除預(yù)訓(xùn)練語(yǔ)料污染及模型語(yǔ)義聯(lián)想（即根據(jù)函數(shù)名盲猜代碼邏輯）的影響，所有函數(shù)均采用隨機(jī)命名的無(wú)意義字符串。研究核心在于對(duì)比以下兩種能力：

原子能力：指模型在不依賴 Prompt 中函數(shù)定義的前提下，準(zhǔn)確預(yù)測(cè)單一函數(shù)f(x)輸出的能力。

組合能力：指模型預(yù)測(cè)多層復(fù)合函數(shù)（如 f(g(x))）執(zhí)行結(jié)果的能力。

由于函數(shù)隨機(jī)命名，沒有模型具備該任務(wù)的原子能力。因此為了單獨(dú)訓(xùn)練模型在該任務(wù)上的原子能力，在數(shù)據(jù)收集階段，研究者首先在 Prompt 中提供明確的函數(shù)定義以及單函數(shù)的輸出預(yù)測(cè)題目，獲取模型生成的思維鏈與預(yù)測(cè)結(jié)果，且僅保留正確樣本。

隨后在 SFT（監(jiān)督微調(diào)）階段，研究者移除了 Prompt 中的函數(shù)定義，讓模型學(xué)習(xí)原本的思維鏈與預(yù)測(cè)結(jié)果。通過這種訓(xùn)練方式，模型被強(qiáng)制將函數(shù)邏輯內(nèi)化至參數(shù)空間，從而在不查閱定義的情況下掌握“原子能力”，為后續(xù)評(píng)估復(fù)雜的“組合能力”奠定基礎(chǔ)。

研究人員在對(duì)擁有了原子能力的SFT模型進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練，通過改變強(qiáng)化學(xué)習(xí)階段提供的題目難度（僅單函數(shù)、僅二層嵌套函數(shù)、單函數(shù)與二層嵌套函數(shù)混合），觀察模型在三層、四層乃至更深層次的組合問題上的測(cè)試性能（這些問題在訓(xùn)練中從未出現(xiàn)過，且所涉及的原子函數(shù)本身也未在強(qiáng)化學(xué)習(xí)階段見過），研究人員發(fā)現(xiàn)僅在單函數(shù)上進(jìn)行強(qiáng)化學(xué)習(xí)的模型，在三層及以上組合任務(wù)上的準(zhǔn)確率幾乎為零，而一旦訓(xùn)練數(shù)據(jù)中包含最基礎(chǔ)的二層嵌套函數(shù)，模型在三層組合上的準(zhǔn)確率可提升至約 30%，在四層組合上仍保持約 15%，并在更高層級(jí)上持續(xù)顯著優(yōu)于隨機(jī)水平。

這表明模型并非依賴偶然猜測(cè)或記憶模板，而是學(xué)會(huì)了一種可遞歸使用的組合策略；如果強(qiáng)化學(xué)習(xí)僅僅激活或重排已有推理模式，這種隨組合深度增加仍能發(fā)揮作用的行為是難以解釋的。

進(jìn)一步的對(duì)照實(shí)驗(yàn)顯示，僅提供組合訓(xùn)練數(shù)據(jù)并不足以產(chǎn)生這種能力。研究團(tuán)隊(duì)在完全相同的二層組合數(shù)據(jù)上，用監(jiān)督學(xué)習(xí)替代強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練，發(fā)現(xiàn)這個(gè)模型在三層組合任務(wù)上的準(zhǔn)確率始終處于極低水平，甚至在同一難度但函數(shù)不同的二層組合測(cè)試中也表現(xiàn)不穩(wěn)定。

相比之下，強(qiáng)化學(xué)習(xí)模型不僅能夠穩(wěn)定解決二層組合問題，還能系統(tǒng)性地外推到更深層的組合任務(wù)，說明真正起關(guān)鍵作用的是強(qiáng)化學(xué)習(xí)所引入的結(jié)果驅(qū)動(dòng)、探索機(jī)制與策略更新過程，它們共同促使模型形成新的推理結(jié)構(gòu)。

研究還通過跨任務(wù)實(shí)驗(yàn)驗(yàn)證了這種組合能力的通用性：如果模型在A、B任務(wù)上學(xué)習(xí)了原子能力，僅在A任務(wù)上進(jìn)行合適的組合能力強(qiáng)化學(xué)習(xí)，模型就能將該能力泛化至B任務(wù)上。在SFT階段，除了先前提及的函數(shù)輸出預(yù)測(cè)任務(wù)，研究人員混入了另一個(gè)任務(wù)，Countdown任務(wù)的SFT數(shù)據(jù)，以使得模型同樣具備Countdown任務(wù)的原子能力。而在強(qiáng)化學(xué)習(xí)階段，仍然只在包含二層嵌套函數(shù)的輸出預(yù)測(cè)任務(wù)上進(jìn)行強(qiáng)化學(xué)習(xí)。

測(cè)試結(jié)果顯示，盡管未在Countdown任務(wù)上進(jìn)行強(qiáng)化學(xué)習(xí)，僅在復(fù)合函數(shù)輸出預(yù)測(cè)上進(jìn)行強(qiáng)化學(xué)習(xí)后的模型在多步Countdown任務(wù)上的表現(xiàn)也取得了明顯提升。這表明強(qiáng)化學(xué)習(xí)獲得的并非特定于字符串任務(wù)的技巧，而是一種能夠組織和調(diào)度已有原子技能的通用能力，即一種元技能。然而，這一遷移也是有條件的，在其他任務(wù)上學(xué)到的組合能力并不能泛化到模型不具備原子能力的任務(wù)上，即SFT階段如果未學(xué)習(xí)Countdown的原子能力，模型在強(qiáng)化學(xué)習(xí)后無(wú)法完成Countdown任務(wù)。

針對(duì)“強(qiáng)化學(xué)習(xí)只是將 pass@k 壓縮為 pass@1”的觀點(diǎn)，研究人員進(jìn)一步分析了不同難度任務(wù)下的表現(xiàn)差異，發(fā)現(xiàn)這個(gè)現(xiàn)象主要出現(xiàn)在簡(jiǎn)單問題中。在低難度任務(wù)上，基礎(chǔ)模型本就能夠通過多次采樣得到正確答案，強(qiáng)化學(xué)習(xí)的作用確實(shí)主要體現(xiàn)為重排。

而在高難度組合任務(wù)中，基礎(chǔ)模型即使在極大采樣預(yù)算下仍表現(xiàn)不佳，強(qiáng)化學(xué)習(xí)模型的優(yōu)勢(shì)卻隨著采樣數(shù)增加而不斷擴(kuò)大。研究團(tuán)隊(duì)據(jù)此指出，這種“強(qiáng)化學(xué)習(xí)只是重排”的結(jié)論在一定程度上是一種評(píng)測(cè)假象。

最后，錯(cuò)誤類型分析表明，強(qiáng)化學(xué)習(xí)帶來(lái)的變化并不僅體現(xiàn)在準(zhǔn)確率上，而是體現(xiàn)在模型行為結(jié)構(gòu)的根本轉(zhuǎn)變上?；A(chǔ)模型、監(jiān)督學(xué)習(xí)模型以及僅進(jìn)行原子強(qiáng)化學(xué)習(xí)訓(xùn)練的模型，其主要錯(cuò)誤來(lái)源于忽略組合結(jié)構(gòu)或誤解嵌套關(guān)系。

而經(jīng)過組合任務(wù)強(qiáng)化學(xué)習(xí)訓(xùn)練的模型，其錯(cuò)誤更多來(lái)自原子步驟的執(zhí)行失誤，而非對(duì)整體組合結(jié)構(gòu)的誤解。這說明強(qiáng)化學(xué)習(xí)首先教會(huì)模型正確理解和執(zhí)行組合結(jié)構(gòu)，即使失敗，也失敗在更低層級(jí)，從而體現(xiàn)出一種認(rèn)知層面的變化。

02
從模糊能力到可量化技能

為了保證研究結(jié)論具有高度可信性，研究團(tuán)隊(duì)在實(shí)驗(yàn)設(shè)計(jì)上進(jìn)行了近乎教科書級(jí)的嚴(yán)格控制。

研究人員沒有直接采用自然語(yǔ)言任務(wù)，而是選擇了字符串變換函數(shù)作為研究載體，主要原因在于自然語(yǔ)言任務(wù)中技能邊界往往模糊不清，模型表現(xiàn)容易受到預(yù)訓(xùn)練語(yǔ)料的潛在污染，同時(shí)也難以明確判斷模型究竟學(xué)會(huì)了何種能力。

相比之下，字符串變換函數(shù)具有行為完全確定、復(fù)雜度可以被嚴(yán)格控制以及能夠人為構(gòu)造模型在預(yù)訓(xùn)練階段幾乎不可能接觸過的任務(wù)等優(yōu)勢(shì)，從而為分析強(qiáng)化學(xué)習(xí)是否產(chǎn)生新能力提供了一個(gè)干凈且可控的實(shí)驗(yàn)環(huán)境。

在這一框架下，研究人員對(duì)“技能”給出了清晰而可操作的定義。原子技能被定義為在給定輸入的情況下，模型能夠正確預(yù)測(cè)單個(gè)函數(shù)作用后的輸出，而組合技能則指模型在面對(duì)嵌套函數(shù)時(shí)，能夠正確推斷多個(gè)函數(shù)順序作用后的最終結(jié)果。技能難度由函數(shù)嵌套的深度直接刻畫，這使得“新技能”不再是抽象或主觀的概念，而成為可以被精確檢驗(yàn)和逐層分析的研究對(duì)象。

在訓(xùn)練流程上，研究團(tuán)隊(duì)采用了兩階段設(shè)計(jì)，刻意將“掌握單個(gè)技能”和“學(xué)會(huì)組合技能”這兩個(gè)過程分離。第一階段使用監(jiān)督學(xué)習(xí)訓(xùn)練模型，使其充分掌握每一個(gè)字符串變換函數(shù)的具體行為，這一階段僅進(jìn)行一次，用于建立穩(wěn)定的原子技能基礎(chǔ)。

第二階段則完全隱藏函數(shù)定義，僅向模型提供函數(shù)名稱和輸入字符串，從而迫使模型要么真正理解并正確組合已掌握的原子技能，要么在任務(wù)中失敗。在這一階段中，研究人員系統(tǒng)比較了監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)兩種訓(xùn)練方式，其中強(qiáng)化學(xué)習(xí)只提供基于最終結(jié)果正確與否的獎(jiǎng)勵(lì)信號(hào)，用以檢驗(yàn)不同訓(xùn)練機(jī)制對(duì)組合能力學(xué)習(xí)的影響。

在評(píng)測(cè)方法上，研究團(tuán)隊(duì)沒有依賴單一的整體指標(biāo)，而是從多個(gè)維度對(duì)模型能力進(jìn)行分析。他們通過測(cè)試新函數(shù)的組合能力排除了簡(jiǎn)單記憶的可能，通過更深層次的函數(shù)嵌套考察模型是否形成了可泛化的組合策略，并通過跨任務(wù)遷移實(shí)驗(yàn)檢驗(yàn)?zāi)Ｐ褪欠駜H對(duì)特定任務(wù)產(chǎn)生適應(yīng)。

結(jié)合不同難度下的準(zhǔn)確率、不同采樣預(yù)算下的 pass@k 表現(xiàn)以及錯(cuò)誤類型的細(xì)致分析，研究人員構(gòu)建了一條完整而自洽的證據(jù)鏈，從多個(gè)角度支撐了其關(guān)于強(qiáng)化學(xué)習(xí)技能獲取機(jī)制的結(jié)論。

03
關(guān)于 RL 價(jià)值之爭(zhēng)，一個(gè)更成熟的回答

這項(xiàng)研究的意義遠(yuǎn)不止于在字符串任務(wù)上取得了具體實(shí)驗(yàn)結(jié)果，更在于其對(duì)當(dāng)前大語(yǔ)言模型強(qiáng)化學(xué)習(xí)研究中的核心爭(zhēng)論給出了實(shí)質(zhì)性回應(yīng)。

圍繞“強(qiáng)化學(xué)習(xí)是否能夠教會(huì)大語(yǔ)言模型新的能力”這一問題，研究團(tuán)隊(duì)并未給出簡(jiǎn)單的肯定或否定答案，而是提出了一個(gè)條件化結(jié)論，即強(qiáng)化學(xué)習(xí)確實(shí)能夠促使模型獲得新的能力，但前提在于模型已經(jīng)具備完成任務(wù)所需的原子技能，同時(shí)訓(xùn)練任務(wù)的設(shè)計(jì)能夠真實(shí)地激勵(lì)模型去使用并發(fā)展這種新能力。這種表述超越了以往非黑即白的討論方式，使相關(guān)爭(zhēng)論在概念上更加精細(xì)和成熟。

在此基礎(chǔ)上，研究還為大語(yǔ)言模型的訓(xùn)練流程提供了一種具有啟發(fā)性的技能分工范式。研究人員隱含提出，預(yù)訓(xùn)練或監(jiān)督微調(diào)階段的核心作用在于幫助模型掌握基本操作和原子能力，而強(qiáng)化學(xué)習(xí)更適合用于學(xué)習(xí)如何組織和調(diào)度這些已有能力，從而形成更高層次的推理和決策結(jié)構(gòu)。這一訓(xùn)練思路與人類技能學(xué)習(xí)理論高度一致，也為當(dāng)前圍繞強(qiáng)化學(xué)習(xí)價(jià)值的分歧提供了一個(gè)清晰的實(shí)踐方向。

此外，這項(xiàng)研究首次使跨任務(wù)泛化這一長(zhǎng)期存在但缺乏解釋的問題變得更加可理解。研究結(jié)果表明，模型在不同任務(wù)之間表現(xiàn)提升的根本原因并非知識(shí)層面的直接遷移，而是技能結(jié)構(gòu)層面的遷移，即模型學(xué)會(huì)了一種更通用的能力組織方式，從而能夠在新的任務(wù)中更有效地利用已有的原子技能。這一視角為理解多種先進(jìn)大語(yǔ)言模型在不同領(lǐng)域中展現(xiàn)出的泛化能力提供了重要的分析框架。

04
強(qiáng)大背景的研究團(tuán)隊(duì)

這篇論文的一作是袁立凡，目前為伊利諾伊大學(xué)香檳分校博士研究生，師從彭昊教授。在此之前，他曾在清華大學(xué)自然語(yǔ)言處理實(shí)驗(yàn)室開展研究工作，與劉知遠(yuǎn)教授等合作，積累了扎實(shí)的大規(guī)模語(yǔ)言模型研究基礎(chǔ)，并與季姮教授團(tuán)隊(duì)保持學(xué)術(shù)合作。

其研究興趣主要集中于大語(yǔ)言模型的反饋學(xué)習(xí)與強(qiáng)化學(xué)習(xí)、可擴(kuò)展數(shù)據(jù)合成方法以及可自我進(jìn)化的人工智能系統(tǒng)設(shè)計(jì)，致力于通過高質(zhì)量反饋和環(huán)境交互提升模型的推理能力、對(duì)齊性與可靠性。

在相關(guān)方向上，他作為作者在 ICLR、ICML 等國(guó)際頂級(jí)會(huì)議及 arXiv 上發(fā)表多項(xiàng)研究成果，提出并參與構(gòu)建了 UltraFeedback、Eurus 等具有影響力的數(shù)據(jù)集與方法，對(duì)推動(dòng)大模型訓(xùn)練范式和反饋增強(qiáng)學(xué)習(xí)研究產(chǎn)生了積極影響。

參考鏈接：https://lifan-yuan.github.io/

論文的另一位一作為陳緯澤，目前在清華大學(xué)自然語(yǔ)言處理實(shí)驗(yàn)室攻讀計(jì)算機(jī)科學(xué)與技術(shù)博士，師從劉知遠(yuǎn)教授。

陳緯澤的主要研究興趣涵蓋大規(guī)模語(yǔ)言模型、智能體系統(tǒng)、多智能體協(xié)作學(xué)習(xí)以及強(qiáng)化學(xué)習(xí)等領(lǐng)域，尤其關(guān)注如何提升語(yǔ)言模型在復(fù)雜任務(wù)推理、協(xié)作與可推廣性方面的能力。

他在構(gòu)建增強(qiáng)型 LLM 基礎(chǔ)架構(gòu)、多智能體系統(tǒng)優(yōu)化、推理能力強(qiáng)化學(xué)習(xí)等方向取得了一系列重要成果，并積極參與多項(xiàng)領(lǐng)先的研究項(xiàng)目，在推動(dòng)語(yǔ)言模型性能效率與泛化能力提升方面做出了貢獻(xiàn)。

作為主要作者或共同作者，陳緯澤在自然語(yǔ)言處理與人工智能領(lǐng)域的頂級(jí)會(huì)議與期刊（如ICLR、NeurIPS 等）上發(fā)表了多篇具有影響力的論文，他的研究成果廣泛被引用，涉及強(qiáng)化學(xué)習(xí)優(yōu)化、多智能體協(xié)作策略等前沿課題，為推動(dòng) LLM 在復(fù)雜協(xié)作與學(xué)習(xí)任務(wù)中的廣泛應(yīng)用提供了理論與實(shí)踐支持。

參考鏈接：https://weizechen.com/

論文的通訊作者為劉知遠(yuǎn)，他是清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系教授、博士生導(dǎo)師，兼任中國(guó)中文信息學(xué)會(huì)理事、社會(huì)媒體處理專委會(huì)副主任等學(xué)術(shù)職務(wù)。

劉知遠(yuǎn)分別于 2006 年、 2011 年于清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系獲得學(xué)士、博士學(xué)位，并在清華大學(xué)開展博士后研究，后留校任教。其主要研究方向包括大模型技術(shù)、自然語(yǔ)言處理、知識(shí)圖譜與語(yǔ)義計(jì)算以及社會(huì)計(jì)算等核心領(lǐng)域。

劉知遠(yuǎn)在國(guó)際主流學(xué)術(shù)會(huì)議和期刊（如Nature Machine Intelligence、ACL、EMNLP、IJCAI 和 AAAI）上發(fā)表了200 余篇論文，其 Google Scholar 引用量超過7萬(wàn)次，反映出廣泛的學(xué)術(shù)影響力。

他在多項(xiàng)國(guó)家級(jí)科研項(xiàng)目中擔(dān)任負(fù)責(zé)人或主要參與者，曾獲教育部自然科學(xué)一等獎(jiǎng)、中國(guó)中文信息學(xué)會(huì)錢偉長(zhǎng)中文信息處理科學(xué)技術(shù)獎(jiǎng)一等獎(jiǎng)、世界互聯(lián)網(wǎng)領(lǐng)先科技成果獎(jiǎng)、北京市青年教學(xué)名師獎(jiǎng)等多項(xiàng)科研獎(jiǎng)勵(lì)，并入選包括國(guó)家青年人才計(jì)劃、Elsevier 中國(guó)高被引學(xué)者、《麻省理工科技評(píng)論》中國(guó)區(qū)“35 歲以下科技創(chuàng)新 35 人榜單”及中國(guó)科協(xié)青年人才托舉工程等人才項(xiàng)目。

參考地址：https://nlp.csai.tsinghua.edu.cn/~lzy/zh.html

另一位通訊作者為丁寧，他是清華大學(xué)電子工程系的助理教授、博士生導(dǎo)師，研究橫跨自然語(yǔ)言處理、機(jī)器學(xué)習(xí)與人工智能等核心領(lǐng)域。

他的主要研究方向是通用智能與推理能力的理論、算法和系統(tǒng)設(shè)計(jì)，特別關(guān)注如何通過強(qiáng)化學(xué)習(xí)、反饋機(jī)制和可擴(kuò)展學(xué)習(xí)方法提升大規(guī)模語(yǔ)言模型和智能系統(tǒng)的推理能力與探索學(xué)習(xí)能力，同時(shí)探索這些技術(shù)在科學(xué)發(fā)現(xiàn)和復(fù)雜任務(wù)中的應(yīng)用。

在學(xué)術(shù)貢獻(xiàn)上，丁寧已在諸如Nature Machine Intelligence、ICLR、NeurIPS、ICML、ACL等國(guó)際頂級(jí)會(huì)議和期刊上發(fā)表多篇高引用論文，其谷歌學(xué)術(shù)引用量超過一萬(wàn)次。

丁寧曾入選中國(guó)科協(xié)青年人才托舉工程，并榮獲包括 ACL 最佳系統(tǒng)演示論文獎(jiǎng)、世界人工智能大會(huì)青年優(yōu)秀論文獎(jiǎng)、中國(guó)算力大會(huì)最佳學(xué)術(shù)論文獎(jiǎng)、清華大學(xué)優(yōu)秀博士論文獎(jiǎng)等多項(xiàng)重要榮譽(yù)。

參考鏈接：https://www.stingning.cn

第三位通訊作者為崔淦渠，目前在上海人工智能實(shí)驗(yàn)室擔(dān)任青年科學(xué)家，并于清華大學(xué)自然語(yǔ)言處理實(shí)驗(yàn)室獲得計(jì)算機(jī)科學(xué)與技術(shù)博士學(xué)位，導(dǎo)師為劉知遠(yuǎn)教授。

崔淦渠的研究方向主要包括大規(guī)模語(yǔ)言模型對(duì)齊、強(qiáng)化學(xué)習(xí)，同時(shí)他也早期從事圖神經(jīng)網(wǎng)絡(luò)及其在圖表示學(xué)習(xí)中的應(yīng)用研究。

他還積極推進(jìn)開源項(xiàng)目和工具的建設(shè)，并因在語(yǔ)言模型強(qiáng)化學(xué)習(xí)與對(duì)齊領(lǐng)域的突出貢獻(xiàn)獲得包括 WAIC 云帆新星獎(jiǎng)、國(guó)家自然科學(xué)基金資助與清華優(yōu)秀博士論文獎(jiǎng)等多項(xiàng)榮譽(yù)。

參考鏈接：https://cgq15.github.io

未經(jīng)「AI科技評(píng)論」授權(quán)，嚴(yán)禁以任何方式在網(wǎng)頁(yè)、論壇、社區(qū)進(jìn)行轉(zhuǎn)載！

公眾號(hào)轉(zhuǎn)載請(qǐng)先在「AI科技評(píng)論」后臺(tái)留言取得授權(quán)，轉(zhuǎn)載時(shí)需標(biāo)注來(lái)源并插入本公眾號(hào)名片。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.