国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

清華劉知遠(yuǎn)團(tuán)隊(duì)論文:在嚴(yán)格可控環(huán)境下重新回答「強(qiáng)化學(xué)習(xí)能否教會(huì)大模型新能力」丨ICLR 2026

0
分享至


強(qiáng)化學(xué)習(xí)改變了模型組織技能的方式,而非簡(jiǎn)單提升指標(biāo)。

作者丨鄭佳美

編輯丨岑峰

隨著大語(yǔ)言模型規(guī)模和預(yù)訓(xùn)練強(qiáng)度的不斷提升,強(qiáng)化學(xué)習(xí)在后訓(xùn)練階段的角色正在發(fā)生微妙變化。

一方面,它仍然是當(dāng)前提升模型推理能力和多步?jīng)Q策表現(xiàn)的關(guān)鍵技術(shù)手段;另一方面,越來(lái)越多的經(jīng)驗(yàn)性結(jié)果表明,在許多任務(wù)上,強(qiáng)化學(xué)習(xí)帶來(lái)的性能提升往往難以與“新能力的形成”直接劃等號(hào)。

尤其是在 pass@k 等評(píng)測(cè)指標(biāo)下,強(qiáng)化學(xué)習(xí)模型與基礎(chǔ)模型之間的差距常常隨著采樣數(shù)的增加而迅速縮小,這使得一種觀點(diǎn)逐漸占據(jù)上風(fēng):強(qiáng)化學(xué)習(xí)可能更多是在對(duì)模型內(nèi)部已有解法進(jìn)行篩選和重排,而非真正拓展模型的能力邊界。

問題在于,這一判斷本身并不容易被驗(yàn)證或反駁。自然語(yǔ)言任務(wù)中,技能邊界高度交織,模型在預(yù)訓(xùn)練階段所接觸的數(shù)據(jù)分布幾乎無(wú)法完全排除,使得性能變化很難被明確歸因于能力結(jié)構(gòu)的改變。在這樣的環(huán)境下,關(guān)于強(qiáng)化學(xué)習(xí)是否“教會(huì)模型新能力”的討論,往往停留在指標(biāo)層面的解釋差異,而缺乏一個(gè)能夠清晰刻畫技能、控制任務(wù)難度并排除干擾因素的實(shí)驗(yàn)基礎(chǔ)。

正是在這樣的背景下,清華大學(xué)的孫茂松、劉知遠(yuǎn)團(tuán)隊(duì)提出了《From f(x) and g(x) to f(g(x)): LLMs Learn New Skills in RL by Composing Old Ones》這項(xiàng)研究。

與其繼續(xù)在復(fù)雜的自然語(yǔ)言任務(wù)中爭(zhēng)論強(qiáng)化學(xué)習(xí)是否“有效”,研究團(tuán)隊(duì)選擇退回到一個(gè)更可控的實(shí)驗(yàn)環(huán)境,轉(zhuǎn)而聚焦一個(gè)更基礎(chǔ)也更根本的問題:強(qiáng)化學(xué)習(xí)究竟能否教會(huì)模型此前并不具備的新能力?如果可以,這些新能力具體是什么,在什么條件下才能被學(xué)習(xí)到,又是否具有跨任務(wù)的泛化性。

在這一問題框架下,研究并未將注意力放在某一具體性能指標(biāo)的提升上,而是假設(shè)模型已經(jīng)掌握了一組基本的原子技能,進(jìn)一步考察強(qiáng)化學(xué)習(xí)是否能夠推動(dòng)模型形成新的能力結(jié)構(gòu),使其學(xué)會(huì)系統(tǒng)性地組合這些技能,從而解決更高難度、甚至分布外任務(wù)中的問題。正是出于對(duì)這些問題的系統(tǒng)性考察需求,研究者才設(shè)計(jì)了這一高度可控的實(shí)驗(yàn)環(huán)境。


論文地址:https://arxiv.org/pdf/2509.25123

01
當(dāng)語(yǔ)言模型開始真正「會(huì)組合」

研究的實(shí)驗(yàn)結(jié)果表明,在合適的激勵(lì)條件下,強(qiáng)化學(xué)習(xí)能夠使大語(yǔ)言模型獲得此前并不存在的新能力,而不僅僅是對(duì)已有答案進(jìn)行重排。

這種新能力具體體現(xiàn)為一種系統(tǒng)性的技能組合能力,即模型能夠?qū)⒁呀?jīng)掌握的原子技能按照結(jié)構(gòu)化方式進(jìn)行組合,并將這一組合策略泛化到更高難度的問題,甚至遷移到完全不同的任務(wù)中。

研究中通過設(shè)計(jì) 20 余個(gè)“非常規(guī)”字符串操作函數(shù),將「函數(shù)結(jié)果預(yù)測(cè)」作為任務(wù)。為徹底排除預(yù)訓(xùn)練語(yǔ)料污染及模型語(yǔ)義聯(lián)想(即根據(jù)函數(shù)名盲猜代碼邏輯)的影響,所有函數(shù)均采用隨機(jī)命名的無(wú)意義字符串。研究核心在于對(duì)比以下兩種能力:

原子能力:指模型在不依賴 Prompt 中函數(shù)定義的前提下,準(zhǔn)確預(yù)測(cè)單一函數(shù)f(x)輸出的能力。

組合能力:指模型預(yù)測(cè)多層復(fù)合函數(shù)(如 f(g(x)))執(zhí)行結(jié)果的能力。

由于函數(shù)隨機(jī)命名,沒有模型具備該任務(wù)的原子能力。因此為了單獨(dú)訓(xùn)練模型在該任務(wù)上的原子能力,在數(shù)據(jù)收集階段,研究者首先在 Prompt 中提供明確的函數(shù)定義以及單函數(shù)的輸出預(yù)測(cè)題目,獲取模型生成的思維鏈與預(yù)測(cè)結(jié)果,且僅保留正確樣本。

隨后在 SFT(監(jiān)督微調(diào))階段,研究者移除了 Prompt 中的函數(shù)定義,讓模型學(xué)習(xí)原本的思維鏈與預(yù)測(cè)結(jié)果。通過這種訓(xùn)練方式,模型被強(qiáng)制將函數(shù)邏輯內(nèi)化至參數(shù)空間,從而在不查閱定義的情況下掌握“原子能力”,為后續(xù)評(píng)估復(fù)雜的“組合能力”奠定基礎(chǔ)。

研究人員在對(duì)擁有了原子能力的SFT模型進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練,通過改變強(qiáng)化學(xué)習(xí)階段提供的題目難度(僅單函數(shù)、僅二層嵌套函數(shù)、單函數(shù)與二層嵌套函數(shù)混合),觀察模型在三層、四層乃至更深層次的組合問題上的測(cè)試性能(這些問題在訓(xùn)練中從未出現(xiàn)過,且所涉及的原子函數(shù)本身也未在強(qiáng)化學(xué)習(xí)階段見過),研究人員發(fā)現(xiàn)僅在單函數(shù)上進(jìn)行強(qiáng)化學(xué)習(xí)的模型,在三層及以上組合任務(wù)上的準(zhǔn)確率幾乎為零,而一旦訓(xùn)練數(shù)據(jù)中包含最基礎(chǔ)的二層嵌套函數(shù),模型在三層組合上的準(zhǔn)確率可提升至約 30%,在四層組合上仍保持約 15%,并在更高層級(jí)上持續(xù)顯著優(yōu)于隨機(jī)水平。

這表明模型并非依賴偶然猜測(cè)或記憶模板,而是學(xué)會(huì)了一種可遞歸使用的組合策略;如果強(qiáng)化學(xué)習(xí)僅僅激活或重排已有推理模式,這種隨組合深度增加仍能發(fā)揮作用的行為是難以解釋的。


進(jìn)一步的對(duì)照實(shí)驗(yàn)顯示,僅提供組合訓(xùn)練數(shù)據(jù)并不足以產(chǎn)生這種能力。研究團(tuán)隊(duì)在完全相同的二層組合數(shù)據(jù)上,用監(jiān)督學(xué)習(xí)替代強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練,發(fā)現(xiàn)這個(gè)模型在三層組合任務(wù)上的準(zhǔn)確率始終處于極低水平,甚至在同一難度但函數(shù)不同的二層組合測(cè)試中也表現(xiàn)不穩(wěn)定。

相比之下,強(qiáng)化學(xué)習(xí)模型不僅能夠穩(wěn)定解決二層組合問題,還能系統(tǒng)性地外推到更深層的組合任務(wù),說明真正起關(guān)鍵作用的是強(qiáng)化學(xué)習(xí)所引入的結(jié)果驅(qū)動(dòng)、探索機(jī)制與策略更新過程,它們共同促使模型形成新的推理結(jié)構(gòu)。


研究還通過跨任務(wù)實(shí)驗(yàn)驗(yàn)證了這種組合能力的通用性:如果模型在A、B任務(wù)上學(xué)習(xí)了原子能力,僅在A任務(wù)上進(jìn)行合適的組合能力強(qiáng)化學(xué)習(xí),模型就能將該能力泛化至B任務(wù)上。在SFT階段,除了先前提及的函數(shù)輸出預(yù)測(cè)任務(wù),研究人員混入了另一個(gè)任務(wù),Countdown任務(wù)的SFT數(shù)據(jù),以使得模型同樣具備Countdown任務(wù)的原子能力。而在強(qiáng)化學(xué)習(xí)階段,仍然只在包含二層嵌套函數(shù)的輸出預(yù)測(cè)任務(wù)上進(jìn)行強(qiáng)化學(xué)習(xí)。

測(cè)試結(jié)果顯示,盡管未在Countdown任務(wù)上進(jìn)行強(qiáng)化學(xué)習(xí),僅在復(fù)合函數(shù)輸出預(yù)測(cè)上進(jìn)行強(qiáng)化學(xué)習(xí)后的模型在多步Countdown任務(wù)上的表現(xiàn)也取得了明顯提升。這表明強(qiáng)化學(xué)習(xí)獲得的并非特定于字符串任務(wù)的技巧,而是一種能夠組織和調(diào)度已有原子技能的通用能力,即一種元技能。然而,這一遷移也是有條件的,在其他任務(wù)上學(xué)到的組合能力并不能泛化到模型不具備原子能力的任務(wù)上,即SFT階段如果未學(xué)習(xí)Countdown的原子能力,模型在強(qiáng)化學(xué)習(xí)后無(wú)法完成Countdown任務(wù)。


針對(duì)“強(qiáng)化學(xué)習(xí)只是將 pass@k 壓縮為 pass@1”的觀點(diǎn),研究人員進(jìn)一步分析了不同難度任務(wù)下的表現(xiàn)差異,發(fā)現(xiàn)這個(gè)現(xiàn)象主要出現(xiàn)在簡(jiǎn)單問題中。在低難度任務(wù)上,基礎(chǔ)模型本就能夠通過多次采樣得到正確答案,強(qiáng)化學(xué)習(xí)的作用確實(shí)主要體現(xiàn)為重排。

而在高難度組合任務(wù)中,基礎(chǔ)模型即使在極大采樣預(yù)算下仍表現(xiàn)不佳,強(qiáng)化學(xué)習(xí)模型的優(yōu)勢(shì)卻隨著采樣數(shù)增加而不斷擴(kuò)大。研究團(tuán)隊(duì)據(jù)此指出,這種“強(qiáng)化學(xué)習(xí)只是重排”的結(jié)論在一定程度上是一種評(píng)測(cè)假象。


最后,錯(cuò)誤類型分析表明,強(qiáng)化學(xué)習(xí)帶來(lái)的變化并不僅體現(xiàn)在準(zhǔn)確率上,而是體現(xiàn)在模型行為結(jié)構(gòu)的根本轉(zhuǎn)變上?;A(chǔ)模型、監(jiān)督學(xué)習(xí)模型以及僅進(jìn)行原子強(qiáng)化學(xué)習(xí)訓(xùn)練的模型,其主要錯(cuò)誤來(lái)源于忽略組合結(jié)構(gòu)或誤解嵌套關(guān)系。

而經(jīng)過組合任務(wù)強(qiáng)化學(xué)習(xí)訓(xùn)練的模型,其錯(cuò)誤更多來(lái)自原子步驟的執(zhí)行失誤,而非對(duì)整體組合結(jié)構(gòu)的誤解。這說明強(qiáng)化學(xué)習(xí)首先教會(huì)模型正確理解和執(zhí)行組合結(jié)構(gòu),即使失敗,也失敗在更低層級(jí),從而體現(xiàn)出一種認(rèn)知層面的變化。


02
從模糊能力到可量化技能

為了保證研究結(jié)論具有高度可信性,研究團(tuán)隊(duì)在實(shí)驗(yàn)設(shè)計(jì)上進(jìn)行了近乎教科書級(jí)的嚴(yán)格控制。

研究人員沒有直接采用自然語(yǔ)言任務(wù),而是選擇了字符串變換函數(shù)作為研究載體,主要原因在于自然語(yǔ)言任務(wù)中技能邊界往往模糊不清,模型表現(xiàn)容易受到預(yù)訓(xùn)練語(yǔ)料的潛在污染,同時(shí)也難以明確判斷模型究竟學(xué)會(huì)了何種能力。

相比之下,字符串變換函數(shù)具有行為完全確定、復(fù)雜度可以被嚴(yán)格控制以及能夠人為構(gòu)造模型在預(yù)訓(xùn)練階段幾乎不可能接觸過的任務(wù)等優(yōu)勢(shì),從而為分析強(qiáng)化學(xué)習(xí)是否產(chǎn)生新能力提供了一個(gè)干凈且可控的實(shí)驗(yàn)環(huán)境。

在這一框架下,研究人員對(duì)“技能”給出了清晰而可操作的定義。原子技能被定義為在給定輸入的情況下,模型能夠正確預(yù)測(cè)單個(gè)函數(shù)作用后的輸出,而組合技能則指模型在面對(duì)嵌套函數(shù)時(shí),能夠正確推斷多個(gè)函數(shù)順序作用后的最終結(jié)果。技能難度由函數(shù)嵌套的深度直接刻畫,這使得“新技能”不再是抽象或主觀的概念,而成為可以被精確檢驗(yàn)和逐層分析的研究對(duì)象。

在訓(xùn)練流程上,研究團(tuán)隊(duì)采用了兩階段設(shè)計(jì),刻意將“掌握單個(gè)技能”和“學(xué)會(huì)組合技能”這兩個(gè)過程分離。第一階段使用監(jiān)督學(xué)習(xí)訓(xùn)練模型,使其充分掌握每一個(gè)字符串變換函數(shù)的具體行為,這一階段僅進(jìn)行一次,用于建立穩(wěn)定的原子技能基礎(chǔ)。

第二階段則完全隱藏函數(shù)定義,僅向模型提供函數(shù)名稱和輸入字符串,從而迫使模型要么真正理解并正確組合已掌握的原子技能,要么在任務(wù)中失敗。在這一階段中,研究人員系統(tǒng)比較了監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)兩種訓(xùn)練方式,其中強(qiáng)化學(xué)習(xí)只提供基于最終結(jié)果正確與否的獎(jiǎng)勵(lì)信號(hào),用以檢驗(yàn)不同訓(xùn)練機(jī)制對(duì)組合能力學(xué)習(xí)的影響。


在評(píng)測(cè)方法上,研究團(tuán)隊(duì)沒有依賴單一的整體指標(biāo),而是從多個(gè)維度對(duì)模型能力進(jìn)行分析。他們通過測(cè)試新函數(shù)的組合能力排除了簡(jiǎn)單記憶的可能,通過更深層次的函數(shù)嵌套考察模型是否形成了可泛化的組合策略,并通過跨任務(wù)遷移實(shí)驗(yàn)檢驗(yàn)?zāi)P褪欠駜H對(duì)特定任務(wù)產(chǎn)生適應(yīng)。

結(jié)合不同難度下的準(zhǔn)確率、不同采樣預(yù)算下的 pass@k 表現(xiàn)以及錯(cuò)誤類型的細(xì)致分析,研究人員構(gòu)建了一條完整而自洽的證據(jù)鏈,從多個(gè)角度支撐了其關(guān)于強(qiáng)化學(xué)習(xí)技能獲取機(jī)制的結(jié)論。

03
關(guān)于 RL 價(jià)值之爭(zhēng),一個(gè)更成熟的回答

這項(xiàng)研究的意義遠(yuǎn)不止于在字符串任務(wù)上取得了具體實(shí)驗(yàn)結(jié)果,更在于其對(duì)當(dāng)前大語(yǔ)言模型強(qiáng)化學(xué)習(xí)研究中的核心爭(zhēng)論給出了實(shí)質(zhì)性回應(yīng)。

圍繞“強(qiáng)化學(xué)習(xí)是否能夠教會(huì)大語(yǔ)言模型新的能力”這一問題,研究團(tuán)隊(duì)并未給出簡(jiǎn)單的肯定或否定答案,而是提出了一個(gè)條件化結(jié)論,即強(qiáng)化學(xué)習(xí)確實(shí)能夠促使模型獲得新的能力,但前提在于模型已經(jīng)具備完成任務(wù)所需的原子技能,同時(shí)訓(xùn)練任務(wù)的設(shè)計(jì)能夠真實(shí)地激勵(lì)模型去使用并發(fā)展這種新能力。這種表述超越了以往非黑即白的討論方式,使相關(guān)爭(zhēng)論在概念上更加精細(xì)和成熟。

在此基礎(chǔ)上,研究還為大語(yǔ)言模型的訓(xùn)練流程提供了一種具有啟發(fā)性的技能分工范式。研究人員隱含提出,預(yù)訓(xùn)練或監(jiān)督微調(diào)階段的核心作用在于幫助模型掌握基本操作和原子能力,而強(qiáng)化學(xué)習(xí)更適合用于學(xué)習(xí)如何組織和調(diào)度這些已有能力,從而形成更高層次的推理和決策結(jié)構(gòu)。這一訓(xùn)練思路與人類技能學(xué)習(xí)理論高度一致,也為當(dāng)前圍繞強(qiáng)化學(xué)習(xí)價(jià)值的分歧提供了一個(gè)清晰的實(shí)踐方向。

此外,這項(xiàng)研究首次使跨任務(wù)泛化這一長(zhǎng)期存在但缺乏解釋的問題變得更加可理解。研究結(jié)果表明,模型在不同任務(wù)之間表現(xiàn)提升的根本原因并非知識(shí)層面的直接遷移,而是技能結(jié)構(gòu)層面的遷移,即模型學(xué)會(huì)了一種更通用的能力組織方式,從而能夠在新的任務(wù)中更有效地利用已有的原子技能。這一視角為理解多種先進(jìn)大語(yǔ)言模型在不同領(lǐng)域中展現(xiàn)出的泛化能力提供了重要的分析框架。

04
強(qiáng)大背景的研究團(tuán)隊(duì)

這篇論文的一作是袁立凡,目前為伊利諾伊大學(xué)香檳分校博士研究生,師從彭昊教授。在此之前,他曾在清華大學(xué)自然語(yǔ)言處理實(shí)驗(yàn)室開展研究工作,與劉知遠(yuǎn)教授等合作,積累了扎實(shí)的大規(guī)模語(yǔ)言模型研究基礎(chǔ),并與季姮教授團(tuán)隊(duì)保持學(xué)術(shù)合作。

其研究興趣主要集中于大語(yǔ)言模型的反饋學(xué)習(xí)與強(qiáng)化學(xué)習(xí)、可擴(kuò)展數(shù)據(jù)合成方法以及可自我進(jìn)化的人工智能系統(tǒng)設(shè)計(jì),致力于通過高質(zhì)量反饋和環(huán)境交互提升模型的推理能力、對(duì)齊性與可靠性。

在相關(guān)方向上,他作為作者在 ICLR、ICML 等國(guó)際頂級(jí)會(huì)議及 arXiv 上發(fā)表多項(xiàng)研究成果,提出并參與構(gòu)建了 UltraFeedback、Eurus 等具有影響力的數(shù)據(jù)集與方法,對(duì)推動(dòng)大模型訓(xùn)練范式和反饋增強(qiáng)學(xué)習(xí)研究產(chǎn)生了積極影響。


參考鏈接:https://lifan-yuan.github.io/

論文的另一位一作為陳緯澤,目前在清華大學(xué)自然語(yǔ)言處理實(shí)驗(yàn)室攻讀計(jì)算機(jī)科學(xué)與技術(shù)博士,師從劉知遠(yuǎn)教授。

陳緯澤的主要研究興趣涵蓋大規(guī)模語(yǔ)言模型、智能體系統(tǒng)、多智能體協(xié)作學(xué)習(xí)以及強(qiáng)化學(xué)習(xí)等領(lǐng)域,尤其關(guān)注如何提升語(yǔ)言模型在復(fù)雜任務(wù)推理、協(xié)作與可推廣性方面的能力。

他在構(gòu)建增強(qiáng)型 LLM 基礎(chǔ)架構(gòu)、多智能體系統(tǒng)優(yōu)化、推理能力強(qiáng)化學(xué)習(xí)等方向取得了一系列重要成果,并積極參與多項(xiàng)領(lǐng)先的研究項(xiàng)目,在推動(dòng)語(yǔ)言模型性能效率與泛化能力提升方面做出了貢獻(xiàn)。

作為主要作者或共同作者,陳緯澤在自然語(yǔ)言處理與人工智能領(lǐng)域的頂級(jí)會(huì)議與期刊(如ICLR、NeurIPS 等)上發(fā)表了多篇具有影響力的論文,他的研究成果廣泛被引用,涉及強(qiáng)化學(xué)習(xí)優(yōu)化、多智能體協(xié)作策略等前沿課題,為推動(dòng) LLM 在復(fù)雜協(xié)作與學(xué)習(xí)任務(wù)中的廣泛應(yīng)用提供了理論與實(shí)踐支持。


參考鏈接:https://weizechen.com/

論文的通訊作者為劉知遠(yuǎn),他是清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系教授、博士生導(dǎo)師,兼任中國(guó)中文信息學(xué)會(huì)理事、社會(huì)媒體處理專委會(huì)副主任等學(xué)術(shù)職務(wù)。

劉知遠(yuǎn)分別于 2006 年、 2011 年于清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系獲得學(xué)士、博士學(xué)位,并在清華大學(xué)開展博士后研究,后留校任教。其主要研究方向包括大模型技術(shù)、自然語(yǔ)言處理、知識(shí)圖譜與語(yǔ)義計(jì)算以及社會(huì)計(jì)算等核心領(lǐng)域。

劉知遠(yuǎn)在國(guó)際主流學(xué)術(shù)會(huì)議和期刊(如Nature Machine Intelligence、ACL、EMNLP、IJCAI 和 AAAI)上發(fā)表了200 余篇論文,其 Google Scholar 引用量超過7萬(wàn)次,反映出廣泛的學(xué)術(shù)影響力。

他在多項(xiàng)國(guó)家級(jí)科研項(xiàng)目中擔(dān)任負(fù)責(zé)人或主要參與者,曾獲教育部自然科學(xué)一等獎(jiǎng)、中國(guó)中文信息學(xué)會(huì)錢偉長(zhǎng)中文信息處理科學(xué)技術(shù)獎(jiǎng)一等獎(jiǎng)、世界互聯(lián)網(wǎng)領(lǐng)先科技成果獎(jiǎng)、北京市青年教學(xué)名師獎(jiǎng)等多項(xiàng)科研獎(jiǎng)勵(lì),并入選包括國(guó)家青年人才計(jì)劃、Elsevier 中國(guó)高被引學(xué)者、《麻省理工科技評(píng)論》中國(guó)區(qū)“35 歲以下科技創(chuàng)新 35 人榜單”及中國(guó)科協(xié)青年人才托舉工程等人才項(xiàng)目。


參考地址:https://nlp.csai.tsinghua.edu.cn/~lzy/zh.html

另一位通訊作者為丁寧,他是清華大學(xué)電子工程系的助理教授、博士生導(dǎo)師,研究橫跨自然語(yǔ)言處理、機(jī)器學(xué)習(xí)與人工智能等核心領(lǐng)域。

他的主要研究方向是通用智能與推理能力的理論、算法和系統(tǒng)設(shè)計(jì),特別關(guān)注如何通過強(qiáng)化學(xué)習(xí)、反饋機(jī)制和可擴(kuò)展學(xué)習(xí)方法提升大規(guī)模語(yǔ)言模型和智能系統(tǒng)的推理能力與探索學(xué)習(xí)能力,同時(shí)探索這些技術(shù)在科學(xué)發(fā)現(xiàn)和復(fù)雜任務(wù)中的應(yīng)用。

在學(xué)術(shù)貢獻(xiàn)上,丁寧已在諸如Nature Machine Intelligence、ICLR、NeurIPS、ICML、ACL等國(guó)際頂級(jí)會(huì)議和期刊上發(fā)表多篇高引用論文,其谷歌學(xué)術(shù)引用量超過一萬(wàn)次。

丁寧曾入選中國(guó)科協(xié)青年人才托舉工程,并榮獲包括 ACL 最佳系統(tǒng)演示論文獎(jiǎng)、世界人工智能大會(huì)青年優(yōu)秀論文獎(jiǎng)、中國(guó)算力大會(huì)最佳學(xué)術(shù)論文獎(jiǎng)、清華大學(xué)優(yōu)秀博士論文獎(jiǎng)等多項(xiàng)重要榮譽(yù)。


參考鏈接:https://www.stingning.cn

第三位通訊作者為崔淦渠,目前在上海人工智能實(shí)驗(yàn)室擔(dān)任青年科學(xué)家,并于清華大學(xué)自然語(yǔ)言處理實(shí)驗(yàn)室獲得計(jì)算機(jī)科學(xué)與技術(shù)博士學(xué)位,導(dǎo)師為劉知遠(yuǎn)教授。

崔淦渠的研究方向主要包括大規(guī)模語(yǔ)言模型對(duì)齊、強(qiáng)化學(xué)習(xí),同時(shí)他也早期從事圖神經(jīng)網(wǎng)絡(luò)及其在圖表示學(xué)習(xí)中的應(yīng)用研究。

他還積極推進(jìn)開源項(xiàng)目和工具的建設(shè),并因在語(yǔ)言模型強(qiáng)化學(xué)習(xí)與對(duì)齊領(lǐng)域的突出貢獻(xiàn)獲得包括 WAIC 云帆新星獎(jiǎng)、國(guó)家自然科學(xué)基金資助與清華優(yōu)秀博士論文獎(jiǎng)等多項(xiàng)榮譽(yù)。


參考鏈接:https://cgq15.github.io

未經(jīng)「AI科技評(píng)論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁(yè)、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!

公眾號(hào)轉(zhuǎn)載請(qǐng)先在「AI科技評(píng)論」后臺(tái)留言取得授權(quán),轉(zhuǎn)載時(shí)需標(biāo)注來(lái)源并插入本公眾號(hào)名片。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
90后常德小伙歷時(shí)8天從伊朗回到湖南:此前赴死的心都有了,和平真好

90后常德小伙歷時(shí)8天從伊朗回到湖南:此前赴死的心都有了,和平真好

瀟湘晨報(bào)
2026-03-10 19:14:12
伊朗女足抵達(dá)機(jī)場(chǎng)!球員被困車內(nèi)+發(fā)出求救信號(hào) 家人警告:別回來(lái)

伊朗女足抵達(dá)機(jī)場(chǎng)!球員被困車內(nèi)+發(fā)出求救信號(hào) 家人警告:別回來(lái)

念洲
2026-03-10 19:45:58
新款?yuàn)W迪A6L預(yù)售價(jià)公布:32.3萬(wàn)元起

新款?yuàn)W迪A6L預(yù)售價(jià)公布:32.3萬(wàn)元起

界面新聞
2026-03-10 15:38:51
2026年清明將至,這5類人切記別上墳,老祖宗的忠告別當(dāng)耳旁風(fēng)

2026年清明將至,這5類人切記別上墳,老祖宗的忠告別當(dāng)耳旁風(fēng)

老特有話說
2026-03-08 15:30:41
曝伊朗女足已正式登機(jī)離開澳洲:多人落淚+反抗未果 有2人成功留下

曝伊朗女足已正式登機(jī)離開澳洲:多人落淚+反抗未果 有2人成功留下

風(fēng)過鄉(xiāng)
2026-03-10 21:14:19
江蘇:“巨無(wú)霸”高鐵站破土而出,投資152億震撼來(lái)襲。...

江蘇:“巨無(wú)霸”高鐵站破土而出,投資152億震撼來(lái)襲。...

科學(xué)發(fā)掘
2026-03-10 11:12:41
1930年,37歲白崇禧和副官未婚妻生下長(zhǎng)子,妻子直接殺了過來(lái)

1930年,37歲白崇禧和副官未婚妻生下長(zhǎng)子,妻子直接殺了過來(lái)

史之銘
2026-03-10 17:55:32
金與正發(fā)出警告:后果可怕,不堪設(shè)想!

金與正發(fā)出警告:后果可怕,不堪設(shè)想!

IN朝鮮
2026-03-10 16:38:48
揪心!曝伊朗女足球員被強(qiáng)行拖上車:淚流滿面去機(jī)場(chǎng) 大巴車內(nèi)求救

揪心!曝伊朗女足球員被強(qiáng)行拖上車:淚流滿面去機(jī)場(chǎng) 大巴車內(nèi)求救

風(fēng)過鄉(xiāng)
2026-03-10 21:00:08
打亂套了!俄羅斯公開支持伊朗,烏克蘭軍隊(duì)將赴中東協(xié)助美以作戰(zhàn)

打亂套了!俄羅斯公開支持伊朗,烏克蘭軍隊(duì)將赴中東協(xié)助美以作戰(zhàn)

史政先鋒
2026-03-09 19:30:53
第十日中東戰(zhàn)況:第8名美軍陣亡,伊朗最厲害武器竟不是導(dǎo)彈

第十日中東戰(zhàn)況:第8名美軍陣亡,伊朗最厲害武器竟不是導(dǎo)彈

裝甲鏟史官
2026-03-10 14:12:51
毛主席:晚年重用了這3個(gè)人物,從此徹底改寫了中國(guó)未來(lái)命運(yùn)

毛主席:晚年重用了這3個(gè)人物,從此徹底改寫了中國(guó)未來(lái)命運(yùn)

優(yōu)趣紀(jì)史記
2026-03-10 11:15:34
陳皮加它一起煮,倒頭就睡還疏肝寧神,我靠這招睡飽覺氣色好

陳皮加它一起煮,倒頭就睡還疏肝寧神,我靠這招睡飽覺氣色好

江江食研社
2026-03-10 14:13:03
李大齊是最懂周迅美的人,他給周迅做的造型將周迅的美發(fā)揮到極致

李大齊是最懂周迅美的人,他給周迅做的造型將周迅的美發(fā)揮到極致

上官晚安
2026-03-10 06:04:00
隨著印度1-3,越南0-4,中國(guó)女足四分之一決賽對(duì)手正式誕生

隨著印度1-3,越南0-4,中國(guó)女足四分之一決賽對(duì)手正式誕生

側(cè)身凌空斬
2026-03-10 19:01:07
行程有變,特朗普訪華規(guī)格縮水,中方對(duì)美說不,美國(guó)先遣隊(duì)已離京

行程有變,特朗普訪華規(guī)格縮水,中方對(duì)美說不,美國(guó)先遣隊(duì)已離京

科普100克克
2026-03-10 16:14:17
「?jìng)b客島」美國(guó)打伊朗,歐洲為啥“不跟”?

「?jìng)b客島」美國(guó)打伊朗,歐洲為啥“不跟”?

海外網(wǎng)
2026-03-10 19:32:05
別盯著比亞迪了,干掉蔚來(lái)?yè)Q電的大概率是寧德時(shí)代

別盯著比亞迪了,干掉蔚來(lái)?yè)Q電的大概率是寧德時(shí)代

鈦媒體APP
2026-03-10 17:22:25
伊朗提出?;鹗滓獥l件 伊外長(zhǎng)稱新任最高領(lǐng)袖不會(huì)與美談判

伊朗提出?;鹗滓獥l件 伊外長(zhǎng)稱新任最高領(lǐng)袖不會(huì)與美談判

上游新聞
2026-03-10 13:40:14
中國(guó)女足或直通世界杯!八強(qiáng)戰(zhàn)對(duì)陣中國(guó)臺(tái)北,26戰(zhàn)全勝僅丟2球

中國(guó)女足或直通世界杯!八強(qiáng)戰(zhàn)對(duì)陣中國(guó)臺(tái)北,26戰(zhàn)全勝僅丟2球

奧拜爾
2026-03-10 19:03:04
2026-03-10 23:12:49
AI科技評(píng)論 incentive-icons
AI科技評(píng)論
點(diǎn)評(píng)學(xué)術(shù),服務(wù)AI
7111文章數(shù) 20739關(guān)注度
往期回顧 全部

教育要聞

快!南京這些熱門民辦校“動(dòng)”了!

頭條要聞

小伙輾轉(zhuǎn)8天回國(guó):后悔賺錢賺到伊朗 赴死的心都有了

頭條要聞

小伙輾轉(zhuǎn)8天回國(guó):后悔賺錢賺到伊朗 赴死的心都有了

體育要聞

加蘭沒那么差,但鱸魚會(huì)用嗎?

娛樂要聞

《逐玉》注水風(fēng)波升級(jí)!315評(píng)論區(qū)淪陷

財(cái)經(jīng)要聞

“龍蝦補(bǔ)貼”密集出爐 最高1000萬(wàn)!

科技要聞

全民"養(yǎng)蝦"背后:大廠集體下場(chǎng)瘋狂賣Token

汽車要聞

MG4有SUV衍生 上汽乘用車多款新車規(guī)劃曝光

態(tài)度原創(chuàng)

手機(jī)
旅游
數(shù)碼
公開課
軍事航空

手機(jī)要聞

7999起,小米17 Ultra徠卡版全新黑銀色開售

旅游要聞

瀘溪縣大陂流村油菜花綻放 滿目金黃迎客來(lái)

數(shù)碼要聞

羅德R?DE新推一體化音視頻方案,功能超強(qiáng)大!

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

剛說完戰(zhàn)爭(zhēng)很快結(jié)束 特朗普改口

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版