国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

姚順雨團隊最新成果:從Context探索語言模型的范式轉(zhuǎn)變

0
分享至

轉(zhuǎn)載自:

“模型想要邁向高價值應(yīng)用,核心瓶頸就在于能否用好 Context。”

2月3日,騰訊混元官網(wǎng)技術(shù)博客(Tencent HY Research)正式上線并發(fā)表了一篇名為

《從 Context 學(xué)習(xí),遠比我們想象的要難》
的文章,系統(tǒng)的介紹了騰訊混元團隊聯(lián)合復(fù)旦大學(xué)的一項新研究。

這是姚順雨加入騰訊擔(dān)任首席AI科學(xué)家后帶領(lǐng)團隊首次發(fā)布研究成果,也是騰訊混元技術(shù)博客首次公開。這一博客的推出,旨在分享騰訊混元研究員在前沿技術(shù)研究和實踐中的探索與經(jīng)驗,呈現(xiàn)創(chuàng)新思路與技術(shù)洞察。


詳情見:

  • 項目主頁:

    www.clbench.com
  • Blog:

    https://hy.tencent.com/research

從 Context 學(xué)習(xí),遠比我們想象的要難

我們需要 AI 成為 Context 學(xué)習(xí)者

過去幾年,大語言模型的進化速度快得令人驚嘆。如今的前沿模型,已經(jīng)是頂級的“做題家”:它們能解開奧數(shù)級別的難題,能推演復(fù)雜的編程邏輯,甚至能通過那些人類需要苦讀數(shù)年才能拿下的專業(yè)資格考試。

然而,這些耀眼的成績單可能掩蓋了一個真相:能在考場拿滿分的學(xué)生,未必能勝任真實世界的工作。

回看我們?nèi)祟惖娜粘9ぷ鳎洪_發(fā)者掃過從未見過的工具文檔,就能立刻開始調(diào)試代碼;玩家拿起新游戲的規(guī)則書,在實戰(zhàn)中邊玩邊學(xué);科學(xué)家從復(fù)雜的實驗日志中篩選數(shù)據(jù),推導(dǎo)出新的結(jié)論和定律。我們發(fā)現(xiàn)在這些場景中,人類并不只依賴多年前學(xué)到的“死知識”,而是在實時地從眼前的 Context 中學(xué)習(xí)。



圖:三個人類日常生活和工作場景的例子。這三個例子分別為:
面對 SkyNet 無人機 SDK 文檔 (~70K 字),將自然語言所表達的飛行請求轉(zhuǎn)成安全、合規(guī)的 SDK 偽代碼;
直接上手玩一款游戲:給定一款新游戲的完整規(guī)則 (~15K 字),分析隱藏房間場景并給出可能結(jié)果;
分析300 份原始實驗日志,驗證數(shù)據(jù)、推導(dǎo)關(guān)系式并估計共振常數(shù)。

然而,今天的語言模型并非如此。它們主要依賴“參數(shù)化知識”——即在預(yù)訓(xùn)練階段被壓縮進模型權(quán)重里的靜態(tài)記憶。在推理時,模型更多是在調(diào)用這些封存的內(nèi)部知識,而不是主動從當前輸入的新信息中汲取營養(yǎng)。

這揭示了當前模型的訓(xùn)練范式和在真實場景中應(yīng)用之間是不匹配的:我們優(yōu)化出的模型擅長對自己“已知”的事物進行推理,但用戶需要的,卻是讓模型解決那些依賴于雜亂、動態(tài)變化的 Context 的任務(wù)。

簡而言之:我們造出了依賴“過去”的參數(shù)推理者,但世界需要的是能吸收“當下”環(huán)境的 Context 學(xué)習(xí)者。要彌合這一差距,我們必須從根本上改變模型的優(yōu)化方向。



圖 :語言模型的范式轉(zhuǎn)變。

CL-bench: 衡量模型的Context學(xué)習(xí)能力

為了衡量現(xiàn)有模型距離真正的“Context Learner”還有多遠,我們構(gòu)建了 CL-bench。這是一個專門評測語言模型能否從 Context 中學(xué)習(xí)新知識并正確應(yīng)用的基準。
CL-bench 包含由資深領(lǐng)域?qū)<揖闹谱鞯?500 個復(fù)雜Context、1,899 個任務(wù)和 31,607 個驗證標準。CL-bench只包含一個簡單但苛刻的要求:解決每個任務(wù)要求模型必須從 Context 中學(xué)習(xí)到模型預(yù)訓(xùn)練中不存在的新知識,并正確應(yīng)用。
模型需要學(xué)習(xí)的知識非常廣泛。它包括新的領(lǐng)域知識、不熟悉的規(guī)則系統(tǒng)、復(fù)雜的產(chǎn)品工作流,甚至是必須從實驗數(shù)據(jù)中推導(dǎo)歸納出的定律或結(jié)論。
所有這些知識要么是由領(lǐng)域?qū)<彝耆聵?gòu)建的,要么是取自那些不太可能出現(xiàn)在當前前沿模型訓(xùn)練數(shù)據(jù)中的小眾、長尾來源。因此,模型無法通過回憶靜態(tài)的參數(shù)化知識來解決任務(wù),都要求模型從提供的 Context 進行學(xué)習(xí)并應(yīng)用。
具體來說,CL-bench 涵蓋了四種廣泛的現(xiàn)實世界 Context 學(xué)習(xí)場景:



圖:CL-bench 的
Context
分類體系。

  • 領(lǐng)域知識推理:Context 提供特定的領(lǐng)域知識(例如,虛構(gòu)的法律體系、創(chuàng)新的金融工具或小眾專業(yè)知識)。模型需要利用這些知識來推理并解決具體問題。

  • 規(guī)則系統(tǒng)應(yīng)用:Context 提供新定義的正式系統(tǒng)(例如,新的游戲機制、數(shù)學(xué)形式體系、編程語法或技術(shù)標準)。模型必須理解并應(yīng)用這些規(guī)則來執(zhí)行任務(wù)。

  • 程序性任務(wù)執(zhí)行:Context 提供復(fù)雜的過程系統(tǒng)(例如,工作流、產(chǎn)品手冊和操作指南)。模型必須理解并應(yīng)用這些程序性信息來完成任務(wù)。

  • 經(jīng)驗發(fā)現(xiàn)與模擬:Context 提供復(fù)雜系統(tǒng)內(nèi)的實驗數(shù)據(jù)、觀測記錄或模擬環(huán)境。與前幾類涉及演繹推理不同,這一類專注于歸納推理,也是最具挑戰(zhàn)性的。模型必須從數(shù)據(jù)中發(fā)現(xiàn)潛在的定律或結(jié)論,并應(yīng)用它們來解決任務(wù)。



圖:CL-bench 示例。解決這些任務(wù)要求語言模型
從提供的
Context
中學(xué)習(xí)。圖中這四個案例分別是:
在一部長達 2.3 萬字、剛剛生效的新法律下判一起真
實糾紛;
基于一門新設(shè)計的教育編程語言規(guī)范,實現(xiàn)一個帶有時間條件終止的周期性程序;
在一套從未見過的編程框架中執(zhí)行代碼;
在給定技術(shù)規(guī)格和長期環(huán)境政策情景的條件下,模擬關(guān)鍵技術(shù)金屬的可持續(xù)全球供應(yīng)。

這些類別包含了大部分現(xiàn)實世界工作中常見的演繹推理和歸納推理任務(wù),能充分衡量模型的 Context 學(xué)習(xí)能力。關(guān)于 CL-bench 的更多細節(jié),請參閱我們的論文 [1]。

CL-bench 的設(shè)計原則和特性

CL-bench 圍繞一個簡單但嚴格的設(shè)計原則構(gòu)建:每個任務(wù)都必須要求從 Context 中學(xué)習(xí)新知識。 CL-bench 中的每個 Context 都是完全自包含(Self-contained)的。解決任務(wù)所需的所有信息都顯式地提供在 Context 本身之中:不需要外部檢索,也不允許隱藏假設(shè)。



圖:
解決CL-bench 中的任務(wù)需要模型從相應(yīng)的 context 中學(xué)習(xí)新知識。

為了確保性能真正反映 Context 學(xué)習(xí),而不是記憶或數(shù)據(jù)泄露,CL-bench 采用了無污染(Contamination-free)設(shè)計:

  • 虛構(gòu)創(chuàng)作:專家創(chuàng)作完全虛構(gòu)的內(nèi)容,例如為虛構(gòu)國家設(shè)計一套完整的法律體系(包括新穎的判例和法律原則),或創(chuàng)建具有獨特語法和語義的新編程語言。

  • 現(xiàn)有內(nèi)容的修改:專家修改現(xiàn)實世界的內(nèi)容以創(chuàng)建變體,例如更改歷史事件、改變科學(xué)和數(shù)學(xué)定義,或修改技術(shù)文檔和標準。

  • 整合小眾和新興內(nèi)容:專家納入了在預(yù)訓(xùn)練數(shù)據(jù)集中代表性極低的小眾或近期新興內(nèi)容,如前沿研究發(fā)現(xiàn)、新發(fā)布的產(chǎn)品手冊或技術(shù)文檔,以及來自專門領(lǐng)域的特定知識。

在不提供任何 Context 的情況下,最先進的模型 GPT-5.1 (High) 僅能解決不到 1% 的任務(wù)。這有力地證明了數(shù)據(jù)是無污染的,模型若不從 Context 中學(xué)習(xí),幾乎完全無法解決這些任務(wù)。

此外,CL-bench 的設(shè)計具有高復(fù)雜性和序列依賴性。51.1% 的任務(wù)需要序列依賴,意味著后續(xù)任務(wù)的解決方案取決于早期交互的結(jié)果。這種多輪次設(shè)計顯著增加了任務(wù)難度。平均而言,領(lǐng)域?qū)<一ㄙM約 20 小時標注每個 Context ,以確保任務(wù)構(gòu)建的質(zhì)量和深度。

CL-bench 中的每個任務(wù)都是完全可驗證的。平均而言,每個 Context 關(guān)聯(lián) 63.2 個驗證標準,每個任務(wù)包含 16.6 個評估標準。每個任務(wù)的正確性都從多個角度進行評估,確保了評估的全面性。

部分實驗發(fā)現(xiàn)

我們在 CL-bench 上評估了十個最先進的語言模型。結(jié)果揭示了清晰且一致的差距。



表:十個前沿模型在 CL-bench 上的任務(wù)解決率。所有模型均在推理模式下進行評估,結(jié)果報告為三次運行的平均值 ± 標準差 (%)。

平均而言,模型僅解決了 17.2% 的任務(wù)。即便是表現(xiàn)最好的模型 GPT-5.1 (High),也僅達到了 23.7%。換句話說,盡管 Context 中擁有解決每個任務(wù)所需的全部信息,模型在絕大多數(shù)任務(wù)上都失敗了。這表明當前的 SOTA 模型幾乎不會從 Context 中學(xué)習(xí)。

還有幾個額外的現(xiàn)象值得注意:

1、忽略或誤用Context是導(dǎo)致失敗的主要原因。許多錯誤并非源于信息缺失,而是源于模型忽視了 Context 中的關(guān)鍵細節(jié),或錯誤地應(yīng)用了它們。在許多情況下,模型只會利用預(yù)訓(xùn)練學(xué)習(xí)到的靜態(tài)知識來解決任務(wù),即使 Context 明確定義了新的規(guī)則、概念或程序,模型也不會學(xué)習(xí)和利用。



表:各模型錯誤類型的分布(因為一個solutions可能有多種錯誤原因,所以每行錯誤率總和大于100%)。

2、Context推理和指令遵循是必要的,但不是充分條件。案例分析表明,那些難以跨長 Context 追蹤依賴關(guān)系或難以精確遵循約束的模型,往往表現(xiàn)得更差。然而,即使是能夠處理長輸入并可靠遵循指令的模型,仍然在許多任務(wù)上失敗。Context 學(xué)習(xí)需要的能力,遠不止長 Context 理解和指令遵循能力。

3、從實驗數(shù)據(jù)和環(huán)境模擬中進行歸納推理比演繹應(yīng)用更困難。演繹任務(wù)讓模型根據(jù) context 中明確給出的規(guī)則和流程進行應(yīng)用,而經(jīng)驗發(fā)現(xiàn)和環(huán)境模擬類任務(wù)則要求 歸納推理——從數(shù)據(jù)中總結(jié)規(guī)律或在虛擬環(huán)境中探索。模型在這類任務(wù)上的表現(xiàn)明顯較差,任務(wù)解決率通常低于 10%,且結(jié)果波動大。這表明發(fā)現(xiàn)規(guī)律遠比應(yīng)用規(guī)則更具挑戰(zhàn)性。



圖:GPT-5.1 在高/低推理強度設(shè)置下,各子類別表現(xiàn)對比。

4、更高的推理強度通常能提升 context 學(xué)習(xí)效果。對部分模型來說,增加推理強度可以改善表現(xiàn),使模型更深入地理解復(fù)雜 context 。例如,GPT-5.1 在管理類和實驗數(shù)據(jù)類任務(wù)上的表現(xiàn)提升約 6%。但其他模型提升有限甚至可能下降,說明單靠更多推理并不足夠,模型還必須能夠正確吸收和組織 context 信息。



圖:不同輸入長度下模型上下文學(xué)習(xí)表現(xiàn)的變化趨勢。(不同 context 下模型的表現(xiàn)變化呈現(xiàn)相似趨勢。)

5、Context 學(xué)習(xí)的難度與 context 長度相關(guān),但短 context 也可能很復(fù)雜。較長的 context 通常讓所有模型的任務(wù)更難,這驗證了長 context 處理仍是關(guān)鍵瓶頸。然而,即使是短 context ,如果包含信息密集、規(guī)則隱含、依賴復(fù)雜或約束嚴格的內(nèi)容,也依然很具挑戰(zhàn)性,說明 context 學(xué)習(xí)的難度不僅僅來源于長度,也來自于其復(fù)雜度。

更多發(fā)現(xiàn)請參見我們的論文 [1]。綜上所述,CL-bench 揭示了一個不能被忽視的現(xiàn)象:當今的前沿語言模型還仍然不會利用 Context ,從 Context 中學(xué)習(xí)。

CL-bench充分解釋了語言模型在真實場景中為什么經(jīng)常出錯:即使有了 Context 工程,給模型準備好了所需的 Context ,模型也會失敗。如果模型不能真正從中學(xué)習(xí),僅僅提供 Context 是不夠的。 Context 學(xué)習(xí)作為一項模型基礎(chǔ)的學(xué)習(xí)能力,很大程度上被忽視了。

展望未來

在意識到模型與人類在 Context 學(xué)習(xí)上的差距后,一個自然的問題是:如何提升這種能力?但我們可以想得更遠一點:如果 Context 學(xué)習(xí)的問題已經(jīng)被解決了,世界會變成怎樣?

如果模型的 Context 學(xué)習(xí)能力能像之前其他能力那樣被提升上去,人類在 AI 系統(tǒng)中的角色將發(fā)生轉(zhuǎn)變:我們不再是主要的數(shù)據(jù)提供者(training data provider),而變成了Context 提供者。競爭的焦點將從“誰能把模型訓(xùn)練得更好”,轉(zhuǎn)向“誰能為任務(wù)提供最豐富、最相關(guān)的 Context ”。

但其實這里還有一個挑戰(zhàn)。即便 Context 學(xué)習(xí)足夠強大,它目前依然是臨時性的(Ephemeral):模型的 Context 窗口一旦清空,學(xué)到的知識隨之消失。因此,我們還要關(guān)注如何讓從 Context 中習(xí)得的知識持久化?這種知識不僅是事實,還包括能幫助模型跨任務(wù)遷移的技能、經(jīng)驗和模式等。



圖 :記憶是鞏固語言模型通
Context
學(xué)習(xí)所獲經(jīng)驗的關(guān)鍵。

因此,如何記憶很可能成為 2026 年的另一個核心主題。 要充分發(fā)揮語言模型的潛力,可能需要新的架構(gòu)、新的優(yōu)化方式來決定“該保留什么”。

一旦 Context 學(xué)習(xí)與記憶變得可靠,模型或許就能實現(xiàn)自主學(xué)習(xí):它們將自主準備 Context ,從中學(xué)習(xí)并自我鞏固。

這聽上去多么令人興奮!但當下我們的目標很明確:讓“ Context 學(xué)習(xí)”真正走向現(xiàn)實!

[1] CL-bench: A Benchmark for Context Learning

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
佩澤上位,塵埃落定,上兵伐謀,戰(zhàn)爭必須是政治戰(zhàn)

佩澤上位,塵埃落定,上兵伐謀,戰(zhàn)爭必須是政治戰(zhàn)

曉看說
2026-03-01 14:00:47
曼聯(lián)vs水晶宮:謝什科、梅努首發(fā),姆伯莫、卡塞米羅出戰(zhàn)

曼聯(lián)vs水晶宮:謝什科、梅努首發(fā),姆伯莫、卡塞米羅出戰(zhàn)

懂球帝
2026-03-01 21:09:57
一種戴久了可能致癌的首飾,很多人家里都有!

一種戴久了可能致癌的首飾,很多人家里都有!

距離距離
2026-02-26 13:18:17
火箭輸給熱:烏度卡又輸斯波教練

火箭輸給熱:烏度卡又輸斯波教練

張佳瑋寫字的地方
2026-03-01 08:31:49
迪麗熱巴腳真大啊

迪麗熱巴腳真大啊

手工制作阿殲
2026-03-01 11:20:11
智駕“小藍燈”的高速奇遇:被別車、被調(diào)戲、被當“瘟神”

智駕“小藍燈”的高速奇遇:被別車、被調(diào)戲、被當“瘟神”

經(jīng)濟觀察報
2026-02-28 11:31:11
50歲舒淇和老公馮德倫回臺北娘家拜年,倆人古怪玩鬧,真的好歡樂

50歲舒淇和老公馮德倫回臺北娘家拜年,倆人古怪玩鬧,真的好歡樂

草莓解說體育
2026-03-01 12:14:23
圓桌|美以企圖斬首伊朗領(lǐng)導(dǎo)層,但靠空襲難以顛覆政權(quán)

圓桌|美以企圖斬首伊朗領(lǐng)導(dǎo)層,但靠空襲難以顛覆政權(quán)

澎湃新聞
2026-02-28 20:42:27
圖片報:賽后詹坐在車上一動不動,多位拜仁&多特球員去安慰他

圖片報:賽后詹坐在車上一動不動,多位拜仁&多特球員去安慰他

懂球帝
2026-03-01 19:00:55
“整個寒假都不弄,開學(xué)了帶孩子整牙!”二百萬媽媽又火了!

“整個寒假都不弄,開學(xué)了帶孩子整牙!”二百萬媽媽又火了!

知曉科普
2026-02-28 20:17:30
德媒記者參觀宇樹被拒絕入內(nèi),記者:里面有可用于戰(zhàn)斗的機器人

德媒記者參觀宇樹被拒絕入內(nèi),記者:里面有可用于戰(zhàn)斗的機器人

我心縱橫天地間
2026-03-01 14:09:47
大批美國游客涌入中國,回國后坦言:客觀對比,中國比美國強多了

大批美國游客涌入中國,回國后坦言:客觀對比,中國比美國強多了

通文知史
2026-02-26 22:00:04
大戰(zhàn)可能馬上開始了

大戰(zhàn)可能馬上開始了

安安說
2026-02-25 10:11:39
網(wǎng)傳新能源汽車開征“里程稅” 收費0.12元/公里 多地回應(yīng)

網(wǎng)傳新能源汽車開征“里程稅” 收費0.12元/公里 多地回應(yīng)

快科技
2026-02-27 21:58:15
3500億訂單被取消!美方想要圍堵芯片,卻意外炸出中方底牌

3500億訂單被取消!美方想要圍堵芯片,卻意外炸出中方底牌

劉曠
2026-02-28 17:52:18
賭中國不會還手?巴拿馬總統(tǒng)被秒打臉,中方第五波反制馬上就到

賭中國不會還手?巴拿馬總統(tǒng)被秒打臉,中方第五波反制馬上就到

石江月
2026-02-28 17:09:34
修車師傅不會主動教你:8個養(yǎng)車細節(jié),車能多開好幾年

修車師傅不會主動教你:8個養(yǎng)車細節(jié),車能多開好幾年

沙雕小琳琳
2026-02-28 12:09:35
郭德綱也沒想到,收養(yǎng)陶陽19年后,他會因一場婚禮實現(xiàn)口碑暴增

郭德綱也沒想到,收養(yǎng)陶陽19年后,他會因一場婚禮實現(xiàn)口碑暴增

小熊侃史
2026-03-01 17:34:57
和李榮浩同居4年卻慘遭拋棄,陷入抑郁多年,如今39歲仍是單身

和李榮浩同居4年卻慘遭拋棄,陷入抑郁多年,如今39歲仍是單身

楓塵余往逝
2026-02-28 19:17:11
1952年,88歲齊白石將25歲新鳳霞拉進屋:柜子里都是錢,你隨便拿

1952年,88歲齊白石將25歲新鳳霞拉進屋:柜子里都是錢,你隨便拿

興趣知識
2025-12-31 18:24:12
2026-03-01 22:08:49
開源中國 incentive-icons
開源中國
每天為開發(fā)者推送最新技術(shù)資訊
7604文章數(shù) 34503關(guān)注度
往期回顧 全部

科技要聞

小米超跑概念車全球首秀!殺入頂豪俱樂部

頭條要聞

全球1/5"石油動脈"被切斷 海運行業(yè)遭遇急性運營危機

頭條要聞

全球1/5"石油動脈"被切斷 海運行業(yè)遭遇急性運營危機

體育要聞

火箭輸給熱火:烏度卡又輸斯波教練

娛樂要聞

黃景瑜 李雪健坐鎮(zhèn)!38集犯罪大劇來襲

財經(jīng)要聞

中東局勢升級 如何影響A股、黃金和原油

汽車要聞

理想汽車2月交付26421輛 歷史累計交付超159萬輛

態(tài)度原創(chuàng)

親子
時尚
教育
本地
公開課

親子要聞

寶藍和爸爸為了給寶藍叔叔慶祝生日,一起做了漂亮美味的蛋糕~

今年春天最流行的4件衛(wèi)衣,照著穿就很好看

教育要聞

中考數(shù)學(xué)重難點,二次函數(shù)壓軸題每天學(xué),難住不少同學(xué)!

本地新聞

津南好·四時總相宜

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版