国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

遞歸語(yǔ)言模型

0
分享至

Recursive Language Models

遞歸語(yǔ)言模型

https://arxiv.org/pdf/2512.24601v1


摘要:

本文從推理時(shí)擴(kuò)展(inference-time scaling)視角研究如何使大語(yǔ)言模型(LLMs)處理任意長(zhǎng)度的提示。我們提出遞歸語(yǔ)言模型(RLMs),一種通用推理策略:將長(zhǎng)提示視為外部環(huán)境的一部分,使LLM能以程序化方式檢視、分解提示片段并遞歸調(diào)用自身。實(shí)驗(yàn)表明,RLMs可成功處理超出模型上下文窗口兩個(gè)數(shù)量級(jí)的輸入;即便對(duì)于較短提示,在四項(xiàng)多樣化長(zhǎng)上下文任務(wù)中,其質(zhì)量亦顯著優(yōu)于基礎(chǔ)LLM及常見(jiàn)長(zhǎng)上下文框架,且單次查詢成本相當(dāng)或更低。

引言

盡管推理與工具使用能力快速進(jìn)步,現(xiàn)代語(yǔ)言模型的上下文長(zhǎng)度仍受限,且即使在此限制內(nèi),亦不可避免地表現(xiàn)出“上下文腐化”(context rot)現(xiàn)象(Hong et al., 2025)——如圖1左側(cè)所示,即便是GPT-5等前沿模型,其性能亦隨上下文增長(zhǎng)而迅速下降。盡管我們預(yù)期通過(guò)訓(xùn)練、架構(gòu)與基礎(chǔ)設(shè)施的改進(jìn),上下文長(zhǎng)度將持續(xù)提升,但我們關(guān)注的是:是否有可能將通用大語(yǔ)言模型的上下文規(guī)模提升數(shù)個(gè)數(shù)量級(jí)。這一問(wèn)題日益緊迫,因LLM正被廣泛應(yīng)用于長(zhǎng)周期任務(wù),需常規(guī)處理數(shù)千萬(wàn)乃至數(shù)億個(gè)token。


我們從擴(kuò)展推理時(shí)計(jì)算(inference-time compute)的視角研究此問(wèn)題。我們的靈感廣泛來(lái)源于核外算法(out-of-core algorithms):具備小而快主存的數(shù)據(jù)處理系統(tǒng),可通過(guò)巧妙管理數(shù)據(jù)載入內(nèi)存的方式處理遠(yuǎn)超內(nèi)存容量的數(shù)據(jù)集。針對(duì)本質(zhì)上屬于長(zhǎng)上下文問(wèn)題的推理時(shí)方法已十分常見(jiàn),但通常局限于特定任務(wù)。該領(lǐng)域中一種通用且日益流行的方法是上下文壓縮(context condensation/compaction)(Khattab et al., 2021; Smith, 2025; OpenAI, 2025; Wu et al., 2025),即當(dāng)上下文超過(guò)長(zhǎng)度閾值時(shí)對(duì)其進(jìn)行重復(fù)摘要。遺憾的是,對(duì)于需要密集訪問(wèn)提示多處細(xì)節(jié)的任務(wù),壓縮方法的表達(dá)能力往往不足,因其本質(zhì)上預(yù)設(shè)了提示早期出現(xiàn)的某些細(xì)節(jié)可被安全遺忘,以為新內(nèi)容騰出空間。

我們提出遞歸語(yǔ)言模型(Recursive Language Models, RLMs),一種通用推理范式,可顯著擴(kuò)展現(xiàn)代LLM的有效輸入與輸出長(zhǎng)度。其核心洞見(jiàn)在于:長(zhǎng)提示不應(yīng)直接輸入神經(jīng)網(wǎng)絡(luò)(如Transformer),而應(yīng)被視為L(zhǎng)LM可通過(guò)符號(hào)方式交互的外部環(huán)境的一部分。

如圖2所示,RLM對(duì)外暴露與LLM相同的接口:接受任意結(jié)構(gòu)的字符串提示并生成字符串響應(yīng)。給定提示 P P,RLM初始化一個(gè)讀取-求值-打印循環(huán)(REPL)編程環(huán)境,其中 P P被設(shè)為某變量的值。隨后,RLM向LLM提供關(guān)于REPL環(huán)境的通用上下文信息(如字符串 P P的長(zhǎng)度),并允許其編寫代碼以窺探、分解 P P,并迭代觀察執(zhí)行產(chǎn)生的副作用。關(guān)鍵在于,RLM鼓勵(lì)LLM在其生成的代碼中以程序化方式構(gòu)建子任務(wù),并可對(duì)這些子任務(wù)遞歸調(diào)用自身。


通過(guò)將提示視為外部環(huán)境中的對(duì)象,RLM這一簡(jiǎn)潔設(shè)計(jì)克服了眾多先前方法(Anthropic, 2025; Sentient, 2025; Schroeder et al., 2025; Sun et al., 2025)的根本局限——這些方法雖聚焦于任務(wù)的遞歸分解,卻無(wú)法使其輸入規(guī)模突破底層LLM的上下文窗口限制。

我們使用前沿閉源模型(GPT-5; OpenAI 2025)與前沿開(kāi)源模型(Qwen3-Coder-480B-A35B; Team 2025),在四項(xiàng)復(fù)雜度各異的多樣化任務(wù)上評(píng)估RLM:深度研究(Chen et al., 2025)、信息聚合(Bertsch et al., 2025)、代碼倉(cāng)庫(kù)理解(Bai et al., 2025),以及一項(xiàng)連前沿模型亦會(huì)災(zāi)難性失敗的合成成對(duì)推理任務(wù)。我們將RLM與直接調(diào)用LLM、上下文壓縮、檢索工具調(diào)用智能體及代碼生成智能體進(jìn)行比較。結(jié)果表明,RLM即使在1000萬(wàn)+ token規(guī)模下仍表現(xiàn)出極強(qiáng)性能,在長(zhǎng)上下文處理任務(wù)中顯著優(yōu)于所有其他方法,多數(shù)情況下性能提升達(dá)兩位數(shù)百分比,同時(shí)保持相當(dāng)或更低的成本。特別如圖1所示,RLM在更長(zhǎng)上下文與更復(fù)雜任務(wù)中表現(xiàn)出遠(yuǎn)為輕微的性能退化。

2 長(zhǎng)上下文任務(wù)的擴(kuò)展

近期研究(Hsieh et al., 2024; Goldman et al., 2025; Hong et al., 2025)已成功論證:LLM的有效上下文窗口通常遠(yuǎn)小于模型物理上支持的最大token數(shù)量。進(jìn)一步地,我們假設(shè)LLM的有效上下文窗口無(wú)法脫離具體任務(wù)而獨(dú)立理解。換言之,更“復(fù)雜”的問(wèn)題將在更短的長(zhǎng)度上即出現(xiàn)性能退化。因此,我們必須依據(jù)任務(wù)復(fù)雜度如何隨提示長(zhǎng)度縮放來(lái)刻畫任務(wù)特性。

例如,"大海撈針"(needle-in-a-haystack, NIAH)問(wèn)題在擴(kuò)展提示長(zhǎng)度時(shí)通常保持"針"的內(nèi)容不變。因此,盡管早期模型在NIAH任務(wù)上表現(xiàn)掙扎,前沿模型在RULER(Hsieh et al., 2024)中即使面對(duì)100萬(wàn)+ token的設(shè)置亦能可靠解決此類任務(wù)。然而,同一模型在OOLONG(Bertsch et al., 2025)任務(wù)上即便面對(duì)更短上下文亦表現(xiàn)困難——該任務(wù)的答案明確依賴于提示中幾乎每一行內(nèi)容。

2.1 任務(wù)

基于此直覺(jué),我們?cè)诮?jīng)驗(yàn)評(píng)估中設(shè)計(jì)了若干任務(wù),不僅能夠變化提示長(zhǎng)度,亦可考察問(wèn)題復(fù)雜度的不同縮放模式。我們粗略地以信息密度(即智能體為回答任務(wù)所需處理的信息量,及其如何隨輸入規(guī)??s放)來(lái)刻畫每項(xiàng)任務(wù)。

S-NIAH。沿用RULER(Hsieh et al., 2024)中的單針大海撈針任務(wù),我們考慮一組50個(gè)單針任務(wù),要求在大量無(wú)關(guān)文本中查找特定短語(yǔ)或數(shù)字。此類任務(wù)無(wú)論輸入規(guī)模如何均只需查找單一答案,因此其處理成本相對(duì)于輸入長(zhǎng)度近似恒定縮放。

BrowseComp-Plus(1K文檔)(Chen et al., 2025)。面向DeepResearch(OpenAI, 2025)問(wèn)題的多跳問(wèn)答基準(zhǔn),要求對(duì)多個(gè)不同文檔進(jìn)行推理。該基準(zhǔn)提供一個(gè)經(jīng)驗(yàn)證的離線語(yǔ)料庫(kù)(含10萬(wàn)文檔),保證每個(gè)任務(wù)均包含黃金答案文檔、證據(jù)文檔與困難負(fù)例文檔。參照Sun et al. (2025),我們使用150個(gè)隨機(jī)采樣任務(wù)作為評(píng)估集;向模型或智能體提供1000個(gè)隨機(jī)選擇的文檔,其中保證包含黃金答案與證據(jù)文檔。我們報(bào)告正確答案的百分比。每項(xiàng)任務(wù)需拼接來(lái)自多個(gè)文檔的信息,因此盡管同樣只需恒定數(shù)量的文檔作答,其復(fù)雜度仍高于S-NIAH。

OOLONG(Bertsch et al., 2025)。一項(xiàng)長(zhǎng)推理基準(zhǔn)任務(wù),要求對(duì)輸入的語(yǔ)義塊進(jìn)行檢視與變換,再聚合這些塊以形成最終答案。我們采用原論文的評(píng)分方式:數(shù)值答案評(píng)分為,其他答案采用精確匹配。我們特別聚焦于trec coarse劃分,該劃分包含50個(gè)任務(wù),基于帶有語(yǔ)義標(biāo)簽的問(wèn)題數(shù)據(jù)集。每項(xiàng)任務(wù)需使用數(shù)據(jù)集中近乎全部條目,因此其處理成本相對(duì)于輸入長(zhǎng)度呈線性縮放。

OOLONG-Pairs。我們手動(dòng)修改OOLONG的trec coarse劃分,加入20個(gè)新查詢,這些查詢明確要求聚合成對(duì)的語(yǔ)義塊以構(gòu)建最終答案。附錄E.1中明確列出了該基準(zhǔn)的所有查詢。我們報(bào)告答案的F1分?jǐn)?shù)。每項(xiàng)任務(wù)需使用數(shù)據(jù)集中近乎全部條目對(duì),因此其處理成本相對(duì)于輸入長(zhǎng)度呈二次方縮放。

LongBench-v2 CodeQA(Bai et al., 2025)。LongBench-v2中面向代碼倉(cāng)庫(kù)理解的多選題劃分,對(duì)現(xiàn)代前沿模型頗具挑戰(zhàn)性。我們以正確答案百分比作為評(píng)分。每項(xiàng)任務(wù)需對(duì)代碼庫(kù)中固定數(shù)量的文件進(jìn)行推理以找出正確答案。

2.2 方法與基線

我們將RLM與其它常用的任務(wù)無(wú)關(guān)方法進(jìn)行比較。針對(duì)以下每種方法,我們使用兩個(gè)當(dāng)代語(yǔ)言模型:具備中等推理能力的GPT-5(OpenAI, 2025),采用默認(rèn)采樣參數(shù);以及Qwen3-Coder-480B-A35B(Yang et al., 2025),采用Team (2025)所述的采樣參數(shù)。二者分別代表商業(yè)與開(kāi)源前沿模型。除在所有任務(wù)上評(píng)估基礎(chǔ)模型外,我們還評(píng)估以下方法與基線:

帶REPL的RLM。我們實(shí)現(xiàn)了一種RLM,將其上下文作為字符串加載至Python REPL環(huán)境的內(nèi)存中。該REPL環(huán)境同時(shí)加載一個(gè)模塊,使其能夠在環(huán)境中查詢子語(yǔ)言模型。系統(tǒng)提示詞在所有實(shí)驗(yàn)中保持固定(見(jiàn)附錄D)。在GPT-5實(shí)驗(yàn)中,我們對(duì)遞歸調(diào)用使用GPT-5-mini,對(duì)根調(diào)用使用GPT-5,因該選擇在RLM能力與遞歸調(diào)用成本之間取得了良好權(quán)衡。

帶REPL但無(wú)子調(diào)用的RLM。我們提供本方法的消融實(shí)驗(yàn):REPL環(huán)境雖加載了上下文,但無(wú)法使用子語(yǔ)言模型調(diào)用。在此設(shè)定下,語(yǔ)言模型仍可在REPL環(huán)境中與其上下文交互,之后再提供最終答案。

摘要智能體。參照Sun et al. (2025)、Wu et al. (2025)與Yu et al. (2025),我們考慮一種迭代式智能體,當(dāng)上下文被填滿時(shí)即對(duì)其進(jìn)行摘要。例如,給定文檔語(yǔ)料庫(kù),該智能體會(huì)迭代瀏覽文檔并在填滿時(shí)進(jìn)行摘要。當(dāng)提供上下文超出模型窗口時(shí),智能體會(huì)將輸入分塊以適配模型上下文窗口,并在這些分塊上應(yīng)用相同策略。對(duì)于GPT-5,鑒于處理大token輸入的極高成本,我們使用GPT-5-nano進(jìn)行壓縮,使用GPT-5提供最終答案。

CodeAct(+ BM25)。我們直接與CodeAct(Wang et al., 2024)智能體進(jìn)行比較,該智能體可在ReAct(Yao et al., 2023)循環(huán)內(nèi)執(zhí)行代碼。與RLM不同,它不將提示卸載至代碼環(huán)境,而是直接提供給語(yǔ)言模型。此外,參照J(rèn)imenez et al. (2024)與Chen et al. (2025),我們?yōu)樵撝悄荏w配備BM25(Robertson & Zaragoza, 2009)檢索器,對(duì)適用任務(wù)將其輸入上下文建立索引。

3 結(jié)果與討論

我們?cè)诒?中聚焦于§2.1所述的基準(zhǔn)測(cè)試開(kāi)展主要實(shí)驗(yàn)。此外,我們?cè)趫D1中探究了前沿模型與RLM的性能如何隨輸入上下文增長(zhǎng)而退化。


觀察1:RLM可擴(kuò)展至1000萬(wàn)+ token規(guī)模,且在長(zhǎng)上下文任務(wù)上優(yōu)于基礎(chǔ)語(yǔ)言模型及現(xiàn)有任務(wù)無(wú)關(guān)的智能體框架。在所有任務(wù)中,RLM在遠(yuǎn)超前沿語(yǔ)言模型有效上下文窗口的輸入任務(wù)上均展現(xiàn)出強(qiáng)勁性能,相較基礎(chǔ)模型與常見(jiàn)長(zhǎng)上下文框架,性能提升最高達(dá)2倍,同時(shí)保持相當(dāng)或更低的平均token成本。值得注意的是,RLM的成本可良好擴(kuò)展至基礎(chǔ)模型上下文窗口的理論擴(kuò)展成本——在BrowseComp-Plus(1K)任務(wù)上,GPT-5-mini處理600–1100萬(wàn)輸入token的成本為1.50–2.75美元,而RLM(GPT-5)的平均成本僅為0.99美元,且性能較摘要與檢索基線分別提升逾29%。

此外,在處理成本隨輸入上下文縮放的任務(wù)上,即便任務(wù)完全適配模型上下文窗口,RLM相較基礎(chǔ)模型仍取得顯著改進(jìn)。在OOLONG任務(wù)上,采用GPT-5與Qwen3-Coder的RLM分別較基礎(chǔ)模型提升28.4%與33.3%。在OOLONG-Pairs任務(wù)上,GPT-5與Qwen3-Coder基礎(chǔ)模型幾乎無(wú)進(jìn)展(F1分?jǐn)?shù)<0.1%),而采用這些模型的RLM則分別達(dá)到58.00%與23.11%的F1分?jǐn)?shù),凸顯RLM處理極高信息密度任務(wù)的涌現(xiàn)能力。

觀察2:REPL環(huán)境對(duì)處理長(zhǎng)輸入必不可少,而RLM的遞歸子調(diào)用在信息密集型輸入上帶來(lái)顯著增益。RLM的關(guān)鍵特征是將上下文作為變量卸載至模型可交互的環(huán)境 E E中。即便不具備子調(diào)用能力,我們的RLM消融實(shí)驗(yàn)仍能突破模型上下文限制,在多數(shù)長(zhǎng)上下文場(chǎng)景下優(yōu)于基礎(chǔ)模型及其他任務(wù)無(wú)關(guān)基線。在Qwen3-Coder的CodeQA與BrowseComp+任務(wù)上,該消融版本甚至分別較完整RLM提升17.9%與3%。

在OOLONG或OOLONG-Pairs等信息密集型任務(wù)上,我們觀察到若干遞歸語(yǔ)言模型子調(diào)用必不可少的情形。在§3.1中可見(jiàn),RLM(Qwen3-Coder)通過(guò)遞歸子調(diào)用逐行執(zhí)行必要的語(yǔ)義變換,而無(wú)子調(diào)用的消融版本則被迫依賴關(guān)鍵詞啟發(fā)式方法求解此類任務(wù)。在所有信息密集型任務(wù)上,RLM相較無(wú)子調(diào)用的消融版本性能提升10%–59%。

觀察3:語(yǔ)言模型性能隨輸入長(zhǎng)度與問(wèn)題復(fù)雜度增加而退化,而RLM性能縮放表現(xiàn)更優(yōu)。基準(zhǔn)測(cè)試S-NIAH、OOLONG與OOLONG-Pairs在長(zhǎng)度范圍為的上下文中包含固定數(shù)量的任務(wù)。此外,每項(xiàng)基準(zhǔn)可依據(jù)輸入上下文相對(duì)于長(zhǎng)度的處理成本(分別近似為常數(shù)、線性與二次方)進(jìn)行粗略分類。在圖1中,我們直接比較了使用GPT-5的RLM與基礎(chǔ)GPT-5在各項(xiàng)任務(wù)上的表現(xiàn)——我們發(fā)現(xiàn),對(duì)于更復(fù)雜的任務(wù),GPT-5性能退化顯著更快,而RLM性能雖亦退化,但速率慢得多,這與Goldman et al. (2025)的發(fā)現(xiàn)一致。當(dāng)上下文長(zhǎng)度超過(guò)時(shí),RLM持續(xù)優(yōu)于GPT-5。

此外,RLM成本與任務(wù)復(fù)雜度成比例縮放,但仍保持與GPT-5同數(shù)量級(jí)(見(jiàn)附錄C中圖9)。在§3.1中,我們探討了RLM在此類設(shè)置中所做的選擇如何導(dǎo)致成本差異。最后,在此設(shè)置下,我們亦觀察到基礎(chǔ)語(yǔ)言模型在小規(guī)模輸入上下文場(chǎng)景中優(yōu)于RLM。從構(gòu)造上看,RLM的表征能力嚴(yán)格強(qiáng)于語(yǔ)言模型:選擇調(diào)用根語(yǔ)言模型的環(huán)境等價(jià)于基礎(chǔ)語(yǔ)言模型;然而實(shí)踐中我們觀察到,RLM在較小輸入長(zhǎng)度下性能略遜,表明在何時(shí)使用基礎(chǔ)語(yǔ)言模型與何時(shí)使用RLM之間存在權(quán)衡點(diǎn)。

觀察4:RLM的推理成本與基礎(chǔ)模型調(diào)用相當(dāng),但因軌跡長(zhǎng)度差異而呈現(xiàn)高方差。RLM迭代式地與其上下文交互直至找到合適答案,導(dǎo)致迭代長(zhǎng)度因任務(wù)復(fù)雜度不同而產(chǎn)生巨大差異。在圖3中,我們繪制了表1中除BrowseComp-Plus(1K)外所有實(shí)驗(yàn)中各方法的成本四分位數(shù)(因基礎(chǔ)模型無(wú)法將任何此類任務(wù)納入上下文)。對(duì)于GPT-5,RLM運(yùn)行的中位成本低于基礎(chǔ)模型運(yùn)行的中位成本,但許多RLM運(yùn)行的異常值顯著高于任何基礎(chǔ)模型查詢。然而,相較于需攝入全部輸入上下文的摘要基線,RLM因能夠選擇性查看上下文,在所有任務(wù)上成本最高可降低3倍,同時(shí)保持更強(qiáng)性能。


我們還在附錄C的圖5、6中報(bào)告了各方法的運(yùn)行時(shí)間,但需注意若干重要限制。與API成本不同,這些數(shù)值高度依賴于實(shí)現(xiàn)細(xì)節(jié),如所用機(jī)器、API請(qǐng)求延遲及語(yǔ)言模型調(diào)用的異步性。在我們的基線與RLM實(shí)現(xiàn)中,所有語(yǔ)言模型調(diào)用均為阻塞式/串行執(zhí)行。盡管如此,與成本類似,我們?nèi)杂^察到運(yùn)行時(shí)間范圍廣泛,尤其對(duì)于RLM。

觀察5:RLM是一種模型無(wú)關(guān)的推理策略,但不同模型在上下文管理與子調(diào)用方面表現(xiàn)出不同的整體決策。盡管GPT-5與Qwen3-Coder-480B作為RLM均相對(duì)其基礎(chǔ)模型及其他基線展現(xiàn)出強(qiáng)勁性能,但二者在所有任務(wù)上亦表現(xiàn)出不同的性能與行為。尤其在BrowseComp-Plus任務(wù)上,RLM(GPT-5)幾乎解決了所有任務(wù),而RLM(Qwen3-Coder)僅能解決約半數(shù)任務(wù)。我們注意到,RLM系統(tǒng)提示詞在各模型的所有實(shí)驗(yàn)中保持固定,且未針對(duì)任何特定基準(zhǔn)進(jìn)行調(diào)優(yōu)。GPT-5與Qwen3-Coder之間提示詞的唯一差異在于:RLM(Qwen3-Coder)的提示詞中額外增加了一行警告,提示避免過(guò)多使用子調(diào)用(見(jiàn)附錄D)。我們?cè)谑纠鼴.3中明確展示了這一差異:RLM(Qwen3-Coder)在OOLONG任務(wù)中對(duì)每行執(zhí)行語(yǔ)義變換時(shí)均作為獨(dú)立的子語(yǔ)言模型調(diào)用,而GPT-5則對(duì)子查詢語(yǔ)言模型持保守態(tài)度。

3.1 RLM軌跡中的涌現(xiàn)模式

即便未經(jīng)顯式訓(xùn)練,RLM亦展現(xiàn)出有趣的上下文管理與問(wèn)題分解行為。我們選取若干RLM軌跡片段示例,以理解其如何解決長(zhǎng)上下文問(wèn)題及可改進(jìn)之處。此處討論若干有趣行為的典型示例,更多示例見(jiàn)附錄B。

基于模型先驗(yàn)、利用代碼執(zhí)行過(guò)濾輸入信息。RLM抽象之所以能在處理超大輸入時(shí)維持強(qiáng)勁性能而不導(dǎo)致成本爆炸,其關(guān)鍵直覺(jué)在于:語(yǔ)言模型無(wú)需顯式查看即可過(guò)濾輸入上下文。此外,模型先驗(yàn)使RLM能夠縮小搜索空間,從而處理更少的輸入token。例如,如圖4a所示,我們觀察到RLM(GPT-5)使用正則表達(dá)式查詢,在原始提示中搜索包含關(guān)鍵詞(如" festival")及模型具備先驗(yàn)知識(shí)的短語(yǔ)(如"La Union")的語(yǔ)義塊。在多數(shù)軌跡中,我們觀察到的一種常見(jiàn)策略是:先向根語(yǔ)言模型打印回顯若干行以探查上下文,再基于觀察結(jié)果進(jìn)行過(guò)濾。


分塊與遞歸子調(diào)用語(yǔ)言模型。RLM將本質(zhì)上無(wú)界長(zhǎng)度的推理鏈推遲至子(R)LM調(diào)用中執(zhí)行。分解方式的選擇會(huì)極大影響任務(wù)性能,尤其對(duì)于信息密集型問(wèn)題。在我們的實(shí)驗(yàn)中,除均勻分塊或關(guān)鍵詞搜索外,未觀察到更復(fù)雜的劃分策略。如圖4b所示,RLM(Qwen3-Coder)在OOLONG任務(wù)中對(duì)包含1000余行的上下文按換行符進(jìn)行分塊。

通過(guò)小上下文的子LM調(diào)用進(jìn)行答案驗(yàn)證。我們觀察到RLM通過(guò)子LM調(diào)用進(jìn)行答案驗(yàn)證的若干實(shí)例。其中部分策略隱式地通過(guò)子LM執(zhí)行驗(yàn)證以規(guī)避上下文腐化(見(jiàn)示例B.1),另一些則單純利用代碼執(zhí)行以程序化方式驗(yàn)證答案正確性。然而在某些情況下,答案驗(yàn)證是冗余的,會(huì)顯著增加單任務(wù)成本——在示例B.3中,我們觀察到OOLONG任務(wù)上的一條軌跡:模型在最終選擇錯(cuò)誤答案前,曾五次以上嘗試復(fù)現(xiàn)其正確答案。

通過(guò)變量傳遞遞歸LM輸出以處理長(zhǎng)輸出任務(wù)。RLM能夠通過(guò)將REPL中的變量作為輸出返回,生成遠(yuǎn)超基礎(chǔ)語(yǔ)言模型限制的、本質(zhì)上無(wú)界的token。借助REPL環(huán)境,RLM可迭代地構(gòu)建這些變量,將其作為程序化操作與子(R)LM輸出調(diào)用的混合結(jié)果。我們?cè)贠OLONG-Pairs任務(wù)的軌跡中大量觀察到該策略:RLM將針對(duì)輸入的子LM調(diào)用輸出存儲(chǔ)于變量中,再將其拼接形成最終答案(見(jiàn)圖4c)。

4 相關(guān)工作

長(zhǎng)上下文語(yǔ)言模型系統(tǒng)。語(yǔ)言模型系統(tǒng)中的長(zhǎng)上下文管理主要沿兩個(gè)正交方向發(fā)展:1)直接修改基礎(chǔ)語(yǔ)言模型的架構(gòu)并重新訓(xùn)練以處理更長(zhǎng)上下文(Press et al., 2022; Gu et al., 2022; Munkhdalai et al., 2024);2)在語(yǔ)言模型周圍構(gòu)建腳手架以隱式處理上下文——RLM聚焦于后者。此類策略中廣受歡迎的一類是有損上下文管理,即通過(guò)摘要或截?cái)鄩嚎s輸入上下文,代價(jià)是可能丟失細(xì)粒度信息。例如,MemWalker(Chen et al., 2023)為輸入構(gòu)建樹(shù)狀數(shù)據(jù)結(jié)構(gòu),供語(yǔ)言模型在回答長(zhǎng)上下文問(wèn)題時(shí)導(dǎo)航;ReSum(Wu et al., 2025)則為多輪智能體周期性壓縮上下文而添加摘要工具。另一類策略在智能體腳手架中實(shí)現(xiàn)顯式記憶層次結(jié)構(gòu)(Packer et al., 2024; Chhikara et al., 2025; Zhang et al., 2025)。RLM與先前工作的不同之處在于:所有上下文窗口管理均由語(yǔ)言模型自身隱式處理。

通過(guò)子LM調(diào)用進(jìn)行任務(wù)分解。許多基于語(yǔ)言模型的智能體(Guo et al., 2024; Anthropic, 2025)利用多次精心安排的語(yǔ)言模型調(diào)用來(lái)解決問(wèn)題,但其中許多調(diào)用基于人工設(shè)計(jì)的工作流。ViperGPT(Surís et al., 2023)、THREAD(Schroeder et al., 2025)、DisCIPL(Grand et al., 2025)、ReDel(Zhu et al., 2024)、Context Folding(Sun et al., 2025)與AgentFold(Ye et al., 2025)等若干方法已探索將子LM調(diào)用的選擇權(quán)交予語(yǔ)言模型本身。這些技術(shù)強(qiáng)調(diào)通過(guò)遞歸語(yǔ)言模型調(diào)用進(jìn)行任務(wù)分解,但無(wú)法處理超出基礎(chǔ)語(yǔ)言模型長(zhǎng)度限制的長(zhǎng)上下文輸入。相比之下,RLM得益于一個(gè)極為簡(jiǎn)潔的直覺(jué)(即將提示視為外部環(huán)境的一部分),從而能夠符號(hào)化操作任意長(zhǎng)度的字符串,并通過(guò)持久化REPL環(huán)境的執(zhí)行反饋迭代優(yōu)化其遞歸過(guò)程。

5 局限性與未來(lái)工作

盡管RLM在合理推理成本下對(duì)超出現(xiàn)有語(yǔ)言模型上下文窗口限制的任務(wù)展現(xiàn)出強(qiáng)勁性能,其實(shí)現(xiàn)RLM的最優(yōu)機(jī)制仍有待探索。我們聚焦于Python REPL環(huán)境內(nèi)的同步子調(diào)用,但需指出:涉及異步子調(diào)用與沙箱化REPL的替代策略有望顯著降低RLM的運(yùn)行時(shí)間與推理成本。此外,我們選擇最大遞歸深度為1(即子調(diào)用為語(yǔ)言模型);盡管在現(xiàn)有長(zhǎng)上下文基準(zhǔn)測(cè)試中取得了強(qiáng)勁性能,我們認(rèn)為未來(lái)工作應(yīng)探究更深層次的遞歸。最后,我們的實(shí)驗(yàn)聚焦于使用現(xiàn)有前沿模型評(píng)估RLM。顯式訓(xùn)練專用于RLM的模型(如作為根模型或子模型)或可帶來(lái)額外性能提升——正如§3.1中所發(fā)現(xiàn),當(dāng)前模型在上下文決策方面效率低下。我們假設(shè)RLM軌跡可視為一種推理形式(OpenAI et al., 2024; DeepSeek-AI et al., 2025),可通過(guò)引導(dǎo)現(xiàn)有前沿模型進(jìn)行訓(xùn)練(Zelikman et al., 2022; 2024)。

6 結(jié)論

我們提出了遞歸語(yǔ)言模型(Recursive Language Models, RLMs),一種通用的語(yǔ)言模型推理框架:該框架將輸入上下文卸載至外部環(huán)境,并使語(yǔ)言模型能夠在輸出前遞歸地子查詢其他語(yǔ)言模型。我們探索了該框架的一種具體實(shí)現(xiàn):將上下文作為內(nèi)存中的變量卸載至Python REPL環(huán)境,使語(yǔ)言模型能夠通過(guò)代碼與遞歸語(yǔ)言模型調(diào)用對(duì)其上下文進(jìn)行推理,而非僅在token空間中操作。我們?cè)诙喾N設(shè)置與模型上的實(shí)驗(yàn)結(jié)果表明,RLM是一種有效的任務(wù)無(wú)關(guān)范式,既適用于長(zhǎng)上下文問(wèn)題,亦適用于一般性推理任務(wù)。我們期待未來(lái)工作能顯式訓(xùn)練模型以RLM方式推理,這或?qū)⒊蔀橄乱淮Z(yǔ)言模型系統(tǒng)的又一擴(kuò)展維度。

原文鏈接:https://arxiv.org/pdf/2512.24601v1

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
寧波銀行發(fā)布貴金屬業(yè)務(wù)市場(chǎng)風(fēng)險(xiǎn)提示

寧波銀行發(fā)布貴金屬業(yè)務(wù)市場(chǎng)風(fēng)險(xiǎn)提示

財(cái)經(jīng)網(wǎng)
2026-03-26 18:32:12
中美衛(wèi)星導(dǎo)航用戶數(shù)量懸殊:GPS用戶數(shù)超60億,中國(guó)北斗令人意外

中美衛(wèi)星導(dǎo)航用戶數(shù)量懸殊:GPS用戶數(shù)超60億,中國(guó)北斗令人意外

混沌錄
2026-03-18 23:54:31
告別聲剛落,大陸強(qiáng)音起蔡正元今日入獄,國(guó)臺(tái)辦這句狠話破防綠營(yíng)

告別聲剛落,大陸強(qiáng)音起蔡正元今日入獄,國(guó)臺(tái)辦這句狠話破防綠營(yíng)

阿離家居
2026-03-27 04:34:34
日媒在報(bào)道張雪峰的時(shí)候,用了一個(gè)詞,我覺(jué)得太恰當(dāng)了

日媒在報(bào)道張雪峰的時(shí)候,用了一個(gè)詞,我覺(jué)得太恰當(dāng)了

輝哥說(shuō)動(dòng)漫
2026-03-27 07:12:50
廣東男子掃墓時(shí)發(fā)現(xiàn)“黑色巨物”在動(dòng)!湊近一看,瞬間頭皮發(fā)麻……

廣東男子掃墓時(shí)發(fā)現(xiàn)“黑色巨物”在動(dòng)!湊近一看,瞬間頭皮發(fā)麻……

珠海消防
2026-03-25 20:08:08
46 歲張柏芝三亞生圖流出,肚子上的軟肉,打了整個(gè)內(nèi)娛的臉

46 歲張柏芝三亞生圖流出,肚子上的軟肉,打了整個(gè)內(nèi)娛的臉

橙星文娛
2026-03-26 13:40:27
為嫁給美國(guó)人,56歲南京大媽奔赴美國(guó),2年后嫁給70歲美國(guó)老頭

為嫁給美國(guó)人,56歲南京大媽奔赴美國(guó),2年后嫁給70歲美國(guó)老頭

情感藝術(shù)家
2026-03-08 22:07:38
拒絕回歸WCBA!李月汝再赴美國(guó),官宣重磅決定,韓旭也要這么干了

拒絕回歸WCBA!李月汝再赴美國(guó),官宣重磅決定,韓旭也要這么干了

萌蘭聊個(gè)球
2026-03-26 13:09:33
中國(guó)的隱忍,正在延緩第三次世界大戰(zhàn)!

中國(guó)的隱忍,正在延緩第三次世界大戰(zhàn)!

南權(quán)先生
2026-03-23 15:11:48
徐昕拼下兩雙卻輸球,是廣州最大悲哀?劉維偉賽后發(fā)言更扎心

徐昕拼下兩雙卻輸球,是廣州最大悲哀?劉維偉賽后發(fā)言更扎心

林子說(shuō)事
2026-03-27 00:33:44
廈門一女子長(zhǎng)期遭家暴離家不敢歸,丈夫向法院申請(qǐng)宣告其死亡,十多年后決心離婚才知道自己“死了”!

廈門一女子長(zhǎng)期遭家暴離家不敢歸,丈夫向法院申請(qǐng)宣告其死亡,十多年后決心離婚才知道自己“死了”!

環(huán)球網(wǎng)資訊
2026-03-26 14:44:08
少一人也能贏!姆巴佩滿血?dú)w來(lái)先拔頭籌,法國(guó)2-1力克巴西

少一人也能贏!姆巴佩滿血?dú)w來(lái)先拔頭籌,法國(guó)2-1力克巴西

仰臥撐FTUer
2026-03-27 07:58:03
你們都是什么時(shí)候?qū)δ信麻_(kāi)竅的?網(wǎng)友:果然還是攔不住有心人

你們都是什么時(shí)候?qū)δ信麻_(kāi)竅的?網(wǎng)友:果然還是攔不住有心人

夜深愛(ài)雜談
2026-02-21 21:37:02
你見(jiàn)過(guò)天才嗎?網(wǎng)友:有些領(lǐng)域,努力在天賦面前,一文不值

你見(jiàn)過(guò)天才嗎?網(wǎng)友:有些領(lǐng)域,努力在天賦面前,一文不值

帶你感受人間冷暖
2026-03-20 00:47:24
蘇州市人民商場(chǎng)龍鳳珠寶品牌店涉嫌銷售“假大牌” 品牌總部回應(yīng)

蘇州市人民商場(chǎng)龍鳳珠寶品牌店涉嫌銷售“假大牌” 品牌總部回應(yīng)

生活視覺(jué)攝影
2026-03-26 13:33:29
新華社消息|伊朗官員:美以襲擊已造成伊朗至少1750人死亡

新華社消息|伊朗官員:美以襲擊已造成伊朗至少1750人死亡

新華社
2026-03-26 10:06:18
唯一不含草酸的蔬菜!比薺菜、韭菜還鮮嫩,鮮嫩營(yíng)養(yǎng)正當(dāng)時(shí),好吃

唯一不含草酸的蔬菜!比薺菜、韭菜還鮮嫩,鮮嫩營(yíng)養(yǎng)正當(dāng)時(shí),好吃

阿龍美食記
2026-03-24 09:50:48
中國(guó)肺癌發(fā)病率世界第一!提醒:罪魁禍?zhǔn)滓丫境觯?種食物要少吃

中國(guó)肺癌發(fā)病率世界第一!提醒:罪魁禍?zhǔn)滓丫境觯?種食物要少吃

健康之光
2026-03-23 20:10:05
美空軍雜志:美軍戰(zhàn)損2架F-35、9架F-15、6架F-16、7架加油機(jī)!

美空軍雜志:美軍戰(zhàn)損2架F-35、9架F-15、6架F-16、7架加油機(jī)!

勝研集
2026-03-25 00:02:51
國(guó)產(chǎn)筆記本CPU偷梁換柱翻車!官方終于回應(yīng):生產(chǎn)失誤、全額退款

國(guó)產(chǎn)筆記本CPU偷梁換柱翻車!官方終于回應(yīng):生產(chǎn)失誤、全額退款

快科技
2026-03-25 10:14:04
2026-03-27 08:55:00
CreateAMind incentive-icons
CreateAMind
CreateAMind.agi.top
1305文章數(shù) 18關(guān)注度
往期回顧 全部

科技要聞

OpenAI果斷砍掉"成人模式",死磕生產(chǎn)力

頭條要聞

牛彈琴:一直贏的特朗普心里更慌了 又給自己續(xù)了10天

頭條要聞

牛彈琴:一直贏的特朗普心里更慌了 又給自己續(xù)了10天

體育要聞

申京努力了,然而杜蘭特啊

娛樂(lè)要聞

劉曉慶妹妹發(fā)聲!稱姐姐受身邊人挑撥

財(cái)經(jīng)要聞

很反常!油價(jià)向上,黃金向下

汽車要聞

一汽奧迪A6L e-tron開(kāi)啟預(yù)售 CLTC最大續(xù)航815km

態(tài)度原創(chuàng)

本地
房產(chǎn)
數(shù)碼
家居
公開(kāi)課

本地新聞

救命,這只醬板鴨已經(jīng)在我手機(jī)復(fù)仇了一萬(wàn)遍

房產(chǎn)要聞

突發(fā),三亞又有大批征遷補(bǔ)償方案出爐!

數(shù)碼要聞

Mac Pro退場(chǎng)后蘋果官網(wǎng)同步停售配套滾輪套件,曾售5249元

家居要聞

傍海而居 靜觀蝴蝶海

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版