国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

MIT發(fā)現(xiàn)讓AI變聰明的秘密,竟然和人類一模一樣

0
分享至


新智元報(bào)道

編輯:定慧

【新智元導(dǎo)讀】你有沒有發(fā)現(xiàn),你讓AI讀一篇長文章,結(jié)果它讀著讀著就忘了前面的內(nèi)容? 你讓它處理一份超長的文檔,結(jié)果它給出來的答案,牛頭不對(duì)馬嘴? 這個(gè)現(xiàn)象,學(xué)術(shù)界有個(gè)專門的名詞,叫做上下文腐化。 這也是目前AI的通病:大模型的記憶力太差了,文章越長,模型越傻!

2025年最后一天,麻省理工學(xué)院(MIT)丟了一篇重磅論文,就是要解決這個(gè)問題的。

這篇論文叫《Recursive Language Models》,也就是遞歸語言模型。

看起來很學(xué)術(shù),但說人話就一句:AI再做一遍,效果直接起飛。


論文地址:https://arxiv.org/pdf/2512.24601

先劇透兩個(gè)核心數(shù)據(jù):

  • 在復(fù)雜推理任務(wù)上,僅僅讓模型多過2-4遍,正確率就能提升10%-25%

  • 在超長文檔處理上,RLM(遞歸語言模型)在1000萬+token的規(guī)模下,依然保持穩(wěn)定表現(xiàn),而傳統(tǒng)模型直接崩盤!

這啥概念?


以前我們覺得,AI不夠聰明,那就給它堆參數(shù)、加顯卡、買更多GPU。

MIT這篇論文直接掀桌子:別堆參數(shù)了,讓它返工重寫一遍,效果可能更好。(真就是人類監(jiān)工了)

原來解決問題的方法就是這么簡(jiǎn)單!

并且X上很多大佬紛紛點(diǎn)贊~




從一個(gè)讓人崩潰的問題說起

你有沒有這種經(jīng)歷:

讓ChatGPT幫你寫一篇文章,它洋洋灑灑寫了三千字,你一看——臥槽,離題萬里。

或者讓它幫你寫代碼,它寫完了,一運(yùn)行——全是bug。

但神奇的是,你讓它再檢查一遍、重新想想,有時(shí)候它就突然能改對(duì)了。

MIT的研究人員發(fā)現(xiàn),這不是玄學(xué),這是有規(guī)律的。

大多數(shù)AI犯的錯(cuò),不是因?yàn)樗欢?,而是因?yàn)樗醺鍖懱炝恕?/strong>

就像你寫論文,第一稿總是稀爛,但改個(gè)三四遍,就像換了個(gè)人寫的。

AI也是一樣。

問題是:現(xiàn)在的大模型基本都是一遍過的模式,你輸入問題,它輸出答案,完事。

它自己不會(huì)主動(dòng)返工、不會(huì)自我檢查、不會(huì)反復(fù)推敲。

或者換一個(gè)思路來理解大模型原先的思路:

假設(shè)你是一個(gè)剛進(jìn)公司的實(shí)習(xí)生,領(lǐng)導(dǎo)給你發(fā)了一份500頁的資料,讓你整理出一份報(bào)告。

你會(huì)怎么做?

正常人的做法是:先翻一翻,找到重點(diǎn)章節(jié),然后一章一章地讀,讀完一章做個(gè)總結(jié),最后把所有總結(jié)串起來。

對(duì)吧?

但大模型不是這么干的。

大模型的做法是:直接把500頁資料從頭到尾一口氣讀完,然后嘗試憑記憶回答問題。

這能記住才有鬼了。

這就是大模型面臨的困境。

它不是不聰明,它是記不住。


MIT這篇論文干的事兒,就是給AI裝上了一個(gè)返工的能力。

AI的真正瓶頸:不是腦子不夠大,是記性太差

在聊MIT的解決方案之前,我得先跟你說清楚,為什么這件事這么重要。

你可能聽說過一個(gè)詞,叫上下文窗口。

啥意思呢?

你可以把AI大模型想象成一個(gè)天才,但是這個(gè)天才有個(gè)致命缺陷——他的工作臺(tái)太小了。

你給他一份超長的資料,讓他幫你分析,但他只能把資料的一小部分放到工作臺(tái)上看。

超過工作臺(tái)大小的部分?看不到,直接忽略。

現(xiàn)在最牛逼的GPT-5,工作臺(tái)能放27萬個(gè)token(大約相當(dāng)于20萬字中文)。

聽著挺厲害的對(duì)吧?

但問題來了。

就是說,哪怕是在這27萬token的限制之內(nèi),模型的表現(xiàn)也會(huì)隨著輸入變長而急劇下降。

  • 當(dāng)你給它8000個(gè)token的時(shí)候,它表現(xiàn)賊棒。

  • 給它8萬個(gè)token的時(shí)候,它開始有點(diǎn)迷糊。

  • 給它27萬個(gè)token的時(shí)候,它直接開始胡說八道。

為什么?

因?yàn)樾畔⑻嗔?,它處理不過來了,腦子亂了。

就像讓一個(gè)人同時(shí)記住一整本百科全書然后回答問題——記是記住了,但找不到了。

這就是大模型現(xiàn)在的困境:不是上下文窗口不夠長,而是長了也用不好。

MIT的天才想法:把資料放到抽屜里

好了,問題講清楚了,現(xiàn)在來看MIT的解決方案。

傳統(tǒng)做法是:你把資料直接塞進(jìn)AI的腦子里。

MIT的做法是:別塞進(jìn)去了,放抽屜里吧。

他們發(fā)明了一個(gè)叫RLM的東西。

RLM的核心思路是:不要讓AI直接讀那份巨長的資料,而是讓AI用代碼去翻那份資料。


打個(gè)比方。

以前的AI,就像一個(gè)學(xué)生,你把一整本教科書拍在他面前說:看完,然后回答我的問題。

學(xué)生:???我看不完啊,我能不能看一部分?

然后他就硬著頭皮看前面的一部分,后面的直接放棄。

RLM的做法不一樣。

它更像是給這個(gè)學(xué)生配了一個(gè)目錄系統(tǒng)和搜索引擎。

資料還是那份資料,但學(xué)生不用從頭到尾讀了。他可以先翻目錄,看看大概結(jié)構(gòu),然后針對(duì)問題去搜索相關(guān)段落,把有用的信息摘出來。

更牛的是,這個(gè)學(xué)生可以把一個(gè)復(fù)雜問題拆成好幾個(gè)小問題,然后——注意重點(diǎn)來了——他可以召喚自己的分身,讓分身去同時(shí)處理各個(gè)小問題,最后匯總答案。

這就是遞歸的意思:AI可以調(diào)用自己的分身,讓自己幫自己干活。

或者再降維一下理解就是:

它把這份超長的文檔,當(dāng)成一個(gè)放在外面的資料庫,而不是直接塞進(jìn)腦子里。

然后,模型可以寫代碼,自己去查這個(gè)資料庫。

需要第一章的內(nèi)容?寫個(gè)代碼去查。

需要第十章的內(nèi)容?再寫個(gè)代碼去查。

需要把第一章和第十章的內(nèi)容對(duì)比?

那就先查第一章,做個(gè)總結(jié),再查第十章,做個(gè)總結(jié),最后把兩個(gè)總結(jié)合起來。

這就像是一個(gè)有無限容量的外置硬盤。

模型的腦子里裝不下那么多東西,沒關(guān)系。

可以隨時(shí)去硬盤里查,用到什么查什么。

這樣一來,理論上,模型可以處理無限長的文檔。

具體怎么做的?

MIT的實(shí)現(xiàn)方式其實(shí)挺優(yōu)雅的。

他們給AI配了一個(gè)Python編程環(huán)境(REPL),把那份超長的資料存成一個(gè)變量。

然后AI不再直接去讀這份資料,而是用代碼去操作它。

比如:

  • 想看資料有多長?寫一行代碼len(input_text)就知道了

  • 想看資料的前1000個(gè)字符?寫input_text[:1000]

  • 想在資料里搜索關(guān)鍵詞?寫個(gè)正則表達(dá)式

更厲害的是,AI可以把這份資料分段,把每一段交給一個(gè)子AI去處理,然后自己匯總結(jié)果。

這個(gè)子AI,用的其實(shí)是同一個(gè)模型,只不過是遞歸調(diào)用自己。

這個(gè)設(shè)計(jì)有兩個(gè)巨大的好處:

第一,AI不用在腦子里記住那份超長資料了。

資料就放在外面的抽屜里,需要的時(shí)候用代碼去取。

這就意味著,理論上,資料可以無限長——只要抽屜夠大。

第二,AI可以自己判斷需要看什么、不需要看什么。

它不會(huì)傻乎乎地從頭讀到尾,而是會(huì)聰明地挑重點(diǎn)看。

這大大節(jié)省了計(jì)算成本,也提高了準(zhǔn)確率。

效果到底有多猛?

MIT在論文里做了一堆實(shí)驗(yàn),結(jié)果還是挺震撼的。

實(shí)驗(yàn)一:超長文檔理解

他們用了很多測(cè)試機(jī),其中一個(gè)叫OOLONG的測(cè)試集,這個(gè)測(cè)試需要AI理解超長文檔,并回答需要綜合全文信息才能回答的問題。


結(jié)果:GPT-5基座模型的準(zhǔn)確率44%,而RLM達(dá)到了56.5%。

而在CodeQA中,GPT-5基座模型的準(zhǔn)確率24%,而RLM達(dá)到了62%,直接提升了2.7倍!


實(shí)驗(yàn)二:超超超長文檔(1000萬+token)

他們還把文檔長度一路拉到1000萬token以上(相當(dāng)于幾十本書的長度)。

GPT-5?壓根處理不了,直接爆炸。

RLM(GPT-5)?穩(wěn)穩(wěn)當(dāng)當(dāng),表現(xiàn)基本不掉。

這是一個(gè)質(zhì)的飛躍。

實(shí)驗(yàn)三:成本對(duì)比

你可能會(huì)想:這么牛逼的東西,是不是巨貴?

神奇的是,并沒有。


在BrowseComp-Plus基準(zhǔn)測(cè)試中,讓GPT-5-mini直接處理600萬-1100萬token的輸入,成本大約是1.5-2.75美元。

而RLM(GPT-5)的平均成本只有0.99美元。

更便宜,效果還更好。


為什么?

因?yàn)镽LM不會(huì)傻傻地把所有內(nèi)容都讀一遍,它只讀需要的部分。

這個(gè)發(fā)現(xiàn)為什么重要?

MIT這篇論文的意義,遠(yuǎn)不止于讓AI處理更長的文檔。

它揭示了一個(gè)更根本的道理:

AI的能力邊界,不只取決于模型本身有多大、參數(shù)有多多,還取決于你怎么使用它。

以前我們的思路是:模型不夠強(qiáng)——那就加參數(shù)。

MIT告訴我們:等等,也許不用加參數(shù),讓它多想幾遍就夠了。

回到開頭提到的那個(gè)發(fā)現(xiàn):

在多步推理任務(wù)中,僅增加2-4次遞歸處理,正確率就能提升10%-25%。大約4次迭代后,收益逐漸趨于平緩。

這說明什么?

大多數(shù)AI犯的錯(cuò),都是初稿錯(cuò)誤:不是它不懂,是它第一遍太草率了。

讓它返工幾次,就能改對(duì)。(所以有時(shí)候,你在使用AI時(shí),還真的當(dāng)個(gè)監(jiān)工,讓AI多輸出幾次

這跟人類其實(shí)一模一樣。

任何牛逼的程序員都知道,第一版代碼永遠(yuǎn)是最爛的,代碼質(zhì)量是改出來的,不是寫出來的。

任何牛逼的作家都知道,第一稿永遠(yuǎn)是廢稿,好文章是改出來的,不是寫出來的。

現(xiàn)在,AI也一樣了。

未來展望

MIT在論文最后提到,這只是一個(gè)開始。

目前的RLM還有很多可以優(yōu)化的地方:

1.異步調(diào)用:目前子任務(wù)是一個(gè)接一個(gè)執(zhí)行的,如果能并行執(zhí)行,速度會(huì)更快。

2.更深的遞歸:目前只允許一層遞歸(AI調(diào)用自己的分身),如果允許分身再調(diào)用分身,理論上能處理更復(fù)雜的任務(wù)。

3.專門訓(xùn)練:目前RLM用的是現(xiàn)成的大模型,如果專門為遞歸思考訓(xùn)練一個(gè)模型,效果可能更猛。

MIT的研究者們相信,這可能代表了大模型能力擴(kuò)展的一個(gè)新方向:

不是一味地堆參數(shù)、堆算力,而是讓模型學(xué)會(huì)更聰明地思考。

彩蛋

MIT這篇論文,讓我想起了一個(gè)老笑話:

客戶問程序員:這個(gè)bug你修了多久?

程序員說:5分鐘。

客戶說:那為什么收我500塊?

程序員說:找出問題在哪,花了我3天。

AI也是一樣。

它的思考時(shí)間遠(yuǎn)比我們想象的更重要。

給它一點(diǎn)返工的機(jī)會(huì),它可能就能從還行變成牛逼。

這也許就是下一代AI進(jìn)化的方向:不是更大的腦子,而是更深度的思考。

參考資料:

https://x.com/a1zhang/status/2007198916073136152?s=20

秒追ASI

?點(diǎn)贊、轉(zhuǎn)發(fā)、在看一鍵三連?

點(diǎn)亮星標(biāo),鎖定新智元極速推送!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
1995年智利女部長訪華,竟點(diǎn)名要“借”走一個(gè)中國警察,幫他們破解埋藏22年的驚天白骨案!

1995年智利女部長訪華,竟點(diǎn)名要“借”走一個(gè)中國警察,幫他們破解埋藏22年的驚天白骨案!

歷史回憶室
2025-12-12 18:17:10
杭州保姆縱火案亡妻尸骨未寒老公已二胎生女,通靈人解讀背后真相

杭州保姆縱火案亡妻尸骨未寒老公已二胎生女,通靈人解讀背后真相

無煙工廠
2024-04-11 19:37:13
中國有源相控陣?yán)走_(dá)真實(shí)水平:并非世界第一,和美差距有多大

中國有源相控陣?yán)走_(dá)真實(shí)水平:并非世界第一,和美差距有多大

黑翼天使
2026-01-10 03:28:16
40歲的阿姨一樣可以穿的很有魅力

40歲的阿姨一樣可以穿的很有魅力

美女穿搭分享
2026-01-09 20:48:33
曝李大雙和李琳離婚,現(xiàn)任是外國美女,已生兒子,丁克23年被拋棄

曝李大雙和李琳離婚,現(xiàn)任是外國美女,已生兒子,丁克23年被拋棄

天天熱點(diǎn)見聞
2026-01-10 16:30:29
早報(bào) | 曼城10比1??巳爻牵粺岽?比2維拉;埃及3比2科特迪瓦

早報(bào) | 曼城10比1??巳爻牵粺岽?比2維拉;埃及3比2科特迪瓦

足球報(bào)
2026-01-11 07:11:57
果然不出所料,跟高市通完電話后,特朗普下達(dá)總統(tǒng)令:跟中國打打

果然不出所料,跟高市通完電話后,特朗普下達(dá)總統(tǒng)令:跟中國打打

阿校談史
2026-01-10 17:42:33
張維伊婚后第一個(gè)生日!董璇直接下血本,茅臺(tái)、高定水是基本標(biāo)配

張維伊婚后第一個(gè)生日!董璇直接下血本,茅臺(tái)、高定水是基本標(biāo)配

好叫好伐
2026-01-10 22:57:11
研究發(fā)現(xiàn):銀河系已經(jīng)“吃”了6個(gè)星系,此刻正在“消化”第7個(gè)

研究發(fā)現(xiàn):銀河系已經(jīng)“吃”了6個(gè)星系,此刻正在“消化”第7個(gè)

觀察宇宙
2026-01-10 19:39:31
氣到摔水杯吞里程悲!杜蘭特超大帥卻連敗 休媒:我們不配擁有KD

氣到摔水杯吞里程悲!杜蘭特超大帥卻連敗 休媒:我們不配擁有KD

顏小白的籃球夢(mèng)
2026-01-10 13:39:01
都被騙了?委元首被捕后,一架美洲專機(jī)將抵華,卡尼在中國待4天

都被騙了?委元首被捕后,一架美洲專機(jī)將抵華,卡尼在中國待4天

來科點(diǎn)譜
2026-01-11 09:01:27
23分5記三分!他終于開竅了?把遼寧當(dāng)同曦 把自己當(dāng)主角!

23分5記三分!他終于開竅了?把遼寧當(dāng)同曦 把自己當(dāng)主角!

劉哥談體育
2026-01-10 11:19:01
云南省體育局通報(bào)運(yùn)動(dòng)員實(shí)名舉報(bào)被索要獎(jiǎng)金:情況基本屬實(shí),對(duì)教練范某某作出免職處理,已對(duì)其立案調(diào)查

云南省體育局通報(bào)運(yùn)動(dòng)員實(shí)名舉報(bào)被索要獎(jiǎng)金:情況基本屬實(shí),對(duì)教練范某某作出免職處理,已對(duì)其立案調(diào)查

臺(tái)州交通廣播
2026-01-10 23:33:43
出動(dòng)3路人馬,高市早苗對(duì)華正式宣戰(zhàn)!關(guān)鍵時(shí)刻,特朗普卻攤牌了

出動(dòng)3路人馬,高市早苗對(duì)華正式宣戰(zhàn)!關(guān)鍵時(shí)刻,特朗普卻攤牌了

時(shí)時(shí)有聊
2026-01-10 14:41:22
“館長”被起訴,再嗆賴清德“敢不敢出庭”:要玩就玩大的

“館長”被起訴,再嗆賴清德“敢不敢出庭”:要玩就玩大的

海峽導(dǎo)報(bào)社
2026-01-10 08:32:06
日本街頭偶遇木村拓哉夫婦!生活模式像老人,網(wǎng)友:有點(diǎn)羅圈腿

日本街頭偶遇木村拓哉夫婦!生活模式像老人,網(wǎng)友:有點(diǎn)羅圈腿

小徐講八卦
2026-01-10 08:39:58
【夢(mèng)實(shí)香苗】頂級(jí)御姐!日本新人老師,絕對(duì)讓你心動(dòng)!

【夢(mèng)實(shí)香苗】頂級(jí)御姐!日本新人老師,絕對(duì)讓你心動(dòng)!

碧波萬覽
2026-01-11 05:50:05
滿是心酸!42歲著名歌手江蘇走穴,賓客只顧吃席沒人搭理

滿是心酸!42歲著名歌手江蘇走穴,賓客只顧吃席沒人搭理

阿燕姐說育兒
2026-01-10 00:27:50
洗碗機(jī)砸家后續(xù):丈夫降薪,妻子愛美,每月多次海底撈,朋友發(fā)聲

洗碗機(jī)砸家后續(xù):丈夫降薪,妻子愛美,每月多次海底撈,朋友發(fā)聲

以茶帶書
2026-01-09 22:17:05
用生命書寫忠誠 用腳步丈量平安

用生命書寫忠誠 用腳步丈量平安

中國青年報(bào)
2026-01-10 07:15:20
2026-01-11 09:44:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
14306文章數(shù) 66452關(guān)注度
往期回顧 全部

科技要聞

必看 | 2026開年最頂格的AI對(duì)話

頭條要聞

"國共論壇"被指即將重啟 鄭麗文:感受到大陸誠意善

頭條要聞

"國共論壇"被指即將重啟 鄭麗文:感受到大陸誠意善

體育要聞

詹皇曬照不滿打手沒哨 裁判報(bào)告最后兩分鐘無誤判

娛樂要聞

吳速玲曝兒子Joe是戀愛腦

財(cái)經(jīng)要聞

這不算詐騙嗎?水滴保誘導(dǎo)扣款惹眾怒

汽車要聞

寶馬25年全球銷量246.3萬臺(tái) 中國仍是第一大市場(chǎng)

態(tài)度原創(chuàng)

藝術(shù)
時(shí)尚
親子
旅游
游戲

藝術(shù)要聞

“天狂有雨”背后的秘密,你絕對(duì)想不到!

動(dòng)物紋回潮,那很狂野了

親子要聞

寶寶第一次吃米糊,寶寶:有這好東西不早點(diǎn)拿出來!網(wǎng)友:眼里全是對(duì)食物的渴望

旅游要聞

寧波首座地鐵口庭院開放 每逢整點(diǎn)還有人造雪花

歷史演義跑團(tuán)游戲《捉刀》Steam上線 獲特別好評(píng)

無障礙瀏覽 進(jìn)入關(guān)懷版