国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

Anthropic 的研究人員發(fā)現(xiàn)了人工智能模型的逆縮放現(xiàn)象:思考時(shí)間越長,模型越笨

0
分享至


來源:科技世代千高原

邁克爾·努涅斯
@MichaelFNunez
2025年7月22日

根據(jù)Anthropic的最新研究,花費(fèi)更多時(shí)間“思考”問題的人工智能模型并不總是表現(xiàn)得更好 - 在某些情況下,它們的表現(xiàn)會(huì)變得明顯更差,這項(xiàng)研究挑戰(zhàn)了推動(dòng)人工智能行業(yè)最新擴(kuò)展努力的一個(gè)核心假設(shè)。

這項(xiàng)研究由 Anthropic AI 安全研究員Aryo Pradipta Gema和其他公司研究人員領(lǐng)導(dǎo),發(fā)現(xiàn)了所謂的“測試時(shí)計(jì)算中的逆向擴(kuò)展”,即延長大型語言模型的推理長度實(shí)際上會(huì)降低其在多種任務(wù)中的性能。這些發(fā)現(xiàn)對(duì)于部署依賴擴(kuò)展推理能力的 AI 系統(tǒng)的企業(yè)可能具有重大意義。

Anthropic 研究人員在周二發(fā)表的論文中寫道:“我們構(gòu)建了評(píng)估任務(wù),其中延長大型推理模型 (LRM) 的推理長度會(huì)降低性能,表現(xiàn)出測試時(shí)間計(jì)算和準(zhǔn)確性之間的反比縮放關(guān)系!

https://arxiv.org/abs/2507.14417


研究團(tuán)隊(duì)包括 Anthropic 的 Ethan Perez、Yanda Chen 和 Joe Benton,以及學(xué)術(shù)合作者,他們對(duì)四類任務(wù)的模型進(jìn)行了測試:帶有干擾項(xiàng)的簡單計(jì)數(shù)問題、帶有誤導(dǎo)性特征的回歸任務(wù)、復(fù)雜的推理謎題以及涉及人工智能安全問題的場景。

Claude 和 GPT 模型在擴(kuò)展處理下表現(xiàn)出明顯的推理失敗

這項(xiàng)研究揭示了主流人工智能系統(tǒng)中存在的獨(dú)特故障模式。Claude模型隨著推理時(shí)間的延長,“會(huì)越來越受到無關(guān)信息的干擾”,而 OpenAI 的O 系列模型“能夠抵抗干擾因素,但會(huì)過度擬合問題框架”。在回歸任務(wù)中,“擴(kuò)展推理會(huì)導(dǎo)致模型從合理的先驗(yàn)轉(zhuǎn)變?yōu)樘摷俚南嚓P(guān)性”,盡管提供示例可以在很大程度上糾正這種行為。

對(duì)于企業(yè)用戶來說,最令人擔(dān)憂的可能是,所有模型在執(zhí)行復(fù)雜的推理任務(wù)時(shí)都表現(xiàn)出“擴(kuò)展推理性能下降”,“這表明在執(zhí)行復(fù)雜的推理任務(wù)時(shí)難以保持注意力”。

該研究還揭示了人工智能安全方面令人擔(dān)憂的隱患。在一項(xiàng)實(shí)驗(yàn)中,克勞德·桑奈特在被給予更多時(shí)間推理可能被關(guān)閉的情景時(shí),表現(xiàn)出了“更強(qiáng)的自我保護(hù)行為”。

研究人員指出:“擴(kuò)展推理可能會(huì)增強(qiáng)相關(guān)行為,克勞德·桑奈特就表現(xiàn)出了更強(qiáng)的自我保護(hù)表現(xiàn)。”

為什么更長的人工智能處理時(shí)間并不能保證更好的業(yè)務(wù)成果

這一發(fā)現(xiàn)挑戰(zhàn)了業(yè)界普遍的認(rèn)知:投入更多計(jì)算資源用于推理將持續(xù)提升人工智能的性能。大型人工智能公司已在“測試時(shí)計(jì)算”方面投入巨資,旨在讓模型擁有更多處理時(shí)間來解決復(fù)雜問題,以此作為提升能力的關(guān)鍵策略。

研究表明,這種方法可能會(huì)產(chǎn)生意想不到的后果。作者總結(jié)道:“雖然測試時(shí)計(jì)算擴(kuò)展對(duì)于提升模型能力仍然很有前景,但它可能會(huì)無意中強(qiáng)化有問題的推理模式!

對(duì)于企業(yè)決策者來說,其影響意義重大。部署人工智能系統(tǒng)執(zhí)行批判性推理任務(wù)的組織可能需要仔細(xì)校準(zhǔn)其分配的處理時(shí)間,而不是想當(dāng)然地認(rèn)為時(shí)間越多越好。

當(dāng)高級(jí)人工智能需要過多時(shí)間思考時(shí),簡單的問題如何導(dǎo)致其陷入困境

研究人員提供了逆尺度現(xiàn)象的具體例子。在簡單的計(jì)數(shù)任務(wù)中,他們發(fā)現(xiàn),當(dāng)問題被設(shè)計(jì)成類似于“生日悖論”等著名悖論時(shí),模型往往會(huì)嘗試應(yīng)用復(fù)雜的數(shù)學(xué)解決方案,而不是回答簡單的問題。

例如,當(dāng)被問到“你有一個(gè)蘋果和一個(gè)橙子……你有多少個(gè)水果?”時(shí),由于嵌入了復(fù)雜的數(shù)學(xué)干擾項(xiàng),隨著推理時(shí)間的增加,克勞德模型會(huì)越來越受到無關(guān)細(xì)節(jié)的干擾,有時(shí)無法給出簡單的答案:兩個(gè)。

在使用真實(shí)學(xué)生數(shù)據(jù)的回歸任務(wù)中,模型最初關(guān)注最具預(yù)測性的因素(學(xué)習(xí)時(shí)間),但當(dāng)給予更多時(shí)間進(jìn)行推理時(shí),轉(zhuǎn)向不太可靠的相關(guān)性。

企業(yè) AI 部署需要了解推理模型的局限性

這項(xiàng)研究正值各大科技公司競相在其人工智能系統(tǒng)中開發(fā)日益復(fù)雜的推理能力之際。OpenAI 的o1 模型系列和其他“以推理為重點(diǎn)”的模型代表了其在測試時(shí)計(jì)算擴(kuò)展方面的重大投資。

然而,這項(xiàng)研究表明,簡單的擴(kuò)展方法可能無法帶來預(yù)期的收益,反而可能帶來新的風(fēng)險(xiǎn)。研究人員寫道:“我們的研究結(jié)果表明,評(píng)估不同推理長度的模型對(duì)于識(shí)別和解決LRM中的這些故障模式至關(guān)重要!

這項(xiàng)工作建立在先前的研究基礎(chǔ)之上,該研究表明,人工智能的能力并非總是可以預(yù)測地?cái)U(kuò)展。該團(tuán)隊(duì)引用了旨在挑戰(zhàn)高級(jí)模型的基準(zhǔn)測試BIG-Bench Extra Hard,并指出在現(xiàn)有基準(zhǔn)測試中,“最先進(jìn)的模型在許多任務(wù)上取得了近乎完美的分?jǐn)?shù)”,因此需要進(jìn)行更具挑戰(zhàn)性的評(píng)估。

對(duì)于企業(yè)用戶而言,這項(xiàng)研究強(qiáng)調(diào),在生產(chǎn)環(huán)境中部署人工智能系統(tǒng)之前,需要針對(duì)不同的推理場景和時(shí)間限制進(jìn)行仔細(xì)的測試。組織可能需要開發(fā)更細(xì)致的方法來分配計(jì)算資源,而不是簡單地最大化處理時(shí)間。

這項(xiàng)研究的廣泛意義表明,隨著人工智能系統(tǒng)變得越來越復(fù)雜,計(jì)算投入和性能之間的關(guān)系可能遠(yuǎn)比我們之前理解的要復(fù)雜得多。在這個(gè)投入數(shù)十億美元提升推理能力的領(lǐng)域,Anthropic 的研究發(fā)出了一個(gè)令人警醒的提醒:有時(shí),人工智能最大的敵人不是處理能力不足,而是過度思考。

該研究論文和交互式演示可在項(xiàng)目網(wǎng)站上找到,使技術(shù)團(tuán)隊(duì)能夠探索不同模型和任務(wù)之間的逆縮放效應(yīng)。

閱讀最新前沿科技趨勢報(bào)告,請(qǐng)?jiān)L問歐米伽研究所的“未來知識(shí)庫”

https://wx.zsxq.com/group/454854145828


未來知識(shí)庫是“ 歐米伽 未來研究所”建立的在線知識(shí)庫平臺(tái),收藏的資料范圍包括人工智能、腦科學(xué)、互聯(lián)網(wǎng)、超級(jí)智能,數(shù)智大腦、能源、軍事、經(jīng)濟(jì)、人類風(fēng)險(xiǎn)等等領(lǐng)域的前沿進(jìn)展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進(jìn)入。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
鄰居樓道堆鞋架,男子掛爺爺遺照反擊,網(wǎng)友:干得漂亮!

鄰居樓道堆鞋架,男子掛爺爺遺照反擊,網(wǎng)友:干得漂亮!

皮蛋兒電影
2025-12-26 21:02:13
79歲李保田現(xiàn)狀:定居山東衰老明顯,兒子李彧長得像父親“翻版”

79歲李保田現(xiàn)狀:定居山東衰老明顯,兒子李彧長得像父親“翻版”

小熊侃史
2025-12-20 10:56:45
她是軍藝;,被大25歲張鐵林拋棄后,為何又嫁給著名的“壞蛋”

她是軍藝;,被大25歲張鐵林拋棄后,為何又嫁給著名的“壞蛋”

豐譚筆錄
2025-12-16 10:57:24
廚房米缸底下,壓三樣?xùn)|西,不出三年,家運(yùn)必定由衰轉(zhuǎn)盛!

廚房米缸底下,壓三樣?xùn)|西,不出三年,家運(yùn)必定由衰轉(zhuǎn)盛!

古怪奇談錄
2025-12-27 14:20:28
笑死!原來這是全國老公統(tǒng)一副業(yè),網(wǎng)友:太真實(shí)了

笑死!原來這是全國老公統(tǒng)一副業(yè),網(wǎng)友:太真實(shí)了

另子維愛讀史
2025-12-15 22:33:23
俄羅斯拒簽20點(diǎn)計(jì)劃,誓言打服烏克蘭,澤連斯基急喊美國救命

俄羅斯拒簽20點(diǎn)計(jì)劃,誓言打服烏克蘭,澤連斯基急喊美國救命

卷史
2025-12-27 23:05:45
三種姿勢過夫妻生活,更容易懷孕?頻次過高,精子質(zhì)量差?

三種姿勢過夫妻生活,更容易懷孕?頻次過高,精子質(zhì)量差?

資說
2025-12-07 10:31:03
南博風(fēng)波后續(xù):全網(wǎng)追查“借畫不還”的神秘老同志,揭開歷史迷霧

南博風(fēng)波后續(xù):全網(wǎng)追查“借畫不還”的神秘老同志,揭開歷史迷霧

公子麥少
2025-12-21 14:54:43
柬埔寨內(nèi)憂外患纏身,不僅正面交火打不過,談判代表更怕有去無回

柬埔寨內(nèi)憂外患纏身,不僅正面交火打不過,談判代表更怕有去無回

傲骨真心
2025-12-26 18:03:08
原來洪晃的閨蜜是她,難怪百億富豪丈夫去世后,拒繼承數(shù)億遺產(chǎn)

原來洪晃的閨蜜是她,難怪百億富豪丈夫去世后,拒繼承數(shù)億遺產(chǎn)

白面書誏
2025-12-27 17:07:32
曾是“央視名嘴”,因揭露姜昆丑聞被封殺,如今70歲處境如何?

曾是“央視名嘴”,因揭露姜昆丑聞被封殺,如今70歲處境如何?

小熊侃史
2025-12-15 10:51:25
放棄中立選邊站,普京盟友準(zhǔn)備和中國翻臉?盧卡申科向美遞投名狀

放棄中立選邊站,普京盟友準(zhǔn)備和中國翻臉?盧卡申科向美遞投名狀

知鑒明史
2025-12-26 19:21:37
大俄現(xiàn)在最大的困境:俄烏沖突造成的損失,已經(jīng)無法西失東補(bǔ)了

大俄現(xiàn)在最大的困境:俄烏沖突造成的損失,已經(jīng)無法西失東補(bǔ)了

小莜讀史
2025-12-26 23:54:02
剛剛,一地突發(fā)地震!多地網(wǎng)友:有震感,還有人跑下樓了

剛剛,一地突發(fā)地震!多地網(wǎng)友:有震感,還有人跑下樓了

天津族
2025-12-28 00:35:41
南京博物院院長從靈谷塔七層一躍而下!

南京博物院院長從靈谷塔七層一躍而下!

興化論談
2025-12-19 20:21:07
19歲那年生產(chǎn)隊(duì)長讓我去幫槽,爹提醒我:到牲口屋可沒人給你說媒

19歲那年生產(chǎn)隊(duì)長讓我去幫槽,爹提醒我:到牲口屋可沒人給你說媒

千秋文化
2025-12-27 19:49:06
俱樂部對(duì)主帥失控,邱彪對(duì)球員失控,球隊(duì)對(duì)輿論失控,山東隊(duì)真亂

俱樂部對(duì)主帥失控,邱彪對(duì)球員失控,球隊(duì)對(duì)輿論失控,山東隊(duì)真亂

姜大叔侃球
2025-12-27 19:46:34
一部封神!九條滿:出道一年即消失,卻讓老司機(jī)們念念不忘

一部封神!九條滿:出道一年即消失,卻讓老司機(jī)們念念不忘

灼灼小齊
2025-12-26 19:41:18
曼城豪取八連勝!暫登頂英超,1分領(lǐng)先阿森納,瓜帥追平弗格森

曼城豪取八連勝!暫登頂英超,1分領(lǐng)先阿森納,瓜帥追平弗格森

奧拜爾
2025-12-27 22:26:30
天王杯石宇奇完勝,決賽將戰(zhàn)衛(wèi)冕冠軍,附賽程

天王杯石宇奇完勝,決賽將戰(zhàn)衛(wèi)冕冠軍,附賽程

佑銘羽球
2025-12-28 00:14:11
2025-12-28 03:08:49
人工智能學(xué)家 incentive-icons
人工智能學(xué)家
人工智能領(lǐng)域權(quán)威媒體
4423文章數(shù) 37357關(guān)注度
往期回顧 全部

科技要聞

小米也漲價(jià)了!業(yè)界稱終端再不漲明年必虧

頭條要聞

美媒:特朗普顯然觸及了中國的紅線 中方怒了

頭條要聞

美媒:特朗普顯然觸及了中國的紅線 中方怒了

體育要聞

83分鐘絕殺!曼城2-1年度收官:英超6連勝狂飆

娛樂要聞

張昊唯逃稅涉黃風(fēng)波落幕:法院認(rèn)定朋友造謠

財(cái)經(jīng)要聞

注意,開始拉物價(jià)了!

汽車要聞

好音響比大屏更重要?車企開始“聽”用戶的

態(tài)度原創(chuàng)

藝術(shù)
教育
親子
家居
時(shí)尚

藝術(shù)要聞

驚艷!這件木雕美得讓人心動(dòng),絕對(duì)不容錯(cuò)過!

教育要聞

初二開始,沒人再等你了

親子要聞

千萬別給小孩子穿太好!網(wǎng)友:怪不得說男孩就得窮養(yǎng)!

家居要聞

格調(diào)時(shí)尚 智慧品質(zhì)居所

穿好雪地靴的4個(gè)訣竅,還挺有效!

無障礙瀏覽 進(jìn)入關(guān)懷版