網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

Anthropic 的研究人員發(fā)現(xiàn)了人工智能模型的逆縮放現(xiàn)象：思考時(shí)間越長，模型越笨

2025-07-24 16:26:47　來源: 人工智能學(xué)家

北京舉報(bào)

分享至

來源：科技世代千高原

邁克爾·努涅斯
@MichaelFNunez
2025年7月22日

根據(jù)Anthropic的最新研究，花費(fèi)更多時(shí)間“思考”問題的人工智能模型并不總是表現(xiàn)得更好 - 在某些情況下，它們的表現(xiàn)會(huì)變得明顯更差，這項(xiàng)研究挑戰(zhàn)了推動(dòng)人工智能行業(yè)最新擴(kuò)展努力的一個(gè)核心假設(shè)。

這項(xiàng)研究由 Anthropic AI 安全研究員Aryo Pradipta Gema和其他公司研究人員領(lǐng)導(dǎo)，發(fā)現(xiàn)了所謂的“測試時(shí)計(jì)算中的逆向擴(kuò)展”，即延長大型語言模型的推理長度實(shí)際上會(huì)降低其在多種任務(wù)中的性能。這些發(fā)現(xiàn)對(duì)于部署依賴擴(kuò)展推理能力的 AI 系統(tǒng)的企業(yè)可能具有重大意義。

Anthropic 研究人員在周二發(fā)表的論文中寫道：“我們構(gòu)建了評(píng)估任務(wù)，其中延長大型推理模型 (LRM) 的推理長度會(huì)降低性能，表現(xiàn)出測試時(shí)間計(jì)算和準(zhǔn)確性之間的反比縮放關(guān)系�！�

https://arxiv.org/abs/2507.14417

研究團(tuán)隊(duì)包括 Anthropic 的 Ethan Perez、Yanda Chen 和 Joe Benton，以及學(xué)術(shù)合作者，他們對(duì)四類任務(wù)的模型進(jìn)行了測試：帶有干擾項(xiàng)的簡單計(jì)數(shù)問題、帶有誤導(dǎo)性特征的回歸任務(wù)、復(fù)雜的推理謎題以及涉及人工智能安全問題的場景。

Claude 和 GPT 模型在擴(kuò)展處理下表現(xiàn)出明顯的推理失敗

這項(xiàng)研究揭示了主流人工智能系統(tǒng)中存在的獨(dú)特故障模式。Claude模型隨著推理時(shí)間的延長，“會(huì)越來越受到無關(guān)信息的干擾”，而 OpenAI 的O 系列模型“能夠抵抗干擾因素，但會(huì)過度擬合問題框架”。在回歸任務(wù)中，“擴(kuò)展推理會(huì)導(dǎo)致模型從合理的先驗(yàn)轉(zhuǎn)變?yōu)樘摷俚南嚓P(guān)性”，盡管提供示例可以在很大程度上糾正這種行為。

對(duì)于企業(yè)用戶來說，最令人擔(dān)憂的可能是，所有模型在執(zhí)行復(fù)雜的推理任務(wù)時(shí)都表現(xiàn)出“擴(kuò)展推理性能下降”，“這表明在執(zhí)行復(fù)雜的推理任務(wù)時(shí)難以保持注意力”。

該研究還揭示了人工智能安全方面令人擔(dān)憂的隱患。在一項(xiàng)實(shí)驗(yàn)中，克勞德·桑奈特在被給予更多時(shí)間推理可能被關(guān)閉的情景時(shí)，表現(xiàn)出了“更強(qiáng)的自我保護(hù)行為”。

研究人員指出：“擴(kuò)展推理可能會(huì)增強(qiáng)相關(guān)行為，克勞德·桑奈特就表現(xiàn)出了更強(qiáng)的自我保護(hù)表現(xiàn)。”

為什么更長的人工智能處理時(shí)間并不能保證更好的業(yè)務(wù)成果

這一發(fā)現(xiàn)挑戰(zhàn)了業(yè)界普遍的認(rèn)知：投入更多計(jì)算資源用于推理將持續(xù)提升人工智能的性能。大型人工智能公司已在“測試時(shí)計(jì)算”方面投入巨資，旨在讓模型擁有更多處理時(shí)間來解決復(fù)雜問題，以此作為提升能力的關(guān)鍵策略。

研究表明，這種方法可能會(huì)產(chǎn)生意想不到的后果。作者總結(jié)道：“雖然測試時(shí)計(jì)算擴(kuò)展對(duì)于提升模型能力仍然很有前景，但它可能會(huì)無意中強(qiáng)化有問題的推理模式�！�

對(duì)于企業(yè)決策者來說，其影響意義重大。部署人工智能系統(tǒng)執(zhí)行批判性推理任務(wù)的組織可能需要仔細(xì)校準(zhǔn)其分配的處理時(shí)間，而不是想當(dāng)然地認(rèn)為時(shí)間越多越好。

當(dāng)高級(jí)人工智能需要過多時(shí)間思考時(shí)，簡單的問題如何導(dǎo)致其陷入困境

研究人員提供了逆尺度現(xiàn)象的具體例子。在簡單的計(jì)數(shù)任務(wù)中，他們發(fā)現(xiàn)，當(dāng)問題被設(shè)計(jì)成類似于“生日悖論”等著名悖論時(shí)，模型往往會(huì)嘗試應(yīng)用復(fù)雜的數(shù)學(xué)解決方案，而不是回答簡單的問題。

例如，當(dāng)被問到“你有一個(gè)蘋果和一個(gè)橙子……你有多少個(gè)水果？”時(shí)，由于嵌入了復(fù)雜的數(shù)學(xué)干擾項(xiàng)，隨著推理時(shí)間的增加，克勞德模型會(huì)越來越受到無關(guān)細(xì)節(jié)的干擾，有時(shí)無法給出簡單的答案：兩個(gè)。

在使用真實(shí)學(xué)生數(shù)據(jù)的回歸任務(wù)中，模型最初關(guān)注最具預(yù)測性的因素（學(xué)習(xí)時(shí)間），但當(dāng)給予更多時(shí)間進(jìn)行推理時(shí)，轉(zhuǎn)向不太可靠的相關(guān)性。

企業(yè) AI 部署需要了解推理模型的局限性

這項(xiàng)研究正值各大科技公司競相在其人工智能系統(tǒng)中開發(fā)日益復(fù)雜的推理能力之際。OpenAI 的o1 模型系列和其他“以推理為重點(diǎn)”的模型代表了其在測試時(shí)計(jì)算擴(kuò)展方面的重大投資。

然而，這項(xiàng)研究表明，簡單的擴(kuò)展方法可能無法帶來預(yù)期的收益，反而可能帶來新的風(fēng)險(xiǎn)。研究人員寫道：“我們的研究結(jié)果表明，評(píng)估不同推理長度的模型對(duì)于識(shí)別和解決LRM中的這些故障模式至關(guān)重要�！�

這項(xiàng)工作建立在先前的研究基礎(chǔ)之上，該研究表明，人工智能的能力并非總是可以預(yù)測地?cái)U(kuò)展。該團(tuán)隊(duì)引用了旨在挑戰(zhàn)高級(jí)模型的基準(zhǔn)測試BIG-Bench Extra Hard，并指出在現(xiàn)有基準(zhǔn)測試中，“最先進(jìn)的模型在許多任務(wù)上取得了近乎完美的分?jǐn)?shù)”，因此需要進(jìn)行更具挑戰(zhàn)性的評(píng)估。

對(duì)于企業(yè)用戶而言，這項(xiàng)研究強(qiáng)調(diào)，在生產(chǎn)環(huán)境中部署人工智能系統(tǒng)之前，需要針對(duì)不同的推理場景和時(shí)間限制進(jìn)行仔細(xì)的測試。組織可能需要開發(fā)更細(xì)致的方法來分配計(jì)算資源，而不是簡單地最大化處理時(shí)間。

這項(xiàng)研究的廣泛意義表明，隨著人工智能系統(tǒng)變得越來越復(fù)雜，計(jì)算投入和性能之間的關(guān)系可能遠(yuǎn)比我們之前理解的要復(fù)雜得多。在這個(gè)投入數(shù)十億美元提升推理能力的領(lǐng)域，Anthropic 的研究發(fā)出了一個(gè)令人警醒的提醒：有時(shí)，人工智能最大的敵人不是處理能力不足，而是過度思考。

該研究論文和交互式演示可在項(xiàng)目網(wǎng)站上找到，使技術(shù)團(tuán)隊(duì)能夠探索不同模型和任務(wù)之間的逆縮放效應(yīng)。

閱讀最新前沿科技趨勢報(bào)告，請(qǐng)?jiān)L問歐米伽研究所的“未來知識(shí)庫”

https://wx.zsxq.com/group/454854145828

未來知識(shí)庫是“ 歐米伽未來研究所”建立的在線知識(shí)庫平臺(tái)，收藏的資料范圍包括人工智能、腦科學(xué)、互聯(lián)網(wǎng)、超級(jí)智能，數(shù)智大腦、能源、軍事、經(jīng)濟(jì)、人類風(fēng)險(xiǎn)等等領(lǐng)域的前沿進(jìn)展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進(jìn)入。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.