網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

研究揭秘：大語(yǔ)言模型推理鏈非真實(shí)思考過(guò)程

2025-12-29 22:40:05　來(lái)源: 至頂AI實(shí)驗(yàn)室

北京舉報(bào)

分享至

這篇由以色列巴伊蘭大學(xué)的Mosh Levy教授領(lǐng)導(dǎo)，聯(lián)合海法大學(xué)、紐約大學(xué)和艾倫人工智能研究所等機(jī)構(gòu)的研究團(tuán)隊(duì)，于2024年12月發(fā)表的重要研究論文（論文編號(hào)：arXiv:2512.12777v1），徹底顛覆了我們對(duì)大語(yǔ)言模型"推理過(guò)程"的傳統(tǒng)理解。感興趣的讀者可以通過(guò)該論文編號(hào)查詢完整研究?jī)?nèi)容。

當(dāng)我們看到ChatGPT或其他AI模型在回答復(fù)雜問(wèn)題時(shí)會(huì)先寫出一串"讓我一步步來(lái)思考"的文字，然后給出最終答案，我們很自然地認(rèn)為這些文字就是AI的"思考過(guò)程"。就像我們?cè)诮鈹?shù)學(xué)題時(shí)會(huì)在草稿紙上寫下中間步驟一樣，這些文字看起來(lái)就是AI大腦運(yùn)轉(zhuǎn)的真實(shí)記錄。但這項(xiàng)開創(chuàng)性研究告訴我們：事情遠(yuǎn)沒(méi)有這么簡(jiǎn)單。

研究團(tuán)隊(duì)通過(guò)大量實(shí)驗(yàn)發(fā)現(xiàn)了一個(gè)令人震驚的事實(shí)：那些看似合理的"推理步驟"實(shí)際上并不是AI真正的思考過(guò)程，而更像是一種特殊的"計(jì)算狀態(tài)存儲(chǔ)器"。為了讓普通讀者理解這個(gè)復(fù)雜概念，研究團(tuán)隊(duì)提出了一個(gè)精彩的比喻：白板理論。他們提出了全新的"狀態(tài)載于符號(hào)"理論框架，這個(gè)理論不僅解釋了AI推理的真實(shí)機(jī)制，還為未來(lái)的AI可解釋性研究開辟了全新方向。

一、記憶重置實(shí)驗(yàn)：白板上的秘密

研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)巧妙的思想實(shí)驗(yàn)來(lái)解釋AI的工作機(jī)制。想象這樣一個(gè)場(chǎng)景：你被關(guān)在一個(gè)房間里，面前有一塊白板，上面寫著一道復(fù)雜的數(shù)學(xué)題。你的任務(wù)是解決這道題，但有一個(gè)奇怪的限制條件：每隔10秒鐘，你的記憶就會(huì)被完全清空，重置到剛進(jìn)入房間時(shí)的狀態(tài)。在每個(gè)10秒的間隔內(nèi)，你只能在白板上寫下一個(gè)字或數(shù)字。這種循環(huán)會(huì)一直持續(xù)，直到你最終在白板上寫出正確答案。

在這種極端限制下，你會(huì)怎么解決問(wèn)題呢？你可能會(huì)在白板上寫下中間計(jì)算結(jié)果、重要的數(shù)字，或者一些只有你自己才能理解的符號(hào)和縮寫。這些內(nèi)容可能包括算式的中間步驟、關(guān)鍵的數(shù)值，甚至是一些看起來(lái)毫無(wú)意義的記號(hào)。當(dāng)你在下一個(gè)10秒周期"醒來(lái)"時(shí)，你會(huì)讀取白板上的內(nèi)容，理解自己之前的進(jìn)度，然后繼續(xù)向前推進(jìn)一小步。

關(guān)鍵的洞察在于：白板上的內(nèi)容并不一定要讓外人看懂。你可能會(huì)使用自己的編碼系統(tǒng)、簡(jiǎn)化符號(hào)，或者只記錄對(duì)下一步計(jì)算有用的信息。一個(gè)旁觀者如果試圖通過(guò)閱讀白板內(nèi)容來(lái)理解你的整個(gè)思考過(guò)程，很可能會(huì)得出錯(cuò)誤的結(jié)論。白板上的記錄并不是你思考過(guò)程的忠實(shí)再現(xiàn)，而是為了支持持續(xù)計(jì)算而設(shè)計(jì)的狀態(tài)存儲(chǔ)。

這個(gè)白板比喻完美地解釋了大語(yǔ)言模型的工作原理。AI模型就像這個(gè)不斷失憶的人，而那些看似是"推理過(guò)程"的文字就是白板上的內(nèi)容。每次模型生成一個(gè)新詞匯，它都是基于當(dāng)前看到的所有文字（包括問(wèn)題和之前生成的"推理"文字）來(lái)計(jì)算下一個(gè)詞。模型本身沒(méi)有持續(xù)的記憶，每次計(jì)算都是從零開始，只能依靠已經(jīng)寫出的文字來(lái)"記住"自己的進(jìn)度。

二、兩大誤解的揭示：表象與功能的分離

研究團(tuán)隊(duì)通過(guò)深入分析發(fā)現(xiàn)，人們對(duì)AI推理過(guò)程存在兩個(gè)根本性的誤解。第一個(gè)誤解是完整性錯(cuò)覺(jué)。我們往往認(rèn)為，既然AI寫出了推理步驟，那這些步驟就應(yīng)該包含所有的思考過(guò)程。但實(shí)際情況就像冰山一樣，我們看到的只是表面的一小部分。

為了說(shuō)明這個(gè)問(wèn)題，研究團(tuán)隊(duì)使用了一個(gè)數(shù)學(xué)例子。考慮計(jì)算第6個(gè)卡塔蘭數(shù)的過(guò)程，這是一個(gè)在數(shù)學(xué)和計(jì)算機(jī)科學(xué)中常見(jiàn)的數(shù)列。如果我們按照遞歸公式逐步計(jì)算，會(huì)得到這樣的序列：1, 1, 2, 5, 14, 42。從表面上看，這些數(shù)字似乎展示了計(jì)算過(guò)程，但實(shí)際上，每個(gè)數(shù)字的產(chǎn)生都涉及大量的內(nèi)部計(jì)算。數(shù)字"42"的出現(xiàn)需要基于前面所有的數(shù)字進(jìn)行復(fù)雜的組合運(yùn)算，但這些運(yùn)算的細(xì)節(jié)并沒(méi)有體現(xiàn)在最終的數(shù)字序列中。

同樣地，當(dāng)AI生成"讓我們考慮這個(gè)問(wèn)題的各個(gè)方面"這樣的文字時(shí)，這句話的產(chǎn)生過(guò)程可能涉及對(duì)輸入文本的深層語(yǔ)義分析、上下文關(guān)系的建立、以及多種可能回應(yīng)方式的權(quán)衡。但這些復(fù)雜的內(nèi)部處理過(guò)程并沒(méi)有在最終的文字輸出中得到體現(xiàn)。我們看到的只是計(jì)算過(guò)程中某些關(guān)鍵節(jié)點(diǎn)的外化表示，而不是完整的思考軌跡。

第二個(gè)誤解是語(yǔ)義一致性假設(shè)。我們自然地假設(shè)AI對(duì)這些文字的理解和人類的理解是一致的。但研究團(tuán)隊(duì)發(fā)現(xiàn)，這種假設(shè)可能完全錯(cuò)誤。AI可能發(fā)展出了完全不同于人類的符號(hào)編碼系統(tǒng)。

為了解釋這個(gè)概念，研究團(tuán)隊(duì)提出了另一個(gè)數(shù)學(xué)例子。假設(shè)有一個(gè)計(jì)算系統(tǒng)同樣在計(jì)算卡塔蘭數(shù)，但它使用了一種奇特的編碼方式：每個(gè)數(shù)字都加上10。因此，它的輸出序列會(huì)是：11, 11, 12, 15, 24, 52。對(duì)于外部觀察者來(lái)說(shuō)，這個(gè)序列看起來(lái)毫無(wú)規(guī)律，甚至可能是錯(cuò)誤的。但對(duì)于這個(gè)系統(tǒng)來(lái)說(shuō)，它在最后階段會(huì)從52中減去10，得到正確答案42。

這個(gè)例子雖然簡(jiǎn)單，但它揭示了一個(gè)深刻的問(wèn)題：AI可能在使用我們完全不理解的編碼方式來(lái)處理信息。當(dāng)AI寫出"我需要重新考慮這個(gè)方法"時(shí)，這句話對(duì)人類讀者來(lái)說(shuō)有明確的含義，但對(duì)AI系統(tǒng)來(lái)說(shuō)，它可能只是一個(gè)編碼標(biāo)記，表示某種特定的計(jì)算狀態(tài)轉(zhuǎn)換。句子的字面含義對(duì)AI的實(shí)際計(jì)算過(guò)程可能并不重要，重要的是這個(gè)句子在系統(tǒng)內(nèi)部編碼體系中的功能角色。

三、狀態(tài)載于符號(hào)：重新理解AI的計(jì)算本質(zhì)

基于這些發(fā)現(xiàn)，研究團(tuán)隊(duì)提出了"狀態(tài)載于符號(hào)"的理論框架。這個(gè)理論將AI生成的推理文字重新定義為計(jì)算狀態(tài)的外化載體，而不是思考過(guò)程的描述。就像計(jì)算機(jī)程序中的變量存儲(chǔ)著程序運(yùn)行時(shí)的狀態(tài)信息一樣，AI生成的文字承載著模型計(jì)算過(guò)程中的狀態(tài)信息。

在傳統(tǒng)的計(jì)算機(jī)程序中，程序的狀態(tài)信息存儲(chǔ)在內(nèi)存變量中，這些變量對(duì)用戶是不可見(jiàn)的。但AI模型的特殊之處在于，它的"內(nèi)存"就是那些生成的文字。每次模型需要進(jìn)行下一步計(jì)算時(shí)，它必須重新讀取和處理所有之前生成的文字，從中提取出當(dāng)前的計(jì)算狀態(tài)。

這種機(jī)制具有幾個(gè)重要特征。首先，狀態(tài)信息是面向未來(lái)的。就像GPS導(dǎo)航系統(tǒng)存儲(chǔ)的不是你過(guò)去走過(guò)的每一步路徑的詳細(xì)記錄，而是為了計(jì)算下一步路線所需的關(guān)鍵信息一樣，AI生成的文字主要服務(wù)于后續(xù)的計(jì)算需求，而不是為了記錄過(guò)往的思考細(xì)節(jié)。

其次，狀態(tài)編碼具有高度的選擇性。AI只需要外化那些對(duì)后續(xù)計(jì)算有用的信息，大量的內(nèi)部處理過(guò)程可以被"遺忘"。這就像一個(gè)廚師在烹飪過(guò)程中只記錄關(guān)鍵的配料比例和時(shí)間節(jié)點(diǎn)，而不會(huì)記錄每一次攪拌的具體動(dòng)作細(xì)節(jié)。

第三，狀態(tài)的解釋權(quán)完全屬于創(chuàng)建者。AI使用自己的語(yǔ)義體系來(lái)編碼和解碼這些文字，這個(gè)體系可能與人類的理解存在根本性差異。就像兩個(gè)密碼學(xué)家使用暗號(hào)交流一樣，文字的表面含義可能與實(shí)際傳遞的信息完全不同。

四、驗(yàn)證實(shí)驗(yàn)：理論的實(shí)證支持

為了驗(yàn)證這個(gè)理論框架，研究團(tuán)隊(duì)回顧了大量已有的實(shí)驗(yàn)證據(jù)。這些證據(jù)從多個(gè)角度支持了"狀態(tài)載于符號(hào)"理論的核心觀點(diǎn)。

首先，不完整性證據(jù)表明AI的推理文字經(jīng)常遺漏關(guān)鍵信息。在一些控制實(shí)驗(yàn)中，研究者發(fā)現(xiàn)AI模型能夠在推理文字中完全避開某些敏感話題，同時(shí)仍然在最終答案中體現(xiàn)對(duì)這些話題的考慮。這就像一個(gè)學(xué)生在考試中故意不在答題過(guò)程中提及某個(gè)爭(zhēng)議性觀點(diǎn)，但卻在最終結(jié)論中暗示了對(duì)這個(gè)觀點(diǎn)的理解。這種現(xiàn)象說(shuō)明推理文字并不是思考過(guò)程的完整記錄。

其次，語(yǔ)義錯(cuò)配證據(jù)顯示AI可能對(duì)自己生成的文字有著與人類完全不同的理解。實(shí)驗(yàn)發(fā)現(xiàn)，AI可以被訓(xùn)練成生成完全無(wú)關(guān)甚至錯(cuò)誤的推理文字，同時(shí)仍然產(chǎn)生正確的最終答案。這就好比一個(gè)翻譯家能夠通過(guò)閱讀亂碼般的筆記來(lái)產(chǎn)出準(zhǔn)確的翻譯，因?yàn)檫@些看似無(wú)意義的符號(hào)在他的個(gè)人編碼體系中有著明確的含義。

第三，因果關(guān)系實(shí)驗(yàn)表明推理文字的字面含義與計(jì)算過(guò)程之間缺乏直接的因果聯(lián)系。當(dāng)研究者修改推理文字的某些部分時(shí)，發(fā)現(xiàn)模型的后續(xù)行為變化往往與文字的語(yǔ)義變化不成比例。有時(shí)候看似微小的詞匯變化會(huì)導(dǎo)致完全不同的輸出，而有時(shí)候較大的語(yǔ)義變化卻幾乎不影響結(jié)果。這種不一致性進(jìn)一步證實(shí)了表面文字與底層計(jì)算機(jī)制之間的復(fù)雜關(guān)系。

五、本體論分歧：文本與狀態(tài)的雙重身份

研究團(tuán)隊(duì)指出，AI推理文字的獨(dú)特之處在于它們同時(shí)存在于兩個(gè)完全不同的本體論范疇中。對(duì)人類讀者來(lái)說(shuō)，這些文字是按照語(yǔ)言學(xué)規(guī)則構(gòu)建的交流媒介，具有明確的語(yǔ)義內(nèi)容和邏輯結(jié)構(gòu)。人類讀者會(huì)自然地將"首先我們需要分析這個(gè)問(wèn)題"解讀為一個(gè)表達(dá)認(rèn)知策略的陳述句。

但對(duì)AI系統(tǒng)來(lái)說(shuō)，相同的符號(hào)序列則是計(jì)算狀態(tài)的載體，是驅(qū)動(dòng)下一步計(jì)算的函數(shù)輸入。AI系統(tǒng)可能將這個(gè)句子編碼為某種內(nèi)部狀態(tài)指示器，其功能與句子的字面含義沒(méi)有直接關(guān)系。這種雙重身份創(chuàng)造了一種前所未有的本體論分歧：同一個(gè)符號(hào)序列同時(shí)屬于交流媒介和計(jì)算狀態(tài)兩個(gè)范疇，而這兩個(gè)范疇在本質(zhì)上是不兼容的。

這種分歧解釋了為什么AI的推理文字能夠看起來(lái)像合理的解釋，但實(shí)際上卻不是忠實(shí)的過(guò)程記錄。符號(hào)序列的語(yǔ)言學(xué)結(jié)構(gòu)使它們?cè)谌祟愖x者看來(lái)具有解釋性，但這種解釋性只是表面現(xiàn)象，真正的功能機(jī)制運(yùn)行在完全不同的層面上。

這種現(xiàn)象在人類經(jīng)驗(yàn)中幾乎沒(méi)有先例。我們習(xí)慣于符號(hào)系統(tǒng)要么主要用于交流，要么主要用于內(nèi)部計(jì)算，但很少遇到同一符號(hào)系統(tǒng)同時(shí)高效服務(wù)于兩個(gè)如此不同的目的。這種新穎性可能是造成理解誤區(qū)的根本原因：我們用處理傳統(tǒng)符號(hào)系統(tǒng)的方式來(lái)理解AI推理文字，但這些文字的運(yùn)作機(jī)制卻超出了我們的經(jīng)驗(yàn)范圍。

六、研究啟示：重新定義AI可解釋性

基于"狀態(tài)載于符號(hào)"理論，研究團(tuán)隊(duì)為AI可解釋性研究提出了全新的方向。傳統(tǒng)的可解釋性研究往往聚焦于讀懂AI生成的文字內(nèi)容，但這項(xiàng)研究表明，真正的理解需要解碼文字背后的狀態(tài)信息。

這種新方法提出了一系列前所未有的研究問(wèn)題。比如，AI是如何決定在每個(gè)計(jì)算周期中將哪些信息外化為文字的？不同的信息在狀態(tài)編碼中是否有優(yōu)先級(jí)差異？AI是否會(huì)在解決不同類型問(wèn)題時(shí)使用一致的編碼策略？這些問(wèn)題的答案對(duì)于理解AI的真實(shí)工作機(jī)制至關(guān)重要。

研究團(tuán)隊(duì)還探討了自然語(yǔ)言作為計(jì)算媒介的特殊性。雖然理論上任何符號(hào)系統(tǒng)都可以承載計(jì)算狀態(tài)，但自然語(yǔ)言可能具有獨(dú)特的優(yōu)勢(shì)。由于大語(yǔ)言模型在海量自然語(yǔ)言文本上進(jìn)行訓(xùn)練，它們可能發(fā)展出了與語(yǔ)言語(yǔ)義結(jié)構(gòu)相協(xié)調(diào)的編碼偏好。這種偏好使得生成的文字在保持計(jì)算功能的同時(shí)，也能呈現(xiàn)出一定的可讀性。

這個(gè)發(fā)現(xiàn)對(duì)于未來(lái)的AI訓(xùn)練方法也有重要啟示。如果我們希望提高推理過(guò)程的可解釋性，可能需要在訓(xùn)練過(guò)程中明確地平衡計(jì)算效率和語(yǔ)義透明度。這就像設(shè)計(jì)一種新的編程語(yǔ)言，既要保證計(jì)算性能，又要考慮人類程序員的理解需求。

七、忠實(shí)解釋的可能性：雙重約束下的挑戰(zhàn)

研究團(tuán)隊(duì)深入探討了一個(gè)核心問(wèn)題：AI的推理文字是否可能同時(shí)作為有效的計(jì)算狀態(tài)和忠實(shí)的過(guò)程解釋？這個(gè)問(wèn)題觸及了AI可解釋性的根本挑戰(zhàn)。

要實(shí)現(xiàn)這種雙重功能，文字必須滿足兩套完全不同的約束條件。從計(jì)算角度看，文字必須編碼所有必要的狀態(tài)信息，以確保后續(xù)計(jì)算的正確進(jìn)行。從解釋角度看，文字必須準(zhǔn)確描述實(shí)際發(fā)生的計(jì)算過(guò)程，讓人類讀者能夠理解AI的決策邏輯。

這種雙重約束創(chuàng)造了一個(gè)根本性的張力。最優(yōu)的計(jì)算狀態(tài)編碼可能需要使用非線性的信息組織方式、冗余的數(shù)據(jù)備份，或者對(duì)人類來(lái)說(shuō)語(yǔ)義不透明的符號(hào)壓縮技術(shù)。而最好的過(guò)程解釋則需要線性的邏輯展開、清晰的因果關(guān)系，以及與人類思維習(xí)慣一致的表達(dá)方式。

研究團(tuán)隊(duì)認(rèn)為，這種張力可能是不可調(diào)和的。自然語(yǔ)言符號(hào)系統(tǒng)可能無(wú)法同時(shí)滿足高效計(jì)算和透明解釋的雙重需求。這就像要求一個(gè)人同時(shí)用同一套手勢(shì)既進(jìn)行復(fù)雜的數(shù)學(xué)計(jì)算，又向觀眾清楚地解釋每一個(gè)計(jì)算步驟的邏輯，這在實(shí)踐中幾乎是不可能的。

這個(gè)結(jié)論對(duì)AI安全和治理具有重要意義。如果AI系統(tǒng)在原理上無(wú)法提供既有效又忠實(shí)的自我解釋，那么我們就不能依賴這種自我解釋來(lái)評(píng)估AI的決策過(guò)程。相反，我們需要開發(fā)獨(dú)立的監(jiān)督和理解工具，這些工具能夠從外部分析AI的行為模式，而不依賴于AI的自我報(bào)告。

八、理論框架的廣泛應(yīng)用

"狀態(tài)載于符號(hào)"理論的應(yīng)用范圍遠(yuǎn)超出了對(duì)推理文字的分析。這個(gè)理論為理解AI系統(tǒng)的許多其他方面提供了新的視角。

例如，在對(duì)話系統(tǒng)中，AI的回應(yīng)不僅僅是對(duì)用戶輸入的反應(yīng)，也是為后續(xù)對(duì)話建立計(jì)算狀態(tài)的過(guò)程。每一個(gè)AI回應(yīng)都在為將來(lái)可能的對(duì)話轉(zhuǎn)折做準(zhǔn)備，編碼著對(duì)話歷史、用戶偏好、話題發(fā)展方向等信息。用戶看到的是自然流暢的對(duì)話，但AI可能在操作一個(gè)復(fù)雜的狀態(tài)管理系統(tǒng)。

在創(chuàng)意生成任務(wù)中，AI產(chǎn)生的中間內(nèi)容同樣可能承載著狀態(tài)信息。當(dāng)AI在寫小說(shuō)時(shí)逐步展開情節(jié)，每一個(gè)情節(jié)發(fā)展不僅僅是故事的組成部分，也是為后續(xù)創(chuàng)作設(shè)定約束條件和可能性空間的過(guò)程?？此苿?chuàng)意性的敘述可能同時(shí)在執(zhí)行嚴(yán)格的狀態(tài)管理功能。

這個(gè)理論還有助于理解AI在多步驟任務(wù)中的行為模式。無(wú)論是編程、數(shù)學(xué)證明、還是復(fù)雜分析，AI都需要在多個(gè)計(jì)算周期之間傳遞信息。理解這種信息傳遞的機(jī)制對(duì)于預(yù)測(cè)AI行為、識(shí)別潛在錯(cuò)誤、以及設(shè)計(jì)更好的人機(jī)協(xié)作方式都具有重要價(jià)值。

研究團(tuán)隊(duì)的工作還為評(píng)估不同AI架構(gòu)的能力提供了新的標(biāo)準(zhǔn)。傳統(tǒng)的評(píng)估方法主要關(guān)注最終輸出的質(zhì)量，但"狀態(tài)載于符號(hào)"理論提醒我們，AI的狀態(tài)管理能力可能是更根本的性能指標(biāo)。一個(gè)能夠高效管理復(fù)雜狀態(tài)信息的AI系統(tǒng)可能在長(zhǎng)期任務(wù)和復(fù)雜推理方面具有顯著優(yōu)勢(shì)。

說(shuō)到底，這項(xiàng)研究徹底改變了我們對(duì)AI"思考"的理解。那些看似條理清晰的推理步驟，實(shí)際上是一種精巧的計(jì)算狀態(tài)存儲(chǔ)和傳遞機(jī)制。AI并不是在向我們解釋它的思考過(guò)程，而是在管理自己的計(jì)算需求。這種發(fā)現(xiàn)既令人意外，又具有深刻的啟發(fā)性。它提醒我們，在AI系統(tǒng)變得越來(lái)越復(fù)雜的時(shí)代，我們不能僅僅根據(jù)表面現(xiàn)象來(lái)理解它們的工作原理。

歸根結(jié)底，這項(xiàng)研究為我們提供了一個(gè)更準(zhǔn)確、更深入的AI理解框架。雖然這意味著AI的可解釋性比我們想象的更加復(fù)雜，但同時(shí)也為開發(fā)更好的AI系統(tǒng)和人機(jī)交互方式開辟了新的可能性。畢竟，只有真正理解了AI的工作機(jī)制，我們才能更好地利用這項(xiàng)技術(shù)為人類社會(huì)服務(wù)。對(duì)于那些對(duì)AI工作原理感興趣的讀者，強(qiáng)烈建議通過(guò)論文編號(hào)arXiv:2512.12777v1查閱這項(xiàng)開創(chuàng)性研究的完整內(nèi)容。

Q&A

Q1：什么是"狀態(tài)載于符號(hào)"理論？

A："狀態(tài)載于符號(hào)"理論是指AI生成的推理文字實(shí)際上是計(jì)算狀態(tài)的存儲(chǔ)載體，而不是思考過(guò)程的真實(shí)記錄。就像白板上的筆記幫助失憶者繼續(xù)工作一樣，這些文字幫助AI在多個(gè)計(jì)算周期之間傳遞信息，但它們的功能與人類理解的含義可能完全不同。

Q2：為什么AI的推理文字看起來(lái)很合理卻不是真實(shí)的思考過(guò)程？

A：因?yàn)锳I使用自己的編碼系統(tǒng)來(lái)處理信息，這個(gè)系統(tǒng)可能與人類的語(yǔ)言理解完全不同。AI生成的文字雖然符合人類語(yǔ)法和邏輯，但對(duì)AI來(lái)說(shuō)可能只是編碼標(biāo)記。就像兩個(gè)人用密碼交流，表面文字的含義與實(shí)際傳遞的信息并不一致。

Q3：這項(xiàng)發(fā)現(xiàn)對(duì)AI安全有什么影響？

A：這項(xiàng)發(fā)現(xiàn)表明我們不能依賴AI的自我解釋來(lái)判斷它的決策過(guò)程，因?yàn)橥评砦淖挚赡懿环从痴鎸?shí)的計(jì)算邏輯。這要求我們開發(fā)獨(dú)立的AI監(jiān)督工具，不能僅僅通過(guò)閱讀AI的推理文字來(lái)評(píng)估其安全性和可靠性。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.