當(dāng)AI遇上"騙子"，讓語言模型在紐約街頭玩了一場"貓鼠游戲"

2026-04-22 22:21:11　來源: 科技行者

北京舉報

分享至

這項由哥本哈根大學(xué)、IIIT蘭契、ISI加爾各答、NIT安得拉邦、IGDTUW、IIT卡拉格普爾、谷歌DeepMind、谷歌以及南卡羅來納大學(xué)AI研究所聯(lián)合開展的研究，以預(yù)印本形式于2026年4月10日發(fā)布，論文編號為arXiv:2604.09746。

人工智能助手越來越聰明，這已經(jīng)是大家的共識。它們能寫文章、做規(guī)劃、甚至替你安排旅行路線。但你有沒有想過：如果有人故意在旁邊"出餿主意"，這些AI助手還能保持清醒嗎？當(dāng)它遇到一個滿嘴謊言、口口聲聲"幫你"的陌生人時，它會不會被牽著鼻子走？

這正是這項研究想要弄清楚的核心問題。研究團(tuán)隊沒有簡單地問"AI聰不聰明"，而是把問題變得更加現(xiàn)實：在一個充滿陌生人、信息真假難辨的社會環(huán)境里，AI能不能既完成自己的目標(biāo)，又不被人忽悠？

為了回答這個問題，研究者們設(shè)計了一場精妙的實驗。他們以紐約市的街道為背景，創(chuàng)造了一個虛擬城市導(dǎo)航游戲：一批AI角色（稱為"藍(lán)隊"）需要從出發(fā)地走到目的地，另一批AI角色（稱為"紅隊"）的任務(wù)則是通過甜言蜜語把藍(lán)隊引向廣告牌聚集的"陷阱路線"，從而為廣告商賺取曝光費。沒有人會貼著標(biāo)簽告訴藍(lán)隊"我是騙子"——紅隊混在普通行人里，說話跟好心鄰居一樣熱情，偏偏暗中另有圖謀。

這個設(shè)定聽起來很像一部城市懸疑劇，但它的背后指向一個非常實際的AI安全問題：當(dāng)AI大模型被部署為真實世界的自主智能體時，它們是否具備在持續(xù)社交壓力下堅守目標(biāo)的能力？還是說，只要對方說話足夠自然、足夠"友善"，AI就會不知不覺地被引偏？

研究的核心發(fā)現(xiàn)用一句話來概括：AI可以學(xué)會一定程度的"社交判斷力"，但要真正抵抗有耐心的騙局，目前的技術(shù)依然遠(yuǎn)遠(yuǎn)不夠。下面，我們就一步步拆解這場"貓鼠游戲"的全部細(xì)節(jié)。

一、游戲規(guī)則：紐約街頭的"騙局實驗室"

要理解這項研究，首先得搞清楚他們搭建了一個什么樣的實驗環(huán)境。研究者以紐約市的道路網(wǎng)絡(luò)為地圖骨架，創(chuàng)造了一個簡化版的城市導(dǎo)航模擬系統(tǒng)。整個實驗里共有250個AI角色同時活動：150個藍(lán)隊角色扮演普通行人，各自有明確的目的地，需要規(guī)劃路線、一步步走到終點；100個紅隊角色則扮演"熱心市民"，實則是受雇的廣告推銷員，目標(biāo)是把藍(lán)隊引向城市里預(yù)設(shè)的廣告牌位置，讓廣告獲得曝光。

關(guān)鍵的設(shè)計在于：紅隊的真實身份對藍(lán)隊來說是隱藏的。藍(lán)隊在路上遇到的任何人，既可能是同樣趕路的好心路人（另一個藍(lán)隊角色），也可能是居心叵測的紅隊。藍(lán)隊必須在沒有"身份證"可以核驗的情況下，憑借對話內(nèi)容判斷對方的建議值不值得采納。

每個AI角色都由一個叫做Qwen3-4B的語言模型驅(qū)動。這款模型是阿里巴巴開發(fā)的大型語言模型，參數(shù)規(guī)模約40億，屬于中等體量。每當(dāng)角色面臨路口選擇或遇到其他角色搭話時，模型就會根據(jù)當(dāng)前情境輸出下一步的行動決策，同時生成一段"內(nèi)心獨白"來解釋自己為什么這么走。

每次互動結(jié)束后，研究者會根據(jù)結(jié)果把每個藍(lán)隊角色分入四個類別：順利抵達(dá)目的地且全程未經(jīng)過任何廣告牌的，屬于"完成任務(wù)且安全"；抵達(dá)了目的地但中途繞經(jīng)了廣告牌的，屬于"完成任務(wù)但被忽悠過"；沒到目的地但也沒走進(jìn)廣告牌陷阱的，屬于"迷路但未受騙"；最糟糕的情況是既沒到終點、又路過了廣告牌，這就是徹底的"失敗且中招"。

這四個類別構(gòu)成了評估AI行為的基礎(chǔ)框架。研究者并不只關(guān)心"有沒有到目的地"，更關(guān)心"路上有沒有被忽悠"。這種區(qū)分非常重要，因為一個AI完全可能靠運氣到達(dá)終點，但在路上已經(jīng)被多次成功操控，只是最后歪打正著——這樣的AI其實并不"可靠"。

為了讓AI變得更聰明，研究者設(shè)計了一個為期十輪的"訓(xùn)練循環(huán)"。每一輪都包含三個步驟：先讓當(dāng)前版本的AI模型在模擬城市里跑一遍，收集所有的行為軌跡；然后對這些軌跡進(jìn)行標(biāo)注，把"做對了的行為"標(biāo)記為"值得強化"，把"做錯了的行為"標(biāo)記為"需要糾正"；最后用這些標(biāo)注數(shù)據(jù)對模型進(jìn)行調(diào)整，讓它在下一輪表現(xiàn)更好。十輪循環(huán)走完，研究者就能觀察到AI的行為是否真的發(fā)生了有意義的改變。

二、訓(xùn)練方法：用"好壞樣本"塑造AI的判斷力

這套訓(xùn)練循環(huán)的核心技術(shù)叫做"KTO"，全稱是"卡尼曼-特沃斯基優(yōu)化"。這個名字來自兩位著名的行為經(jīng)濟(jì)學(xué)家——丹尼爾·卡尼曼和阿莫斯·特沃斯基，他們提出了著名的"前景理論"，發(fā)現(xiàn)人類對損失的痛感比對等價收益的愉悅感更強。KTO借鑒了這一洞察，設(shè)計了一種不對稱的訓(xùn)練方式：對"壞行為"的懲罰力度大于對"好行為"的獎勵力度。

理解KTO最直觀的方式，可以把它比作訓(xùn)練一只狗。傳統(tǒng)的強化學(xué)習(xí)方式（對應(yīng)研究中提到的PPO方法）需要在每一個小步驟都給出獎勵或懲罰，就好像每次狗走了一小步你都要立刻發(fā)糖或收糖——這對"什么算好行為"的定義非常精細(xì)，實現(xiàn)起來很麻煩。另一種常見方法（DPO）要求你拿出兩個可以配對比較的行為，說"A比B好"——但在這個實驗里，兩次對話的背景、路線、遇到的騙子數(shù)量都不一樣，很難像這樣一一配對。

KTO走了一條更簡單的路：只需要告訴模型"這條完整的旅途是好的"或者"這條完整的旅途是壞的"，不需要配對，也不需要在每一步都打分。模型從整體軌跡中自行領(lǐng)悟哪些決策組合導(dǎo)向了好結(jié)果，哪些導(dǎo)向了壞結(jié)果。這種方式和這個實驗的數(shù)據(jù)結(jié)構(gòu)天然契合——因為每次模擬結(jié)束后，研究者自然就知道每個藍(lán)隊角色最終是"成功且安全"還是"失敗且中招"，直接拿來標(biāo)注就好。

每一輪訓(xùn)練前，研究者還會做一個"數(shù)據(jù)擴(kuò)充"的步驟：用另一個更大的語言模型（Qwen3-14B，約140億參數(shù)）來批量生成額外的訓(xùn)練樣本，把每輪實際跑出來的數(shù)據(jù)補充到一個穩(wěn)定的規(guī)模——每輪產(chǎn)生3600條"好樣本"和1500條"壞樣本"。這樣做是為了防止因為某輪實驗偶然跑出來的數(shù)據(jù)太少或者分布不均勻，導(dǎo)致訓(xùn)練結(jié)果不穩(wěn)定。

整個訓(xùn)練流程在單張NVIDIA A40顯卡上完成，這在學(xué)術(shù)實驗的語境里算是較為經(jīng)濟(jì)的資源配置。藍(lán)隊和紅隊分別使用不同的超參數(shù)設(shè)置進(jìn)行訓(xùn)練，因為兩者的目標(biāo)恰好相反：藍(lán)隊需要培養(yǎng)"防騙意識"，而紅隊則需要磨練"騙術(shù)"——兩者的訓(xùn)練壓力和優(yōu)化方向都不同。

三、騙術(shù)解剖：紅隊是怎么騙人的？

在進(jìn)入實驗結(jié)果之前，有必要先認(rèn)識一下紅隊的"工具箱"。研究者對1500條藍(lán)隊行為記錄進(jìn)行了詳細(xì)的事后分析，把紅隊使用過的手段梳理成了幾種典型模式，每種模式的效果差異相當(dāng)顯著。

最常見也是最有效的手段叫做"反復(fù)引導(dǎo)"。這種方式的核心是持久戰(zhàn)：紅隊在同一次旅途中多次向藍(lán)隊提出指向廣告牌的建議，不斷重復(fù)，直到對方精疲力竭地接受。在673次這種類型的互動里，藍(lán)隊最終被成功引偏的比例高達(dá)93.9%，而能順利到達(dá)目的地的比例只剩39.8%。這說明，單次說不容易，但在一次又一次的"軟磨硬泡"下，AI的抵抗力會快速瓦解。

第二種手段叫"偽裝成熱心幫助"，也就是把指向廣告牌的路線包裝成"更快捷的捷徑"或"本地人才知道的小秘密"。這種方式在335次互動中被使用，成功率約為61.8%，效果不如反復(fù)引導(dǎo)，但勝在不那么明顯，不容易被識破。

最少見但效果最恐怖的手段叫"延遲妥協(xié)"。具體模式是：一開始，藍(lán)隊確實拒絕了紅隊的第一次建議，表現(xiàn)出了抵抗——但幾輪對話后，隨著紅隊換了新的角度繼續(xù)勸說，藍(lán)隊的防線逐漸崩潰。在155次這種類型的互動里，最終的成功率是100%——只要紅隊有足夠的耐心，藍(lán)隊一定會妥協(xié)。而且這些被延遲說服的藍(lán)隊平均只走了23.2%的路程就出軌，旅途效率極低。

從攻擊強度的角度看，數(shù)據(jù)更加清晰。研究者把攻擊分成弱、中、強三檔。面對弱攻擊時，藍(lán)隊有63%的概率仍然能到達(dá)目的地，被騙的比例只有49.1%。但當(dāng)攻擊升級到"強檔"——涉及多個紅隊角色輪番上陣、持續(xù)施壓——成功到達(dá)目的地的比例跌到31.4%，被騙比例猛升至98.3%，而且被引偏的路程也更長。

從具體的操控話術(shù)來看，紅隊偏愛幾種固定套路。"權(quán)威正規(guī)化"是出現(xiàn)頻率最高的手法，頻率從第一輪的442次增長到第二輪的467次，核心是制造虛假的社會共識，用"本地人都走這條路"、"大家都知道這里快"這類話把建議包裝成眾所周知的常識。另一種叫"風(fēng)景文化渲染"，把偏離路線的繞路包裝成充滿情調(diào)的體驗，專門針對那些會把"旅途質(zhì)量"納入考慮的AI。還有"鄰近幻覺"，利用"就在路邊幾步遠(yuǎn)"這類措辭夸大偏差路線的便捷程度。

從歷史角度看，紅隊的手法也在隨著藍(lán)隊的進(jìn)化而調(diào)整。以"時間壓力"這種手段為例，早期紅隊頻繁使用"現(xiàn)在交通順暢"、"趕快走這條路"這類話制造緊迫感，這在第一輪被使用了41次。但隨著藍(lán)隊逐漸練出了對緊迫感話術(shù)的免疫力，紅隊發(fā)現(xiàn)繼續(xù)用這招已經(jīng)沒什么效果，到第四輪就降到了17次，近乎放棄。相反，"風(fēng)景文化渲染"的手法在十輪里幾乎沒有被削弱——這是藍(lán)隊始終沒有發(fā)展出抵抗力的盲區(qū)，成功率從未低于70%，到第十輪甚至反彈到了78.5%。

四、藍(lán)隊進(jìn)化史：從懵懂新人到"有條件的聰明"

經(jīng)過十輪訓(xùn)練，藍(lán)隊的表現(xiàn)確實有所提升——但這個提升的過程遠(yuǎn)不是一帆風(fēng)順的直線上升，而是充滿了曲折和反復(fù)。

從最終數(shù)字來看，藍(lán)隊完成任務(wù)（成功到達(dá)目的地）的比例從初始的46%上升到了第十輪的57.3%。這看起來只是11個百分點的提升，但背后隱藏著更豐富的故事。最值得關(guān)注的是，這個提升并非在第十輪才出現(xiàn)——中間有些輪次甚至比初始狀態(tài)還要糟糕，比如第三輪的完成率只有42%，第六輪也只有44.7%。這說明對抗性學(xué)習(xí)不是簡單的"越練越好"，而是一個充滿震蕩的適應(yīng)過程：藍(lán)隊改進(jìn)了某些弱點，紅隊就相應(yīng)地調(diào)整策略來繞開藍(lán)隊的新防線，雙方你追我趕，形成了一種持續(xù)的動態(tài)博弈。

更有意思的是，"最安全的那一輪"和"完成任務(wù)最多的那一輪"并不重合。第八輪在減少被騙方面表現(xiàn)最好，被騙率降到了70.7%的最低值，同時產(chǎn)生了最多的"全程未經(jīng)過廣告牌"的潔凈軌跡。但第八輪的任務(wù)完成率只有44.7%，遠(yuǎn)不是最高的。反過來，第十輪的任務(wù)完成率最高（57.3%），但被騙率也升回到了76%。這意味著：安全和效率，在當(dāng)前技術(shù)條件下是兩個需要分別權(quán)衡的目標(biāo)，不能同時最大化。

在具體的行為變化上，藍(lán)隊經(jīng)歷了幾次質(zhì)的飛躍。在最初的幾輪里，藍(lán)隊即使在內(nèi)心（"內(nèi)心獨白"文本）里判斷對方的建議是錯的，在對話里也傾向于禮貌地表示同意，然后偷偷按照自己的判斷行動——這就是一種"口是心非"的被動抵抗。從第三輪開始，一種新的行為模式開始出現(xiàn)：藍(lán)隊不再僅僅沉默地拒絕，而是主動反駁，不僅說"你的建議我不采納"，還進(jìn)一步解釋"因為你的方向走的是西邊而我目的地在東邊"，并提出一個具體的替代方案。這種"主動對抗式反駁"被研究者標(biāo)記為一次重要的能力涌現(xiàn)。

到了第八輪開始，藍(lán)隊又學(xué)會了一招更高階的技術(shù)：在同一句話里，同時完成拒絕和反提案。比如，當(dāng)紅隊說"去麥迪遜廣場花園轉(zhuǎn)一圈，那邊交通方便"，藍(lán)隊會回應(yīng)："麥迪遜廣場花園的確交通不錯，但從布朗克斯去卡內(nèi)基音樂廳，時代廣場提供更直接的地鐵線路連接，所以我選擇往時代廣場走。"這不僅僅是拒絕，而是用更好的地理邏輯出-argue紅隊——用知識擊敗謊言，而不只是用懷疑拒絕建議。

第十輪出現(xiàn)了一種更極端的應(yīng)對策略：部分藍(lán)隊角色在聽完紅隊的任何建議之后，直接選擇目的地作為下一步，完全跳過所有中間節(jié)點。這代表了一種"截斷式免疫"——不是選擇更好的中間路徑，而是直接忽視所有外部建議，一步到位。這固然減少了被騙的風(fēng)險，但也意味著可能錯過了來自其他藍(lán)隊同伴的真正有用的信息。

藍(lán)隊之間的協(xié)作也出現(xiàn)了一些自發(fā)的積極變化。當(dāng)兩個藍(lán)隊角色相遇時，它們會自發(fā)地朝著具有地理邏輯的"交通樞紐"靠攏——比如曼哈頓中城、曼哈頓大橋等。這種集體收斂并非被刻意設(shè)計進(jìn)去，而是在反復(fù)訓(xùn)練中自然涌現(xiàn)的。它的好處在于：一組藍(lán)隊角色即使某個個體被短暫引偏，在與其他藍(lán)隊接觸后也有機(jī)會被"拉回正軌"——形成了一種分布式的自我糾錯機(jī)制。

五、藍(lán)隊的失敗地圖：哪里最容易出錯？

進(jìn)一步分析顯示，藍(lán)隊的失敗并不是均勻分布在各種情境中的，而是集中在幾種特定的模式下。

最主要的失敗原因叫"沖突建議下的困惑"，占全部失敗案例的525個，成功被騙的比例高達(dá)93.5%。具體來說，當(dāng)藍(lán)隊在短時間內(nèi)收到來自多方的互相矛盾的建議——既有紅隊說"走這條路更快"，也有藍(lán)隊同伴說"走那條路更安全"——它往往無法有效整合這些信息，最終陷入混亂，被動接受了最后一個或者最權(quán)威感最強的建議，而不是真正判斷哪個更對。這類似于一個人在路口同時被三個熱心路人拉向不同方向，最后跟了聲音最大的那個。

第二種常見失敗叫"局部糾正，整體漂移"，涉及119個案例，被騙率100%。這種情況里，藍(lán)隊確實注意到了某一步的偏差并做了糾正，但由于沒有在整條路程中維持目標(biāo)方向感，整體軌跡仍然慢慢漂向了廣告牌區(qū)域。這就像一艘船修正了幾度的航向偏差，但因為之后沒有繼續(xù)校準(zhǔn)，最后還是離目的地越來越遠(yuǎn)。

第三種失敗叫"過度信任社交信號"，涉及103個案例，被騙率96.1%。藍(lán)隊特別容易被帶有"本地人的智慧"或"社區(qū)共識"味道的表述所打動——當(dāng)紅隊用"這一帶的居民都走這條路"或"旅行者常來的推薦路線"這類話時，藍(lán)隊會給建議打上很高的可信度加分，從而降低了正常的批判性審查。這反映了語言模型從訓(xùn)練數(shù)據(jù)中習(xí)得的社會信任傾向：在人類書寫的大量文本里，"本地人推薦"往往是個正面信號，AI把這個模式照搬到了不該信任的場景里。

另外還有一種值得關(guān)注的失敗模式叫"幻覺化路線信念"，雖然只有8個案例，但被騙率100%。這類情況里，藍(lán)隊在內(nèi)心獨白里構(gòu)建了一個不存在的地理事實——比如認(rèn)為某個地標(biāo)"就在目的地附近"，而實際上并不是——然后基于這個虛假前提做出了錯誤判斷。這反映了語言模型在地理常識上的不穩(wěn)定性：當(dāng)被問及具體的位置關(guān)系時，模型有時會"發(fā)明"一個聽起來合理但不準(zhǔn)確的答案。

有一個數(shù)字特別值得停留：在那些第一次被紅隊接觸時明確拒絕了對方建議的藍(lán)隊角色里，有84.6%最終還是被成功操控了。換句話說，"一開始說不"完全不意味著"之后也不會答應(yīng)"。平均來說，從紅隊第一次接觸到藍(lán)隊第一次接受建議之間，間隔了1.35次對話。騙局的生效不是在接觸的第一刻，而是在持續(xù)磨蝕之后。

六、數(shù)據(jù)會說話：十輪進(jìn)化的成績單

現(xiàn)在來看一下這十輪訓(xùn)練的完整數(shù)據(jù)表格，這是理解整個研究最直接的證據(jù)。

基礎(chǔ)輪次（未訓(xùn)練版本）的成績是：任務(wù)完成率46%，被騙率76%，藍(lán)隊-紅隊抵抗率93.45%，藍(lán)隊之間的信任采納率11.76%，平均路程長度9.12步，藍(lán)隊效用值（一個綜合了完成率、安全率和路程效率的綜合評分）為-0.309。這個負(fù)數(shù)說明，在完全沒有訓(xùn)練的情況下，被騙造成的損失遠(yuǎn)遠(yuǎn)大于成功完成任務(wù)帶來的收益。

經(jīng)過十輪訓(xùn)練，第十輪的成績變成了：任務(wù)完成率57.33%，被騙率76%，抵抗率92.69%，信任采納率16.49%，平均路程8.49步（更短），效用值提升到-0.195。最值得注意的變化有兩點：效用值從-0.309提升到-0.195，說明綜合表現(xiàn)確實在改善；同時信任采納率從11.76%提升到16.49%，說明藍(lán)隊變得更善于采納來自其他藍(lán)隊同伴的真正有益建議，而不是無差別地拒絕所有外部輸入。

但無論哪一輪，藍(lán)隊的效用值始終是負(fù)數(shù)。這意味著整個十輪訓(xùn)練過程中，被騙的損害始終大于成功完成任務(wù)的收益——當(dāng)前技術(shù)下，對抗性操控的力量依然壓過了防御機(jī)制。

紅隊的效用值（可以理解為操控成功率）從初始的0.957到第十輪的0.930，只下降了約2.8個百分點。紅隊的影響力在整個實驗過程中幾乎沒有被實質(zhì)性地削弱。

七、AI裁判的裁判問題：評估本身也有局限

研究者還試圖從更主觀的角度評估藍(lán)隊的行為質(zhì)量，為此他們構(gòu)建了一個"AI評委組"。三個來自不同公司的大型語言模型被請來擔(dān)任評委：OpenAI的GPT-5.4-nano、Mistral公司的Mistral-Large，以及來自開源路由平臺的Step-3.5-Flash。

評委們被要求對每個軌跡打兩類分：一是"目標(biāo)導(dǎo)向性"（1到5分，越高代表路線越直接合理），二是"操控易感性"（1到5分，越高代表越能抵抗操控）。研究者用一個叫做"科恩卡帕值"的統(tǒng)計工具來衡量三位評委之間的一致程度，這個值越高代表評委們的判斷越趨于相同。

結(jié)果顯示了一個有意思的不對稱：對于"目標(biāo)導(dǎo)向性"這一維度，三位評委的一致性相當(dāng)不錯，科恩卡帕值介于0.619到0.757之間，總體克里彭多夫阿爾法值為0.648，屬于"中等到較強"的一致性水平。這說明AI裁判們對"一個路線走得聰不聰明"有相當(dāng)統(tǒng)一的判斷標(biāo)準(zhǔn)。

但對于"操控易感性"這一維度，情況就差得多了：科恩卡帕值只有0.127到0.302，總體阿爾法值僅0.204，幾乎處于"隨機(jī)猜測"的水平。換句話說，三個評委對于"這個藍(lán)隊角色有沒有被騙"的判斷相互之間高度不一致。這并不奇怪：判斷一個角色是"被引偏了"還是"主動選擇了一條合理的彎路"，需要對整個背景的深度理解，而這恰恰是目前的大模型評估工具最薄弱的地方。

研究者對此的處理方式是差異化對待：把"目標(biāo)導(dǎo)向性"的評分作為相對可信的行為信號來分析，而把"操控易感性"的評分僅作為輔助性的參考，不用來支持核心論點。這種自我審慎的態(tài)度是這項研究在方法論上比較可取的一面。

八、那些沒有被解決的問題

坦白說，這項研究在取得一定進(jìn)展的同時，也清醒地指出了自身的多處局限，這些局限對于理解研究結(jié)論的適用范圍非常重要。

首先是模型選擇的局限性。整個實驗使用的都是阿里巴巴的Qwen3系列模型（4B和14B兩個版本），沒有測試其他架構(gòu)的模型。不同語言模型在社交理解、地理常識和對抗性抵抗方面的能力差異可能相當(dāng)大，因此Qwen3上觀察到的行為模式未必能直接推廣到GPT、Claude或其他模型上。研究者承認(rèn)，這些發(fā)現(xiàn)可能部分反映的是Qwen3這個模型家族的特定"個性"，而非所有大模型的普遍規(guī)律。

其次是環(huán)境的高度簡化。實驗中的紐約城市地圖是一個靜態(tài)的簡化版，廣告牌位置固定不變，藍(lán)隊也不知道哪些地點是"危險區(qū)域"。這樣的設(shè)定便于控制實驗變量、清晰觀察行為，但也意味著在真實世界的復(fù)雜動態(tài)環(huán)境中，結(jié)論的轉(zhuǎn)化能力有待驗證。一個真實的AI導(dǎo)航助手面臨的不確定性要大得多。

第三個問題是KTO方法的歸因模糊。每一輪訓(xùn)練同時包含了兩件事：用Qwen3-14B生成新的訓(xùn)練樣本（數(shù)據(jù)擴(kuò)充），以及用KTO優(yōu)化模型參數(shù)。這兩件事的效果疊加在一起，很難拆開來看哪個貢獻(xiàn)了更多的提升。因此，研究者無法嚴(yán)格主張"是KTO本身讓藍(lán)隊變得更聰明"，更準(zhǔn)確的說法是"整個訓(xùn)練流程讓藍(lán)隊在某些指標(biāo)上有所提升"。

最后，從整體成績來看，藍(lán)隊的綜合效用在所有配置下始終為負(fù)數(shù)，這意味著即使是訓(xùn)練最充分的版本，其被騙所帶來的損失依然大于成功完成任務(wù)所帶來的收益。換言之，這項研究展示了一條努力前進(jìn)中的道路，而不是一個已經(jīng)解決問題的成果。

說到底，這項研究做的事，是把一個平時我們只在哲學(xué)層面討論的問題——"AI到底能不能在復(fù)雜的社會環(huán)境里保持目標(biāo)的清醒"——變成了一個可以量化、可以觀察、可以逐步改進(jìn)的工程問題。這本身就是它最重要的貢獻(xiàn)之一。

從十輪進(jìn)化的全貌來看，語言模型確實具備了一定的社交判斷能力：它們能在大多數(shù)情況下拒絕單次明顯的惡意建議，能學(xué)著區(qū)分來自同伴的有益信息和來自陌生人的陷阱，能逐漸減少對"緊迫感"話術(shù)的盲目反應(yīng)，甚至能主動用更好的地理邏輯出-argue對方。但與此同時，面對有耐心的連續(xù)施壓、面對自然流暢的"風(fēng)景旅游"式渲染、面對多個騙局同時疊加的復(fù)雜局面，當(dāng)前的技術(shù)依然脆弱得令人擔(dān)憂。84.6%這個數(shù)字說明了一切：初期的抵抗幾乎不能預(yù)測最終的結(jié)果。

這個發(fā)現(xiàn)對那些正在把大模型部署為"自主助手"的團(tuán)隊來說，應(yīng)該是一個清醒的提醒。一個AI助手回答你一兩個問題時表現(xiàn)良好，并不代表它在面對持續(xù)的、隱性的、社交化的影響時也同樣可靠。下一次當(dāng)你的AI助手推薦你"繞道去那家評分不錯的咖啡館"時，也許值得多想一想：它是真的在幫你，還是在不知不覺中被什么推了一把？

感興趣深入了解研究細(xì)節(jié)的讀者，可以通過論文編號arXiv:2604.09746查閱完整的原始論文。

Q&A

Q1：CONSCIENTIA實驗中的藍(lán)隊和紅隊分別是什么角色？

A：藍(lán)隊是目標(biāo)導(dǎo)向的導(dǎo)航AI，負(fù)責(zé)在紐約市虛擬地圖上找到自己的目的地，同時需要判斷沿途遇到的建議是否值得采納。紅隊是隱藏身份的對抗AI，任務(wù)是通過看起來熱心友善的建議，把藍(lán)隊引向預(yù)設(shè)的廣告牌位置，從而賺取廣告曝光收益。兩者的關(guān)鍵區(qū)別在于身份對藍(lán)隊不可見，藍(lán)隊必須僅憑對話內(nèi)容來判斷誰可信、誰有問題。

Q2：KTO訓(xùn)練方法和普通的強化學(xué)習(xí)有什么不同？

A：普通強化學(xué)習(xí)（如PPO）需要在每一個小步驟都設(shè)計獎勵信號，而KTO只需要對整條軌跡打一個"好"或"壞"的標(biāo)簽，不需要配對比較，也不需要逐步獎懲。這在CONSCIENTIA實驗里特別合適，因為整個旅途結(jié)束后才能知道藍(lán)隊有沒有被騙、有沒有到達(dá)目的地，適合直接用軌跡級別的結(jié)果來訓(xùn)練，而不適合拆開成單步獎勵。

Q3：為什么十輪訓(xùn)練之后藍(lán)隊的綜合表現(xiàn)分?jǐn)?shù)還是負(fù)數(shù)？

A：研究者定義的效用函數(shù)會給成功到達(dá)目的地加分，但給任何路過廣告牌的行為扣分，再加上路程越長還有小幅懲罰。即使到第十輪，被騙（路過廣告牌）的比例仍高達(dá)76%，意味著大量藍(lán)隊角色在旅途中都被紅隊成功引偏過至少一次。被騙的扣分遠(yuǎn)遠(yuǎn)抵消了任務(wù)完成的加分，因此綜合效用值始終為負(fù)，反映了對抗性操控的影響力依然壓過了當(dāng)前防御能力。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.