網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

「你是專家」竟成AI幻覺(jué)毒藥？新論文一巴掌揭穿提示詞最大騙局

2026-03-23 20:57:06　來(lái)源: 新智元

北京舉報(bào)

分享至

新智元報(bào)道

編輯：KinHZ 元宇

【新智元導(dǎo)讀】AI最強(qiáng)幻覺(jué)，原來(lái)不是不會(huì)，而是太會(huì)「裝會(huì)」。「你是專家」這句咒語(yǔ)，可能騙了整個(gè)AI圈一年。

人生如戲，全靠演技，但AI不行——

最新論文證實(shí)，「讓AI裝專家」會(huì)可測(cè)量、持續(xù)地降低模型的準(zhǔn)確率。

鏈接：https://arxiv.org/pdf/2603.18507

過(guò)去一年，AI圈最成功的騙局之一，可能就是這句話：

你是XX專家。

無(wú)數(shù)教程把它吹成神級(jí)提示詞。

這句話幾乎被包裝成了大模型時(shí)代的「黑魔法」：只要人設(shè)立住，AI就會(huì)突然開竅。

但現(xiàn)在，最新論文給了所有人一記耳光：

這句神提示詞，可能根本不是外掛，而是毒藥。

研究發(fā)現(xiàn)，當(dāng)AI被要求扮演「專家」時(shí)，它并不總是更聰明，反而會(huì)更像一個(gè)堅(jiān)持人設(shè)的「假專家」：

不愿承認(rèn)不知道，不愿暴露猶豫，不愿停下來(lái)仔細(xì)想，最后選擇用一種極其專業(yè)、極其自信、極其像那么回事的方式，把錯(cuò)話說(shuō)圓。

圖 1: 專家角色在不同模型、任務(wù)類型、信息粒度及位置的影響分析

上圖1中給出的結(jié)果非常直觀：

長(zhǎng)專家人設(shè)在5個(gè)生成類別上有顯著提升，但在硬核的MMLU知識(shí)基準(zhǔn)上，加了人設(shè)后準(zhǔn)確率全面跌破71.6%的基線，哪怕是最短的人設(shè)也掉到了68.0%，而詳細(xì)的長(zhǎng)版本人設(shè)更是慘跌至66.3%。

安全場(chǎng)景則相反，「安全監(jiān)督員」人設(shè)能顯著提高拒絕越獄攻擊的概率，在JailbreakBench上拒答率從53.2%升到70.9%。

因此，這篇論文最值得關(guān)注的一個(gè)地方，不只是它提出了「專家人設(shè)可能有害」，而是進(jìn)一步解釋了：為什么過(guò)去關(guān)于Persona Prompting（人格提示）的研究，結(jié)論總會(huì)相互矛盾。

幻覺(jué)的開端

當(dāng)你對(duì)大模型念出「你是專家」

研究人員發(fā)現(xiàn)，Persona Prompting的效果并不是全方位的增益。

它的表現(xiàn)強(qiáng)烈依賴任務(wù)類型、模型訓(xùn)練方式、提示長(zhǎng)度，以及人設(shè)到底放在system prompt還是user prompt里。

研究者把任務(wù)大致分成兩類：

一類是「判別式任務(wù)」，更依賴預(yù)訓(xùn)練記憶，比如事實(shí)檢索、知識(shí)判斷、多項(xiàng)選擇題；
另一類是「生成式任務(wù)」，更依賴對(duì)齊能力，比如格式遵循、風(fēng)格控制、安全拒答、人類偏好匹配。

結(jié)果顯示：

在安全防御、偏好對(duì)齊等「生成式任務(wù)」上，專家人設(shè)確實(shí)是個(gè)好工具。

但在知識(shí)檢索、事實(shí)判斷這類極度依賴預(yù)訓(xùn)練記憶的「判別式任務(wù)」上，專家人設(shè)卻成了拖后腿的。

大模型「偏科」熱力圖：藍(lán)色代表能力提升，紅色代表能力受損。在普通指令微調(diào)模型（左圖）中，大量出現(xiàn)的紅色色塊顯示：所謂的專家人設(shè)正在全面破壞模型的客觀知識(shí)準(zhǔn)確度。

換句話說(shuō)，專家人設(shè)提升的，很多時(shí)候不是「真實(shí)性」，而是「對(duì)齊感」。

在MT-Bench這類更偏生成質(zhì)量的任務(wù)里，專家人設(shè)能提升寫作、角色扮演、抽取、STEM表達(dá)等類別表現(xiàn)。

但到了MMLU這種更依賴知識(shí)檢索的基準(zhǔn)上，所有專家人設(shè)版本都在掉分。

這解釋了一個(gè)很多用戶都曾遇到過(guò)、但又說(shuō)不清的體驗(yàn)：

為什么同一個(gè)模型，寫郵件時(shí)像個(gè)訓(xùn)練有素的顧問(wèn)；一到數(shù)學(xué)、事實(shí)核查、代碼細(xì)節(jié)，反而一本正經(jīng)地胡說(shuō)八道？

因?yàn)樗娴母駥＜伊耍幢馗瞄L(zhǎng)把底層記憶準(zhǔn)確調(diào)出來(lái)。

論文里甚至給了個(gè)很諷刺的例子。

擲兩枚骰子，點(diǎn)數(shù)和至少為3的概率是多少？不加數(shù)學(xué)人設(shè)時(shí)，模型基本答對(duì)，給出35/36。

加了數(shù)學(xué)專家人設(shè)后，它卻開始一本正經(jīng)地列步驟，最后把簡(jiǎn)單概率題算錯(cuò)。

你能明顯感覺(jué)到，它不是不會(huì)「表演數(shù)學(xué)家」，而是太像在「做數(shù)學(xué)的樣子」了。

我們獎(jiǎng)勵(lì)的是「像專家」，還是「答得對(duì)」？

今天很多用戶判斷一個(gè)模型好不好，第一標(biāo)準(zhǔn)并不是「它是不是更接近事實(shí)」，而是「它是不是說(shuō)得穩(wěn)、說(shuō)得順、說(shuō)得像專業(yè)人士」。

只要它結(jié)構(gòu)完整、術(shù)語(yǔ)到位、語(yǔ)氣沉著，用戶就會(huì)天然提高信任度。

這正是大模型最危險(xiǎn)的一類幻覺(jué)：不是胡說(shuō)八道，而是用極其專業(yè)的方式說(shuō)錯(cuò)話。

從訓(xùn)練邏輯看，預(yù)訓(xùn)練階段，大模型主要學(xué)到的是知識(shí)記憶、模式統(tǒng)計(jì)、事實(shí)關(guān)聯(lián)、語(yǔ)言規(guī)律；后續(xù)的指令微調(diào)和RLHF，則更多在塑造它「怎么說(shuō)」「怎么更像人類偏好的回答者」。

論文的關(guān)鍵判斷就在這里：

專家人設(shè)本質(zhì)上更容易激活的是后者，也就是風(fēng)格、格式、意圖跟隨和安全邊界這些對(duì)齊能力；但當(dāng)任務(wù)需要的是直接、精準(zhǔn)地調(diào)用預(yù)訓(xùn)練知識(shí)時(shí)，額外的人設(shè)上下文可能反而會(huì)干擾檢索。

你可以把它理解成一種「對(duì)齊稅」：模型為了更符合你期待中的專家樣子，犧牲了一部分事實(shí)調(diào)用的準(zhǔn)確度。

相關(guān)研究也反復(fù)證實(shí)，Persona Prompting并不總能帶來(lái)穩(wěn)定提升，有時(shí)甚至?xí)驗(yàn)橐肓瞬幌嚓P(guān)的人格屬性而產(chǎn)生難以預(yù)料的負(fù)面影響。

所以，真正的問(wèn)題其實(shí)不在于「人設(shè)」本身，而在于我們把風(fēng)格控制、價(jià)值對(duì)齊、事實(shí)判斷、推理求解，這些完全不同的任務(wù)，粗暴塞給了同一種Persona機(jī)制。

讓模型在寫一封安撫用戶的郵件時(shí)像個(gè)成熟顧問(wèn)，沒(méi)毛病。

讓模型在面對(duì)危險(xiǎn)請(qǐng)求時(shí)像個(gè)安全審查員，也沒(méi)毛病。

但讓它在做概率題、答醫(yī)學(xué)事實(shí)、查法律條文時(shí)，先進(jìn)入一段長(zhǎng)長(zhǎng)的「專家角色扮演」，這可能從一開始就走錯(cuò)了方向。

救贖之道

路由分配才是正解

那是不是從此以后，專家人設(shè)就該扔掉？

當(dāng)然不是。

如前文提到的，研究人員同時(shí)發(fā)現(xiàn)，專家人設(shè)在「生成式任務(wù)」等更依賴對(duì)齊能力的特定場(chǎng)景下仍然具有不可替代的價(jià)值。

所以，核心關(guān)鍵根本不是「用不用」，而是「什么時(shí)候用」。

為了解決這個(gè)痛點(diǎn)，研究人員發(fā)明了PRISM算法（Persona Routing via Intent-based Self-Modeling，基于意圖的自舉人格路由）。

這個(gè)系統(tǒng)不給AI固定一個(gè)角色，而是先看懂用戶真實(shí)意圖，再動(dòng)態(tài)路由分配正確人設(shè)。

圖中展示了兩種自動(dòng)選擇專家角色的方法。PRISM通過(guò)LoRA適配器動(dòng)態(tài)分配合適人設(shè)，無(wú)需外部資源即可保留對(duì)齊益處、維持判別任務(wù)準(zhǔn)確性

PRISM的核心思路非常精妙：

它不再在推理時(shí)給模型生硬地套上專家Prompt，而是把所有專家人設(shè)中有益的部分，提前「濃縮蒸餾」到了一個(gè)輕量化的門控LoRA適配器（Gated LoRA Adapter）中。

在真正面對(duì)用戶問(wèn)題時(shí)，PRISM的門控機(jī)制只做一道極簡(jiǎn)的二元選擇題：

開啟「專家外掛」，還是退回「樸素模式」。

用戶問(wèn)「幫我寫代碼」或「進(jìn)行高情商安撫」，系統(tǒng)判定需要對(duì)齊能力，門控瞬間激活LoRA適配器，調(diào)出內(nèi)化好的專家水平；

用戶問(wèn)「客觀數(shù)學(xué)計(jì)算」或「事實(shí)核查」，系統(tǒng)判定人設(shè)會(huì)產(chǎn)生干擾，門控立刻關(guān)閉適配器，讓未經(jīng)修飾的基座模型用最純粹的預(yù)訓(xùn)練記憶去準(zhǔn)確作答。

整個(gè)PRISM提取過(guò)程不需要額外數(shù)據(jù)、額外模型、額外算力。

成本并不高，訓(xùn)練一個(gè)門控單LoRA版本，在A100上大約45分鐘，額外開銷也比較小。

具體而言，PRISM訓(xùn)練流程分為五大階段：

(1) 以人設(shè)提示詞為條件生成查詢；

(2) 按人設(shè)作答，生成多種人設(shè)下的回復(fù)；

(3) 通過(guò)成對(duì)比較進(jìn)行自驗(yàn)證，從而篩選蒸餾數(shù)據(jù)集；

(4) 進(jìn)行路由器/門控模塊訓(xùn)練，學(xué)習(xí)基于意圖的路由機(jī)制，以判斷何時(shí)啟用人設(shè)會(huì)更有幫助；

(5) 通過(guò)LoRA進(jìn)行自蒸餾，讓模型內(nèi)化這些人設(shè)行為。

PRISM想做的不是讓AI「更會(huì)演」，而是「該演的時(shí)候演，該準(zhǔn)的時(shí)候準(zhǔn)」。

結(jié)果很炸裂：

在保持極低算力開銷的同時(shí)，大模型終于能在「高情商生成」與「硬核知識(shí)檢索」之間實(shí)現(xiàn)絲滑切換。

PRISM不僅在生成式任務(wù)上大幅提升了人類偏好與安全對(duì)齊得分，還完美保住了判別式任務(wù)的客觀準(zhǔn)確率。

Qwen等五個(gè)模型及MT-Bench等三個(gè)基準(zhǔn)維度上的綜合評(píng)估

在Qwen2.5-7B上，單純做專家提示時(shí)，整體分?jǐn)?shù)是72.2，和基線71.8差不多，說(shuō)明「有得有失，基本互相抵消」。

但PRISM能把整體拉到73.5，MT-Bench從7.56提到7.76，同時(shí)把MMLU維持在71.7%，基本不傷知識(shí)準(zhǔn)確率。

Mistral-7B上更明顯：

專家提示會(huì)把整體表現(xiàn)從79.9打到71.4，但PRISM可以做到81.5，甚至高于基線。Llama-3.1-8B上，PRISM也把Overall從67.5提高到70.3。

這意味著：提示工程的下一階段，可能不再是「寫一個(gè)更長(zhǎng)、更唬人的專家人設(shè)prompt」，而是「把任務(wù)拆清楚，再?zèng)Q定是否啟用人格化對(duì)齊」。

這時(shí)，PRISM像聰明的中介，先看清問(wèn)題本質(zhì)，再派對(duì)的人上場(chǎng)。

大模型這時(shí)的表現(xiàn)既專業(yè)，又老實(shí)，再也不會(huì)去用錯(cuò)誤換好評(píng)。

行動(dòng)起來(lái)

就現(xiàn)在

所以，別再第一句話就喊「你是專家」，試著把PRISM這樣的動(dòng)態(tài)路由用起來(lái)。

讓AI根據(jù)問(wèn)題真正需要什么角色，而不是永遠(yuǎn)戴同一張面具。

圖4：在Qwen2.5-7B-Instruct模型上，門控網(wǎng)絡(luò)將查詢路由至LoRA的比例與各類別在專家角色影響下的表現(xiàn)之間的關(guān)系

如果你是開發(fā)者，請(qǐng)開始關(guān)注PRISM這樣的底層意圖路由機(jī)制，讓模型在權(quán)重層面就學(xué)會(huì)「該演就演，該準(zhǔn)就準(zhǔn)」。

如果你是普通用戶，現(xiàn)在就可以行動(dòng)。

打開對(duì)話框，在遇到硬核知識(shí)核查、邏輯推演時(shí)，把那句自作聰明的「專家咒語(yǔ)」果斷刪掉。

換成一句最干凈的指令：「請(qǐng)一步步客觀推演，如果不確定就直接告訴我」。

少給AI加戲，它才能真正開始思考。

而你，也會(huì)第一次聽(tīng)到它說(shuō)真話。

參考資料：

https://x.com/sukh_saroy/status/2035761644270411994?s=20%20

https://arxiv.org/abs/2603.18507

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.