国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

「你是專家」竟成AI幻覺(jué)毒藥?新論文一巴掌揭穿提示詞最大騙局

0
分享至


新智元報(bào)道

編輯:KinHZ 元宇

【新智元導(dǎo)讀】AI最強(qiáng)幻覺(jué),原來(lái)不是不會(huì),而是太會(huì)「裝會(huì)」。 「你是專家」這句咒語(yǔ),可能騙了整個(gè)AI圈一年。

人生如戲,全靠演技,但AI不行——

最新論文證實(shí),「讓AI裝專家」會(huì)可測(cè)量、持續(xù)地降低模型的準(zhǔn)確率。


鏈接:https://arxiv.org/pdf/2603.18507

過(guò)去一年,AI圈最成功的騙局之一,可能就是這句話:

你是XX專家。

無(wú)數(shù)教程把它吹成神級(jí)提示詞。

這句話幾乎被包裝成了大模型時(shí)代的「黑魔法」:只要人設(shè)立住,AI就會(huì)突然開竅。

但現(xiàn)在,最新論文給了所有人一記耳光:

這句神提示詞,可能根本不是外掛,而是毒藥

研究發(fā)現(xiàn),當(dāng)AI被要求扮演「專家」時(shí),它并不總是更聰明,反而會(huì)更像一個(gè)堅(jiān)持人設(shè)的「假專家」:

不愿承認(rèn)不知道,不愿暴露猶豫,不愿停下來(lái)仔細(xì)想,最后選擇用一種極其專業(yè)、極其自信、極其像那么回事的方式, 把錯(cuò)話說(shuō)圓。


圖 1: 專家角色在不同模型、任務(wù)類型、信息粒度及位置的影響分析

上圖1中給出的結(jié)果非常直觀:

長(zhǎng)專家人設(shè)在5個(gè)生成類別上有顯著提升,但在硬核的MMLU知識(shí)基準(zhǔn)上,加了人設(shè)后準(zhǔn)確率全面跌破71.6%的基線,哪怕是最短的人設(shè)也掉到了68.0%,而詳細(xì)的長(zhǎng)版本人設(shè)更是慘跌至66.3%。

安全場(chǎng)景則相反,「安全監(jiān)督員」人設(shè)能顯著提高拒絕越獄攻擊的概率,在JailbreakBench上拒答率從53.2%升到70.9%。

因此,這篇論文最值得關(guān)注的一個(gè)地方,不只是它提出了「專家人設(shè)可能有害」,而是進(jìn)一步解釋了:為什么過(guò)去關(guān)于Persona Prompting(人格提示)的研究,結(jié)論總會(huì)相互矛盾。

幻覺(jué)的開端

當(dāng)你對(duì)大模型念出「你是專家」

研究人員發(fā)現(xiàn),Persona Prompting的效果并不是全方位的增益。

它的表現(xiàn)強(qiáng)烈依賴任務(wù)類型、模型訓(xùn)練方式、提示長(zhǎng)度,以及人設(shè)到底放在system prompt還是user prompt里。

研究者把任務(wù)大致分成兩類:

  • 一類是「判別式任務(wù)」,更依賴預(yù)訓(xùn)練記憶,比如事實(shí)檢索、知識(shí)判斷、多項(xiàng)選擇題;

  • 另一類是「生成式任務(wù)」,更依賴對(duì)齊能力,比如格式遵循、風(fēng)格控制、安全拒答、人類偏好匹配。

結(jié)果顯示:

在安全防御、偏好對(duì)齊等「生成式任務(wù)」上,專家人設(shè)確實(shí)是個(gè)好工具。

但在知識(shí)檢索、事實(shí)判斷這類極度依賴預(yù)訓(xùn)練記憶的「判別式任務(wù)」上,專家人設(shè)卻成了拖后腿的。


大模型「偏科」熱力圖:藍(lán)色代表能力提升,紅色代表能力受損。在普通指令微調(diào)模型(左圖)中,大量出現(xiàn)的紅色色塊顯示:所謂的專家人設(shè)正在全面破壞模型的客觀知識(shí)準(zhǔn)確度。

換句話說(shuō),專家人設(shè)提升的,很多時(shí)候不是「真實(shí)性」,而是「對(duì)齊感」。

在MT-Bench這類更偏生成質(zhì)量的任務(wù)里,專家人設(shè)能提升寫作、角色扮演、抽取、STEM表達(dá)等類別表現(xiàn)。

但到了MMLU這種更依賴知識(shí)檢索的基準(zhǔn)上,所有專家人設(shè)版本都在掉分。

這解釋了一個(gè)很多用戶都曾遇到過(guò)、但又說(shuō)不清的體驗(yàn):

為什么同一個(gè)模型,寫郵件時(shí)像個(gè)訓(xùn)練有素的顧問(wèn);一到數(shù)學(xué)、事實(shí)核查、代碼細(xì)節(jié),反而一本正經(jīng)地胡說(shuō)八道?

因?yàn)樗娴母駥<伊耍幢馗瞄L(zhǎng)把底層記憶準(zhǔn)確調(diào)出來(lái)。

論文里甚至給了個(gè)很諷刺的例子。

擲兩枚骰子,點(diǎn)數(shù)和至少為3的概率是多少?不加數(shù)學(xué)人設(shè)時(shí),模型基本答對(duì),給出35/36。

加了數(shù)學(xué)專家人設(shè)后,它卻開始一本正經(jīng)地列步驟,最后把簡(jiǎn)單概率題算錯(cuò)。

你能明顯感覺(jué)到,它不是不會(huì)「表演數(shù)學(xué)家」,而是太像在「做數(shù)學(xué)的樣子」了。

我們獎(jiǎng)勵(lì)的是「像專家」,還是「答得對(duì)」?

今天很多用戶判斷一個(gè)模型好不好,第一標(biāo)準(zhǔn)并不是「它是不是更接近事實(shí)」,而是「它是不是說(shuō)得穩(wěn)、說(shuō)得順、說(shuō)得像專業(yè)人士」。

只要它結(jié)構(gòu)完整、術(shù)語(yǔ)到位、語(yǔ)氣沉著,用戶就會(huì)天然提高信任度。

這正是大模型最危險(xiǎn)的一類幻覺(jué):不是胡說(shuō)八道,而是用極其專業(yè)的方式說(shuō)錯(cuò)話。

從訓(xùn)練邏輯看,預(yù)訓(xùn)練階段,大模型主要學(xué)到的是知識(shí)記憶、模式統(tǒng)計(jì)、事實(shí)關(guān)聯(lián)、語(yǔ)言規(guī)律;后續(xù)的指令微調(diào)和RLHF,則更多在塑造它「怎么說(shuō)」「怎么更像人類偏好的回答者」。

論文的關(guān)鍵判斷就在這里:

專家人設(shè)本質(zhì)上更容易激活的是后者,也就是風(fēng)格、格式、意圖跟隨和安全邊界這些對(duì)齊能力;但當(dāng)任務(wù)需要的是直接、精準(zhǔn)地調(diào)用預(yù)訓(xùn)練知識(shí)時(shí),額外的人設(shè)上下文可能反而會(huì)干擾檢索。

你可以把它理解成一種「對(duì)齊稅」:模型為了更符合你期待中的專家樣子,犧牲了一部分事實(shí)調(diào)用的準(zhǔn)確度。

相關(guān)研究也反復(fù)證實(shí),Persona Prompting并不總能帶來(lái)穩(wěn)定提升,有時(shí)甚至?xí)驗(yàn)橐肓瞬幌嚓P(guān)的人格屬性而產(chǎn)生難以預(yù)料的負(fù)面影響。

所以,真正的問(wèn)題其實(shí)不在于「人設(shè)」本身,而在于我們把風(fēng)格控制、價(jià)值對(duì)齊、事實(shí)判斷、推理求解,這些完全不同的任務(wù),粗暴塞給了同一種Persona機(jī)制。

讓模型在寫一封安撫用戶的郵件時(shí)像個(gè)成熟顧問(wèn),沒(méi)毛病。

讓模型在面對(duì)危險(xiǎn)請(qǐng)求時(shí)像個(gè)安全審查員,也沒(méi)毛病。

但讓它在做概率題、答醫(yī)學(xué)事實(shí)、查法律條文時(shí),先進(jìn)入一段長(zhǎng)長(zhǎng)的「專家角色扮演」,這可能從一開始就走錯(cuò)了方向。

救贖之道

路由分配才是正解

那是不是從此以后,專家人設(shè)就該扔掉?

當(dāng)然不是。

如前文提到的,研究人員同時(shí)發(fā)現(xiàn),專家人設(shè)在「生成式任務(wù)」等更依賴對(duì)齊能力的特定場(chǎng)景下仍然具有不可替代的價(jià)值。

所以,核心關(guān)鍵根本不是「用不用」,而是「什么時(shí)候用」。

為了解決這個(gè)痛點(diǎn),研究人員發(fā)明了PRISM算法(Persona Routing via Intent-based Self-Modeling,基于意圖的自舉人格路由)。

這個(gè)系統(tǒng)不給AI固定一個(gè)角色,而是先看懂用戶真實(shí)意圖,再動(dòng)態(tài)路由分配正確人設(shè)。


圖中展示了兩種自動(dòng)選擇專家角色的方法。PRISM通過(guò)LoRA適配器動(dòng)態(tài)分配合適人設(shè),無(wú)需外部資源即可保留對(duì)齊益處、維持判別任務(wù)準(zhǔn)確性

PRISM的核心思路非常精妙:

它不再在推理時(shí)給模型生硬地套上專家Prompt,而是把所有專家人設(shè)中有益的部分,提前「濃縮蒸餾」到了一個(gè)輕量化的門控LoRA適配器(Gated LoRA Adapter)中。

在真正面對(duì)用戶問(wèn)題時(shí),PRISM的門控機(jī)制只做一道極簡(jiǎn)的二元選擇題:

開啟「專家外掛」,還是退回 「樸素模式」。

用戶問(wèn)「幫我寫代碼」或「進(jìn)行高情商安撫」,系統(tǒng)判定需要對(duì)齊能力,門控瞬間激活LoRA適配器,調(diào)出內(nèi)化好的專家水平;

用戶問(wèn)「客觀數(shù)學(xué)計(jì)算」或「事實(shí)核查」,系統(tǒng)判定人設(shè)會(huì)產(chǎn)生干擾,門控立刻關(guān)閉適配器,讓未經(jīng)修飾的基座模型用最純粹的預(yù)訓(xùn)練記憶去準(zhǔn)確作答。

整個(gè)PRISM提取過(guò)程不需要額外數(shù)據(jù)、額外模型、額外算力。

成本并不高,訓(xùn)練一個(gè)門控單LoRA版本,在A100上大約45分鐘,額外開銷也比較小。

具體而言,PRISM訓(xùn)練流程分為五大階段:

(1) 以人設(shè)提示詞為條件生成查詢;

(2) 按人設(shè)作答,生成多種人設(shè)下的回復(fù);

(3) 通過(guò)成對(duì)比較進(jìn)行自驗(yàn)證,從而篩選蒸餾數(shù)據(jù)集;

(4) 進(jìn)行路由器/門控模塊訓(xùn)練,學(xué)習(xí)基于意圖的路由機(jī)制,以判斷何時(shí)啟用人設(shè)會(huì)更有幫助;

(5) 通過(guò)LoRA進(jìn)行自蒸餾,讓模型內(nèi)化這些人設(shè)行為。

PRISM想做的不是讓AI「更會(huì)演」,而是「該演的時(shí)候演,該準(zhǔn)的時(shí)候準(zhǔn)」。

結(jié)果很炸裂:

在保持極低算力開銷的同時(shí),大模型終于能在「高情商生成」與「硬核知識(shí)檢索」之間實(shí)現(xiàn)絲滑切換。

PRISM不僅在生成式任務(wù)上大幅提升了人類偏好與安全對(duì)齊得分,還完美保住了判別式任務(wù)的客觀準(zhǔn)確率。


Qwen等五個(gè)模型及MT-Bench等三個(gè)基準(zhǔn)維度上的綜合評(píng)估

在Qwen2.5-7B上,單純做專家提示時(shí),整體分?jǐn)?shù)是72.2,和基線71.8差不多,說(shuō)明「有得有失,基本互相抵消」。

但PRISM能把整體拉到73.5,MT-Bench從7.56提到7.76,同時(shí)把MMLU維持在71.7%,基本不傷知識(shí)準(zhǔn)確率。

Mistral-7B上更明顯:

專家提示會(huì)把整體表現(xiàn)從79.9打到71.4,但PRISM可以做到81.5,甚至高于基線。Llama-3.1-8B上,PRISM也把Overall從67.5提高到70.3。

這意味著:提示工程的下一階段,可能不再是「寫一個(gè)更長(zhǎng)、更唬人的專家人設(shè)prompt」,而是「把任務(wù)拆清楚,再?zèng)Q定是否啟用人格化對(duì)齊」。

這時(shí),PRISM像聰明的中介,先看清問(wèn)題本質(zhì),再派對(duì)的人上場(chǎng)。

大模型這時(shí)的表現(xiàn)既專業(yè),又老實(shí),再也不會(huì)去用錯(cuò)誤換好評(píng)。

行動(dòng)起來(lái)

就現(xiàn)在

所以,別再第一句話就喊「你是專家」,試著把PRISM這樣的動(dòng)態(tài)路由用起來(lái)。

讓AI根據(jù)問(wèn)題真正需要什么角色,而不是永遠(yuǎn)戴同一張面具。


圖4:在Qwen2.5-7B-Instruct模型上,門控網(wǎng)絡(luò)將查詢路由至LoRA的比例與各類別在專家角色影響下的表現(xiàn)之間的關(guān)系

如果你是開發(fā)者,請(qǐng)開始關(guān)注PRISM這樣的底層意圖路由機(jī)制,讓模型在權(quán)重層面就學(xué)會(huì)「該演就演,該準(zhǔn)就準(zhǔn)」。

如果你是普通用戶,現(xiàn)在就可以行動(dòng)。

打開對(duì)話框,在遇到硬核知識(shí)核查、邏輯推演時(shí),把那句自作聰明的「專家咒語(yǔ)」果斷刪掉。

換成一句最干凈的指令:「請(qǐng)一步步客觀推演,如果不確定就直接告訴我」。

少給AI加戲,它才能真正開始思考。

而你,也會(huì)第一次聽(tīng)到它說(shuō)真話。

參考資料:

https://x.com/sukh_saroy/status/2035761644270411994?s=20%20

https://arxiv.org/abs/2603.18507

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
世預(yù)賽歐洲區(qū)開打!明晨將有8隊(duì)出局 8隊(duì)進(jìn)決賽 意大利生死戰(zhàn)

世預(yù)賽歐洲區(qū)開打!明晨將有8隊(duì)出局 8隊(duì)進(jìn)決賽 意大利生死戰(zhàn)

葉青足球世界
2026-03-26 08:47:10
女子被觸摸隱私部位后續(xù)!衣服全被脫光,商家只開除,拒絕賠償

女子被觸摸隱私部位后續(xù)!衣服全被脫光,商家只開除,拒絕賠償

潮鹿逐夢(mèng)
2026-03-18 10:26:41
11場(chǎng)10球!皇馬新帥有點(diǎn)神:伯納烏迎回熊皇!貝林厄姆:逆境重生

11場(chǎng)10球!皇馬新帥有點(diǎn)神:伯納烏迎回熊皇!貝林厄姆:逆境重生

萬(wàn)花筒體育球球
2026-03-25 17:39:15
張雪峰早就防著這一天了:為女兒注冊(cè)40枚商標(biāo),防親戚父愛(ài)太沉重

張雪峰早就防著這一天了:為女兒注冊(cè)40枚商標(biāo),防親戚父愛(ài)太沉重

墨染時(shí)光
2026-03-26 07:50:31
姆巴佩:說(shuō)我在皇馬遭誤診是假的,也怪我留下了可解讀的空間

姆巴佩:說(shuō)我在皇馬遭誤診是假的,也怪我留下了可解讀的空間

懂球帝
2026-03-26 04:09:06
1958年周恩來(lái)突然提出辭去總理職務(wù),毛主席聽(tīng)后只說(shuō)了一句話,全場(chǎng)沉默

1958年周恩來(lái)突然提出辭去總理職務(wù),毛主席聽(tīng)后只說(shuō)了一句話,全場(chǎng)沉默

文史明鑒
2026-03-24 18:49:17
西班牙稱霸100年,美國(guó)已稱霸80年:500年來(lái)霸主都栽在同一件事上

西班牙稱霸100年,美國(guó)已稱霸80年:500年來(lái)霸主都栽在同一件事上

鑒史錄
2026-03-25 18:20:08
上海一男子每天3包煙,持續(xù)幾十年!醫(yī)生:全身沒(méi)一根血管是好的

上海一男子每天3包煙,持續(xù)幾十年!醫(yī)生:全身沒(méi)一根血管是好的

上觀新聞
2026-03-24 13:32:07
周邊5大鄰國(guó)做出選擇,亞洲大地震!美國(guó)知道:中國(guó)正在靜待時(shí)機(jī)

周邊5大鄰國(guó)做出選擇,亞洲大地震!美國(guó)知道:中國(guó)正在靜待時(shí)機(jī)

掉了顆大白兔糖
2026-03-26 01:00:31
蔡正元即將入獄,國(guó)臺(tái)辦做出回應(yīng),內(nèi)容不尋常,已看透他的真面目

蔡正元即將入獄,國(guó)臺(tái)辦做出回應(yīng),內(nèi)容不尋常,已看透他的真面目

小陸搞笑日常
2026-03-26 11:57:06
天妒英才!西北工業(yè)大學(xué)嚴(yán)紅教授離世,同門發(fā)聲,透露患病情況

天妒英才!西北工業(yè)大學(xué)嚴(yán)紅教授離世,同門發(fā)聲,透露患病情況

凱旋學(xué)長(zhǎng)
2026-03-26 14:50:48
張雪峰傳奇人生揭秘:父母下崗,大學(xué)考上鄭大,第一份工作開飯店

張雪峰傳奇人生揭秘:父母下崗,大學(xué)考上鄭大,第一份工作開飯店

談史論天地
2026-03-25 07:26:54
英國(guó)上將揭露:1997年香港回歸真相,誰(shuí)敢抗衡中國(guó)解放軍?

英國(guó)上將揭露:1997年香港回歸真相,誰(shuí)敢抗衡中國(guó)解放軍?

老范談史
2026-03-18 23:51:08
堂哥在家族群通知年夜飯我買單,我反手取消包廂,大伯炸鍋

堂哥在家族群通知年夜飯我買單,我反手取消包廂,大伯炸鍋

小秋情感說(shuō)
2026-03-26 09:28:29
你干過(guò)最舒服的工作是啥?網(wǎng)友:姐,你們公司還招人嗎

你干過(guò)最舒服的工作是啥?網(wǎng)友:姐,你們公司還招人嗎

帶你感受人間冷暖
2026-03-19 22:37:39
心跳成為“勝負(fù)手”:從張雪峰猝然離世看網(wǎng)球運(yùn)動(dòng)員的心臟之殤

心跳成為“勝負(fù)手”:從張雪峰猝然離世看網(wǎng)球運(yùn)動(dòng)員的心臟之殤

網(wǎng)球之家
2026-03-25 23:38:54
太突然!董事長(zhǎng)湯建,因心梗意外去世

太突然!董事長(zhǎng)湯建,因心梗意外去世

每日經(jīng)濟(jì)新聞
2026-03-25 18:21:26
大結(jié)局要來(lái)了?伊朗開出六大停戰(zhàn)條件,特朗普回應(yīng)4個(gè)字

大結(jié)局要來(lái)了?伊朗開出六大停戰(zhàn)條件,特朗普回應(yīng)4個(gè)字

混沌錄
2026-03-25 16:22:08
40分鐘內(nèi),伊朗四輪導(dǎo)彈擊以色列 逮捕39名美以雇傭人員

40分鐘內(nèi),伊朗四輪導(dǎo)彈擊以色列 逮捕39名美以雇傭人員

健身狂人
2026-03-26 13:47:58
現(xiàn)實(shí)中的大齡剩女最后妥協(xié)了嗎?網(wǎng)友爆笑評(píng)論,真是一言難盡。

現(xiàn)實(shí)中的大齡剩女最后妥協(xié)了嗎?網(wǎng)友爆笑評(píng)論,真是一言難盡。

侃神評(píng)故事
2026-03-25 11:30:09
2026-03-26 15:44:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
14819文章數(shù) 66720關(guān)注度
往期回顧 全部

科技要聞

Meta高管狂分百億期權(quán),700名員工卻下崗

頭條要聞

上海媽媽尋親27年懸賞市區(qū)一套房:不用盡孝 要個(gè)擁抱

頭條要聞

上海媽媽尋親27年懸賞市區(qū)一套房:不用盡孝 要個(gè)擁抱

體育要聞

35歲替補(bǔ)門將,憑什么入選英格蘭隊(duì)?

娛樂(lè)要聞

張雪峰家人首發(fā)聲 不設(shè)追思會(huì)喪事從簡(jiǎn)

財(cái)經(jīng)要聞

黃仁勛:芯片公司的時(shí)代已經(jīng)結(jié)束了

汽車要聞

一汽奧迪A6L e-tron開啟預(yù)售 CLTC最大續(xù)航815km

態(tài)度原創(chuàng)

手機(jī)
旅游
藝術(shù)
數(shù)碼
時(shí)尚

手機(jī)要聞

蘋果回應(yīng)iPhone自動(dòng)打電話 升級(jí)系統(tǒng)可解決

旅游要聞

濟(jì)南動(dòng)物園“花朝薈”系列活動(dòng)浪漫上演

藝術(shù)要聞

哪一座橋不是風(fēng)景?

數(shù)碼要聞

三星更新870 EVO系列SATA SSD:最高8TB 定價(jià)超1萬(wàn)元

皮衣+裙,高級(jí)到炸

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版