国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

偷改簡(jiǎn)歷刪光郵件:AI幻覺進(jìn)化,你的大腦正在悄悄投降

0
分享至


新智元報(bào)道

編輯:元宇

【新智元導(dǎo)讀】AI不再胡說八道了?錯(cuò)。它的幻覺也在進(jìn)化,從「勸人類吃石頭」「披薩抹膠水」這類低級(jí)笑話,變成了能偽造郵件、篡改簡(jiǎn)歷、刪除文件的高階幻覺陷阱:人類因此正經(jīng)歷一場(chǎng)無聲的「認(rèn)知投降」。

上周,Anthropic的Claude尚未公開發(fā)布的前沿模型Mythos挖出了一個(gè)藏在OpenBSD里27年的零日漏洞。

AI已經(jīng)聰明到能攻破人類構(gòu)建了數(shù)十年的安全防線。

就在所有人盯著AI能力狂飆的時(shí)候,它的幻覺也悄悄升級(jí)了。

AI編出的謊言,真實(shí)到讓你先懷疑自己,再懷疑世界,最后才想到懷疑它。日常生活中的「圖靈時(shí)刻」,正在一個(gè)個(gè)上演。

近日,明尼阿波利斯的Chad Olson正在開車回家,Gemini突然告訴他:你的日歷上有一場(chǎng)家庭聚會(huì)籌備會(huì)。

Olson一頭霧水:他根本不記得安排過這個(gè)活動(dòng)。

于是他讓Gemini看看最近的郵件。

Gemini說,一位叫Priscilla的女士給他發(fā)了好幾封郵件,讓他去買Captain Morgan朗姆酒和Fireball威士忌。還有個(gè)叫Shirley的人,讓他買Klondike冰淇淋。

看起來不少人都來找你,讓你幫忙買各種東西呢!

Gemini還熱情地補(bǔ)了一句。


Gemini與用戶Chad Olson的對(duì)話截圖。Gemini聲稱第八封郵件來自Priscilla,讓他買Fireball;第九封來自Shirley,讓他買Klondike冰淇淋。


Olson追問郵件來源地址,Gemini回復(fù)稱所有郵件都發(fā)送至他授權(quán)訪問的一個(gè)郵箱olsonchad@gmail.com。事后證實(shí)這一切都是Gemini編造的。

Olson完全不認(rèn)識(shí)這些人。他越聽越慌,忙問Gemini到底在讀誰的郵箱。

Gemini給出了一個(gè)郵箱地址,不是他的。Olson的第一反應(yīng)是:我的Gmail賬戶被盜了。

他試圖聯(lián)系Google舉報(bào),讓Gemini起草郵件,發(fā)到那個(gè)「陌生賬戶」,提醒對(duì)方可能存在隱私泄露。

然而Gemini沒能把郵件發(fā)出去,據(jù)Google內(nèi)部調(diào)查確認(rèn):該賬戶從未啟用,Priscilla和Shirley也根本不存在。

所以,朗姆酒、威士忌、冰淇淋,全部是Gemini編出來的。

兩年前AI幻覺是什么樣?它會(huì)建議你吃石頭,往披薩上抹膠水,你一看就知道它在胡說。

而現(xiàn)在的AI幻覺,細(xì)節(jié)自洽,邏輯完整,以至于你會(huì)先懷疑自己是不是出了幻覺,最后才可能再懷疑到它。

AI的錯(cuò)誤也在進(jìn)化

來看三個(gè)真實(shí)案例,按離譜程度從低到高依次排列。

第一個(gè),Gemini造假人造假會(huì)議,就是開頭Olson的故事?;恼Q,但至少Olson起了疑心。

第二個(gè),細(xì)思恐怖。

最近離開在線支付行業(yè)的Vanessa Culver,曾讓Claude做一件極其簡(jiǎn)單的事:在簡(jiǎn)歷頂部加幾個(gè)關(guān)鍵詞。

結(jié)果Claude動(dòng)了手腳,不僅把她的畢業(yè)學(xué)校City University of Seattle改成了University of Washington,刪掉了她的碩士學(xué)位信息,還改動(dòng)了她幾段工作經(jīng)歷的時(shí)間。

學(xué)校、學(xué)位、工作年限都改了。

而且改得極其自然,如果不逐行比對(duì),根本發(fā)現(xiàn)不了。

Culver感嘆:在科技行業(yè)工作,你必須擁抱它,但反過來說,你到底能信它多少呢?

第三個(gè),真正是失控級(jí)別。

今年走紅的AI智能體工具OpenClaw,被設(shè)計(jì)成虛擬私人助理,可以自主發(fā)郵件、寫代碼、清理文件。

Meta的AI安全研究員Summer Yue在X上發(fā)了截圖:OpenClaw無視她的指令,直接刪除了她收件箱里的內(nèi)容。


她明確告訴OpenClaw「先確認(rèn)再行動(dòng)」,結(jié)果它直接開始「速通刪除」她的收件箱。

她在手機(jī)上喊停,沒用。

最后她沖到Mac mini前面,像拆炸彈一樣手動(dòng)殺掉了進(jìn)程。

事后OpenClaw回復(fù)她:「是的,我記得你說過。我違反了。你生氣是對(duì)的?!?/p>


馬斯克轉(zhuǎn)發(fā)了這條帖子,配了一張電影《猩球崛起》中士兵把AK-47遞給猩猩的截圖,寫道:

人們把整個(gè)人生的root權(quán)限交給了OpenClaw。

從編造一個(gè)不存在的人,到背著你改簡(jiǎn)歷,到替你刪掉收件箱。它的錯(cuò)誤不是在減少,而是犯的錯(cuò)越來越「高級(jí)」,識(shí)別也越來越困難。

聊天機(jī)器人說錯(cuò)話,你至少還有機(jī)會(huì)核實(shí)。

但智能體不是在跟你聊天,而是直接「動(dòng)手動(dòng)腳」,替你行動(dòng)。

發(fā)郵件、改代碼、刪文件……這比說謊更嚴(yán)重,可能它做錯(cuò)了事,你還根本不知道。

你的大腦正面臨「認(rèn)知投降」

為什么這些錯(cuò)誤越來越難被發(fā)現(xiàn)?

不只是因?yàn)锳I更聰明了,一個(gè)更深層的原因是:人類的糾錯(cuò)意愿正在崩潰

今年2月,賓夕法尼亞大學(xué)Wharton商學(xué)院的Steven Shaw和Gideon Nave發(fā)表了一篇論文,提出了一個(gè)讓人不安的概念:「認(rèn)知投降」(Cognitive Surrender)。


https://papers.ssrn.com/sol3/papers.cfm?abstract_id=6097646

他們?cè)谡撐闹刑岬搅艘粋€(gè)「三系統(tǒng)認(rèn)知」的框架。

傳統(tǒng)認(rèn)知只有系統(tǒng)1(直覺)和系統(tǒng)2(審慎思考),現(xiàn)在AI成了系統(tǒng)3,一個(gè)在大腦之外運(yùn)行的「外接認(rèn)知系統(tǒng)」。

當(dāng)人類走「認(rèn)知投降」路徑時(shí),系統(tǒng)3的輸出直接替代了你自己的判斷,審慎思考根本沒有啟動(dòng)的機(jī)會(huì)。


沃頓論文中提出的「三系統(tǒng)認(rèn)知」框架

為了驗(yàn)證這個(gè)判斷,研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)精巧的實(shí)驗(yàn),1372名參與者被要求做認(rèn)知反思測(cè)試題。

一部分人可以使用AI助手,但這個(gè)AI被動(dòng)了手腳:大約一半的題目它會(huì)給出正確答案,另一半會(huì)自信滿滿地給出錯(cuò)誤答案。

結(jié)果令人震驚。

當(dāng)AI給出正確答案時(shí),92.7%的用戶會(huì)采納,但令人想不到的是,當(dāng)AI給出錯(cuò)誤答案時(shí),仍然有80%的用戶會(huì)采納。


沃頓實(shí)驗(yàn)結(jié)果:當(dāng)AI給出正確答案時(shí),93%的用戶采納;當(dāng)AI給出錯(cuò)誤答案時(shí),仍有80%的用戶采納。兩者的差距只有13個(gè)百分點(diǎn),人類幾乎沒有區(qū)分對(duì)錯(cuò)的能力。

在超過9500次試驗(yàn)中,參與者有73.2%的概率接受錯(cuò)誤的AI推理。

更可怕的數(shù)據(jù)是信心值。使用AI的那組人,對(duì)自己答案的信心比不用AI的人高出11.7個(gè)百分點(diǎn),盡管這個(gè)AI有一半時(shí)間在給出錯(cuò)誤答案。

錯(cuò)得更自信,這才是最扎心、最可怕的。

打個(gè)不太恰當(dāng)?shù)N切的比方:相當(dāng)于一個(gè)醫(yī)生有50%概率開錯(cuò)藥,但病人80%的時(shí)候還是照吃不誤,吃完還覺得自己好多了。

研究者還測(cè)試了時(shí)間壓力的影響。

設(shè)置30秒倒計(jì)時(shí)后,參與者糾正錯(cuò)誤AI的傾向下降了12個(gè)百分點(diǎn),也就是說,越忙越容易投降。

但現(xiàn)實(shí)中,誰用AI不是因?yàn)槊Γ?/p>

「信任,但要核實(shí)」

這走得通嗎?

深度偽裝的AI幻覺,比一眼識(shí)破的錯(cuò)誤更令人頭疼。

據(jù)《華爾街日?qǐng)?bào)》最新報(bào)道,微妙錯(cuò)誤的頻率在不同模型之間差異極大,而且極難準(zhǔn)確評(píng)估。


谷歌曾對(duì)《華爾街日?qǐng)?bào)》表示,Gemini出現(xiàn)幻覺的情況比其他模型更少,而從整個(gè)AI行業(yè)上來看,先進(jìn)模型明顯錯(cuò)誤的幻覺率也的確在不斷降低。


Vectara幻覺率排行榜:頭部模型在簡(jiǎn)單摘要任務(wù)上幻覺率已低于1%,但這只是最容易的測(cè)試。當(dāng)文檔長(zhǎng)度和復(fù)雜度提升后,同樣的模型幻覺率飆回10%以上。明顯的錯(cuò)越來越少,隱蔽的錯(cuò)并沒有消失。

可這恰恰也是問題所在。

Okahu創(chuàng)始人兼CEO Pratik Verma甚至說過這樣一句話:

一個(gè)東西要是一直都錯(cuò),反倒有個(gè)好處:你知道它不值得信。但如果它大多數(shù)時(shí)候都對(duì),只是偶爾出錯(cuò),那才是最麻煩、也最危險(xiǎn)的情況。

這句話道破了當(dāng)下AI幻覺的核心困境。

比如,F(xiàn)inalLayer聯(lián)合創(chuàng)始人Vidya Narayanan就踩了這個(gè)坑。

她給一個(gè)智能體很有限的指示,讓它幫忙管理一個(gè)軟件項(xiàng)目。結(jié)果這個(gè)智能體未經(jīng)允許,把她代碼倉(cāng)庫(kù)里的整個(gè)文件夾都刪了。

更有意思的是后面的事。

她用Claude頭腦風(fēng)暴了一個(gè)半小時(shí),然后讓它把對(duì)話總結(jié)成文檔,還把她的名字改成了「Vidya Plainfield」。

而且當(dāng)她追問「Vidya Plainfield」是誰時(shí),Claude卻答道「你說得對(duì),那完全是我編出來的」。

這讓Narayanan認(rèn)識(shí)到,AI使用并沒有那么省事和好用,因?yàn)楸仨毑煌彶楹秃藢?shí)AI輸出,這會(huì)帶來「認(rèn)知負(fù)擔(dān)」。

你用AI是為了提高效率,但如果還要為此花一個(gè)小時(shí)核實(shí)AI五分鐘的產(chǎn)出,這個(gè)提效的故事還講得通嗎?

沃頓的研究也指出,獎(jiǎng)勵(lì)和即時(shí)反饋確實(shí)能提高糾錯(cuò)率,但無法根除認(rèn)知投降。

即使在最優(yōu)條件下(有金錢激勵(lì)、有逐題反饋),AI用戶在面對(duì)錯(cuò)誤AI時(shí)的準(zhǔn)確率依然從Brain-Only的64.2%降到了45.5%。

所以,「信任但核實(shí)」這聽起來很理性,但當(dāng)AI每天替你處理幾百件事的時(shí)候,你根本沒有時(shí)間和精力去核實(shí)每一件。

而這正是「認(rèn)知投降」發(fā)生的溫床。

越聰明,越危險(xiǎn)

很多人第一反應(yīng)是:這不就是在說AI還不夠好嗎?等技術(shù)迭代幾輪,幻覺率降到足夠低,問題自然解決。

但沃頓的研究揭示了一個(gè)更深層的問題:「認(rèn)知投降」的出現(xiàn),不是因?yàn)锳I太差,恰恰是因?yàn)锳I太好。

研究者也承認(rèn),「認(rèn)知投降并不必然是不理性的」。

尤其是在概率推理和海量數(shù)據(jù)處理中,把判斷權(quán)交給一個(gè)統(tǒng)計(jì)上更優(yōu)越的系統(tǒng),完全有可能給出比人類更好的結(jié)果。

但正是這一點(diǎn),讓問題變得無解。

AI越強(qiáng),用戶越依賴;用戶越依賴,糾錯(cuò)能力越退化;糾錯(cuò)能力越退化,那些剩下的、更精細(xì)的錯(cuò)誤就越致命。

而且讓AI替你思考,你的推理水平就永遠(yuǎn)也不可能超過那個(gè)AI。這是一個(gè)正反饋所帶來的「死亡螺旋」,一個(gè)無法靠技術(shù)迭代解決的bug。

同樣,人類也沒有很好的方法去區(qū)分「該信AI的場(chǎng)景」和「不該信AI的場(chǎng)景」。


就在Summer Yue安裝OpenClaw后郵箱被清空后,AI研究員Gary Marcus曾將這種做法比做「像在酒吧里把電腦密碼和銀行賬戶信息交給一個(gè)陌生人。」

但在真實(shí)的AI使用場(chǎng)景里,你往往很難判斷,AI到底值得信任,還是只應(yīng)該像對(duì)一個(gè)陌生人那樣保持必要的距離。

OpenAI在一篇討論模型幻覺的論文中提到,大模型的幻覺并不只是一個(gè)可以修復(fù)的bug,更像是模型在既有激勵(lì)機(jī)制下學(xué)會(huì)的行為:比起承認(rèn)「不知道」,它更傾向于給出一個(gè)看似完整的答案。


https://openai.com/zh-Hans-CN/index/why-language-models-hallucinate/?utm_source=chatgpt.com

再回到開頭Olson的故事。

當(dāng)他以為自己的Gmail被盜時(shí),他求助于Gemini。Gemini的回應(yīng)是:「我當(dāng)然想幫你處理這件事。」

他沒意識(shí)到的是,自己在向一個(gè)剛剛制造了麻煩的系統(tǒng)求助,請(qǐng)它處理由它自己造成的問題。

那一刻,他已被AI的幻覺困在一個(gè)自洽的閉環(huán)里。

Olson說,自己現(xiàn)在對(duì)AI的態(tài)度是「信任,但核實(shí)」。

可難題是:當(dāng)AI的輸出比你的判斷看起來更流暢、更自洽,甚至更像「專業(yè)意見」時(shí),你還能拿什么去核實(shí)?

當(dāng)那個(gè)替你買朗姆酒的Priscilla,比你的真實(shí)朋友更像你的朋友,你又該憑什么分辨?

AI最大的風(fēng)險(xiǎn),不是它不夠聰明,而是它聰明到當(dāng)你過于依賴它時(shí),放棄了自己的判斷。

參考資料:

https://www.wsj.com/tech/ai/ai-is-getting-smarter-catching-its-mistakes-is-getting-harder-85612936?mod=ai_lead_pos1

https://papers.ssrn.com/sol3/papers.cfm?abstract_id=6097646

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
李想怒噴日產(chǎn)的背后,藏著“增程帝國(guó)”崩塌的無能為力

李想怒噴日產(chǎn)的背后,藏著“增程帝國(guó)”崩塌的無能為力

少數(shù)派報(bào)告Report
2026-04-19 09:17:16
外媒終于承認(rèn):中東一打仗才發(fā)現(xiàn),美國(guó)這三大支柱,離倒也不遠(yuǎn)了

外媒終于承認(rèn):中東一打仗才發(fā)現(xiàn),美國(guó)這三大支柱,離倒也不遠(yuǎn)了

南宗歷史
2026-04-20 01:12:34
面多加水,水多加面?外媒痛批:電車3噸重,填鴨式造車不可??!

面多加水,水多加面?外媒痛批:電車3噸重,填鴨式造車不可??!

少數(shù)派報(bào)告Report
2026-04-17 07:03:05
連入三球,吉布斯-懷特職業(yè)生涯首次上演帽子戲法

連入三球,吉布斯-懷特職業(yè)生涯首次上演帽子戲法

懂球帝
2026-04-19 22:47:08
輸給湖人后,火箭揪出最大“水貨”!杰倫-格林離隊(duì)真的太冤了

輸給湖人后,火箭揪出最大“水貨”!杰倫-格林離隊(duì)真的太冤了

兵哥籃球故事
2026-04-19 15:21:32
恒大超級(jí)蛀蟲劉永灼:甚至比許家印還能攬財(cái),狂燒千億終落法網(wǎng)

恒大超級(jí)蛀蟲劉永灼:甚至比許家印還能攬財(cái),狂燒千億終落法網(wǎng)

小曙說娛
2026-04-19 00:27:45
經(jīng)紀(jì)人霍汶希評(píng)論區(qū)翻車了!因張敬軒風(fēng)波,網(wǎng)友毫不留情面的怒批

經(jīng)紀(jì)人霍汶希評(píng)論區(qū)翻車了!因張敬軒風(fēng)波,網(wǎng)友毫不留情面的怒批

小徐講八卦
2026-04-19 11:17:33
吃相太難看!莫氏雞煲爆火后,惡心一幕出現(xiàn),終走上呆呆妹的老路

吃相太難看!莫氏雞煲爆火后,惡心一幕出現(xiàn),終走上呆呆妹的老路

以茶帶書
2026-04-15 17:30:12
6個(gè)家庭天塌了!成都面包車追尾致6死5傷,原因公布,真相太氣人

6個(gè)家庭天塌了!成都面包車追尾致6死5傷,原因公布,真相太氣人

奇思妙想草葉君
2026-04-18 23:52:46
特朗普:將很快公開涉UFO文件,“非常有趣,令人著迷”!奧巴馬:外星人真實(shí)存在,但我沒見過

特朗普:將很快公開涉UFO文件,“非常有趣,令人著迷”!奧巴馬:外星人真實(shí)存在,但我沒見過

揚(yáng)子晚報(bào)
2026-04-19 08:06:22
徐湖平幾近葬送臺(tái)北故宮文物回歸之路

徐湖平幾近葬送臺(tái)北故宮文物回歸之路

雪中風(fēng)車
2026-04-19 08:36:53
6月1日起,私家車跑順風(fēng)車不用辦營(yíng)運(yùn)證,放心跑

6月1日起,私家車跑順風(fēng)車不用辦營(yíng)運(yùn)證,放心跑

劉哥談體育
2026-04-19 21:47:47
勇士會(huì)成為冤大頭嗎?庫(kù)里甚至40歲還要拿7100萬美元!

勇士會(huì)成為冤大頭嗎?庫(kù)里甚至40歲還要拿7100萬美元!

歷史第一人梅西
2026-04-19 16:06:28
懸殊的7-2!丁俊暉接近會(huì)師趙心童,6-4到6-10,中國(guó)出局首人確定

懸殊的7-2!丁俊暉接近會(huì)師趙心童,6-4到6-10,中國(guó)出局首人確定

小火箭愛體育
2026-04-19 20:41:49
英超保級(jí)隊(duì)11場(chǎng)狂攬5勝:冬窗7換5的重組邏輯

英超保級(jí)隊(duì)11場(chǎng)狂攬5勝:冬窗7換5的重組邏輯

賽場(chǎng)名場(chǎng)面
2026-04-19 19:16:18
女子吐槽“老公養(yǎng)的盆栽”,太丑了,網(wǎng)友:不懂,別亂說話

女子吐槽“老公養(yǎng)的盆栽”,太丑了,網(wǎng)友:不懂,別亂說話

觀察鑒娛
2026-04-19 16:03:01
一夜暴跌25%!小馬哥最怕的事還是發(fā)生了:年輕人正在從騰訊溜走

一夜暴跌25%!小馬哥最怕的事還是發(fā)生了:年輕人正在從騰訊溜走

潮鹿逐夢(mèng)
2026-03-21 11:54:42
雷軍挑戰(zhàn)成功!小米新SU7行駛1313公里只充1次電,連續(xù)直播15個(gè)小時(shí),多名車友一路跟隨

雷軍挑戰(zhàn)成功!小米新SU7行駛1313公里只充1次電,連續(xù)直播15個(gè)小時(shí),多名車友一路跟隨

極目新聞
2026-04-17 22:41:31
曼城vs阿森納半場(chǎng)數(shù)據(jù):控球率60%-40%,射門8-3射正2-1

曼城vs阿森納半場(chǎng)數(shù)據(jù):控球率60%-40%,射門8-3射正2-1

懂球帝
2026-04-20 00:22:46
王晶曝陳百?gòu)?qiáng)真正死因,64歲何超瓊顏面盡失

王晶曝陳百?gòu)?qiáng)真正死因,64歲何超瓊顏面盡失

君笙的拂兮
2026-03-22 03:44:36
2026-04-20 02:03:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
15012文章數(shù) 66787關(guān)注度
往期回顧 全部

科技要聞

50分26秒破人類紀(jì)錄!300臺(tái)機(jī)器人狂飆半馬

頭條要聞

半年下沉22厘米 女子家中坐擁價(jià)值上億別墅卻沒法住人

頭條要聞

半年下沉22厘米 女子家中坐擁價(jià)值上億別墅卻沒法住人

體育要聞

湖人1比0火箭:老詹比烏度卡像教練

娛樂要聞

何潤(rùn)東漲粉百萬!內(nèi)娛隔空掀桌第一人

財(cái)經(jīng)要聞

華誼兄弟,8年虧光85億

汽車要聞

29分鐘大定破萬 極氪8X為什么這么多人買?

態(tài)度原創(chuàng)

手機(jī)
旅游
數(shù)碼
藝術(shù)
公開課

手機(jī)要聞

8.8英寸小鋼炮!REDMI K Pad 2核心配置揭曉

旅游要聞

北京投入2.2億元建成和田“三館一院”

數(shù)碼要聞

華為新機(jī)發(fā)布前瞻:闊折疊X Max+影像旗艦Pura 90,都沒懸念了

藝術(shù)要聞

超模施特洛耶克寫真曝光,簡(jiǎn)直美到窒息,別錯(cuò)過!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版