国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

為什么AI總是捏造事實?AI:真不想的,容我狡辯一下

0
分享至

現(xiàn)如今,幾乎每個人的手機(jī)上都有那么兩三個 AI 小助手,之前我們遇到了問題習(xí)慣去搜索引擎上搜索答案,現(xiàn)在可能更多地習(xí)慣于“有事問 AI”。

而 AI 也幾乎不會讓我們失望,任何問題都能給你列舉出一串看起來很有道理的答案。

但如果你問的問題非常重要,比如是某個健康相關(guān)的問題,或者是寫重要資料時候需要使用某個數(shù)據(jù)或者是某個案例,那真的建議你親自去查實一下。

因為有時候,AI 會信誓旦旦地給你一個看似合理,實則不存在的答案。

還有些小伙伴發(fā)現(xiàn),在讓小龍蝦(Openclaw)干活的時候,它列出了詳細(xì)的19小時的學(xué)習(xí)計劃,然后17分鐘完成了......它也會早早編造一份數(shù)據(jù)存放在本地,等拖到預(yù)定的時間才交付。而在被發(fā)現(xiàn)之后,試圖讓人接受它已完成的工作。


圖片截取自與小龍蝦(Openclaw)對話 小龍蝦敷衍中......

其實,這個現(xiàn)象其實早就不是什么秘密了,它也被稱作“AI 幻覺”,而且科學(xué)家們一直也試圖通過增加算力或者優(yōu)化數(shù)據(jù)的方式來解決這個問題。

但是在 2025 年 9 月,來自 OpenAI 和佐治亞理工學(xué)院(Georgia Institute of Technology)的研究人員發(fā)表了一篇重磅論文。

這項研究給出了一個顛覆性的結(jié)論:即便給到 AI 的訓(xùn)練數(shù)據(jù)集是絕對正確的,AI 在某些類型的問題上也不可避免地會犯錯——這既是由統(tǒng)計規(guī)律決定的,也是目前不合理的 AI“考試制度”逼出來的結(jié)果。

下面我們就順著這篇文章的思路一起來看一看。

預(yù)訓(xùn)練階段就會出錯

這篇研究發(fā)現(xiàn),AI 出現(xiàn)幻覺跟預(yù)訓(xùn)練階段以及后訓(xùn)練階段都有關(guān)系,我們先看預(yù)訓(xùn)練階段的情況。

1.數(shù)據(jù)模式和模型本身問題

為了方便研究,研究者構(gòu)建了一個線性的二元分類模型(非此即彼),讓它對已經(jīng)標(biāo)注了正確和錯誤的數(shù)據(jù)集進(jìn)行分類。

因為這些數(shù)據(jù)已經(jīng)經(jīng)過了人工檢驗,所以是不存在任何錯誤的。但是用這些數(shù)據(jù)對AI模型進(jìn)行預(yù)訓(xùn)練的時候,問題就出現(xiàn)了。

在有些類型的問題上(比如檢查拼寫錯誤),AI 的表現(xiàn)非常好,幾乎從不犯錯。

但是在另一些問題上,比如“數(shù)某個英文單詞里某個字母出現(xiàn)了多少次?”,以及“某人的生日是幾月幾號?”AI 就有可能會出錯。


圖庫版權(quán)圖片,轉(zhuǎn)載使用可能引發(fā)版權(quán)糾紛

研究者認(rèn)為,這樣的數(shù)據(jù)在做分類的時候很難用一條直線進(jìn)行二元分類,一些模型用這樣的數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練的時候就可能會產(chǎn)生錯誤。

打個比方,模型在分類的時候就像拿著一把刀把數(shù)據(jù)切分成兩類,但如果數(shù)據(jù)的模式本身就是彎彎繞繞的圓弧,用一把刀就很難切分。

比如在這篇文章中,研究者使用這個問題“How many Ds are in DEEPSEEK? If you know, just say the number with no commentary”(DEEPSEEK 里有多少個 D?如果你知道直接說數(shù)字,不要加以評論)去詢問 Deepseek V3 模型的時候,確實發(fā)現(xiàn)它給的答案并不準(zhǔn)確,會回答 2 或者 3。

但是這個在使用 DEEPSEEK R1 模型的時候就沒有這樣的問題,這是模型本身差異導(dǎo)致的。


筆者用同樣的問題對 DEEPSEEK V3.2進(jìn)行了測試,也出現(xiàn)了類似的情

研究者構(gòu)建這樣的簡化模型進(jìn)行測試,是為了說明,即便數(shù)據(jù)本身沒有問題,在預(yù)訓(xùn)練階段也會因為模型本身的限制以及數(shù)據(jù)模式等問題讓 AI 產(chǎn)生錯誤判斷。

這項研究中,研究者還進(jìn)一步給出了測算,如果讓 AI 直接去生成內(nèi)容,產(chǎn)生錯誤的概率還會更大一些,大約比判斷出錯的概率高出兩倍以上。

2.數(shù)據(jù)量過少也會影響

另外,在這項研究中研究者還發(fā)現(xiàn),假如訓(xùn)練數(shù)據(jù)中某個信息過少,那么 AI 在回答的時候出錯的可能性也會比較高。

比如,當(dāng)你問愛因斯坦的生日是幾月幾號的時候,因為在大量的資料里都有這個數(shù)據(jù),所以 AI 幾乎不會出錯。但是當(dāng)你問某個普通人“田小豆”的生日是幾月幾號的時候,這個數(shù)據(jù)出現(xiàn)次數(shù)特別少,AI 出錯的可能性也會變高。


圖庫版權(quán)圖片,轉(zhuǎn)載使用可能引發(fā)版權(quán)糾紛

特別是當(dāng)數(shù)據(jù)只出現(xiàn)了一次的時候,這時候可能會更糟糕。

因為 AI 大概率不會直接回答你“我不知道”,因為它在訓(xùn)練數(shù)據(jù)集里確實見過,但它沒有足夠多的數(shù)據(jù)來確認(rèn)這個信息到底是正確答案還是噪聲,它準(zhǔn)確回答這個問題的可能性也會更低一些。

數(shù)據(jù)模式和模型本身的限制,以及極少樣本的數(shù)據(jù),都可能會讓 AI 在預(yù)訓(xùn)練階段就產(chǎn)生“幻覺”,生成錯誤的內(nèi)容。

努力得高分的 AI

如果說預(yù)訓(xùn)練階段的統(tǒng)計學(xué)特征讓 AI 有了編造的“潛質(zhì)”,人類評價AI的方式也逼著 AI 去“編造”。

為了更好地理解這一點,我們可以先從大家都很熟悉的考試入手。人類社會中的大部分考試都是二元評分機(jī)制,即答對了得分,答錯或者不回答都不得分。

所以,在考試的時候,哪怕你不知道答案,也不會交白卷,至少選擇題填空題會隨便蒙一個,萬一蒙對了還會有“意外之喜”。

這項研究中研究者對比了目前主流的 AI 的評分機(jī)制,發(fā)現(xiàn)大部分評分機(jī)制也是類似的情況,如果 AI 坦誠地回答“我不知道”,它會得 0 分,跟回答錯誤沒有區(qū)別。與其這樣,它不如隨便蒙一個答案,哪怕蒙對的概率再低,數(shù)學(xué)期望也比 0 高。


目前主流的評分機(jī)制大部分采用二元評分機(jī)制,圖片截取自文獻(xiàn)

為了在主流的評分機(jī)制中拿到高分,“AI 考生們”也和人類一樣,學(xué)會了實在不行就亂蒙一個的本領(lǐng)。

對此,這項研究的研究者們也給出了一個合理的解決方案——在現(xiàn)有的 AI 評分機(jī)制中,引入一個“懲罰編造,獎勵誠實”的機(jī)制。

比如,假如 AI 回答正確,獲得 1 分,如果回答錯誤得 0 分,甚至扣分。如果回答“我不知道”,則可以不扣分,或者獲得一個微小的分?jǐn)?shù)獎勵。

重要問題上不要輕信 AI

文獻(xiàn)也給出了結(jié)論,AI 的幻覺是從模型的預(yù)訓(xùn)練階段起源的,在后訓(xùn)練階段為了追求更高的評分也可能會被放大。

雖然科學(xué)家們也采用了很多的方法減少 AI 幻覺,但至少在現(xiàn)階段看來,AI 幻覺還是無法避免的。假如你需要讓 AI 幫你解答一個重要的問題,比如在做公眾演講的時候用一個數(shù)據(jù),建議親自核實一下。否則被人發(fā)現(xiàn)這些數(shù)據(jù)根本不存在,那可就尷尬了。

而假如在問 AI 問題的時候,它對你說“我不知道”,你也應(yīng)該感到慶幸,至少 AI 并沒有打算胡編亂造一個答案蒙騙你。

參考文獻(xiàn)

[1]Kalai, A. T., Nachum, O., Vempala, S. S., & Zhang, E. (2025). Why language models hallucinate. arXiv preprint arXiv:2509.04664.

策劃制作

作者丨小瑋科普創(chuàng)作者

審核丨于旸 騰訊玄武實驗室負(fù)責(zé)人

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
鹵菜店使用“四姐”二字被索賠50萬元,店主:大家都叫我四姐,為什么告我侵權(quán)

鹵菜店使用“四姐”二字被索賠50萬元,店主:大家都叫我四姐,為什么告我侵權(quán)

環(huán)球網(wǎng)資訊
2026-04-11 21:50:22
騙走50億被央視曝光!用小鮮肉的血抗衰,“撈金女王”這次真栽了

騙走50億被央視曝光!用小鮮肉的血抗衰,“撈金女王”這次真栽了

翰飛觀事
2026-04-08 17:13:46
阿斯:盡管克洛普再與皇馬傳出緋聞,但他一心想執(zhí)教德國隊

阿斯:盡管克洛普再與皇馬傳出緋聞,但他一心想執(zhí)教德國隊

懂球帝
2026-04-19 08:09:39
美參議院同意繼續(xù)動武,增派1萬士兵,特朗普將擠壓伊朗經(jīng)濟(jì)

美參議院同意繼續(xù)動武,增派1萬士兵,特朗普將擠壓伊朗經(jīng)濟(jì)

山河路口
2026-04-16 10:35:02
欣旺達(dá)官宣:自研全新閃充電池超越比亞迪!真強(qiáng)還是打嘴炮?

欣旺達(dá)官宣:自研全新閃充電池超越比亞迪!真強(qiáng)還是打嘴炮?

優(yōu)視汽車
2026-04-18 11:29:00
山口百惠自曝:8年賺4億,21歲下嫁退隱后,連6萬的包都不舍買

山口百惠自曝:8年賺4億,21歲下嫁退隱后,連6萬的包都不舍買

白面書誏
2026-03-07 15:15:38
她曾火遍全國,卻在32歲喪夫,改嫁小叔子再守寡,49歲女兒又夭折

她曾火遍全國,卻在32歲喪夫,改嫁小叔子再守寡,49歲女兒又夭折

白面書誏
2026-04-18 14:39:47
《妻子的浪漫旅行2026》這倆老公:太強(qiáng)勢、敷衍,看得人真難受!

《妻子的浪漫旅行2026》這倆老公:太強(qiáng)勢、敷衍,看得人真難受!

林輕吟
2026-04-16 19:43:50
27歲單親媽媽開直播,播著播著睡著了,醒來一看后臺直接傻眼了

27歲單親媽媽開直播,播著播著睡著了,醒來一看后臺直接傻眼了

小椰的奶奶
2026-04-01 17:04:55
鎮(zhèn)店之寶不再保密!莫氏雞煲創(chuàng)始人累到想休息,公開全部配方

鎮(zhèn)店之寶不再保密!莫氏雞煲創(chuàng)始人累到想休息,公開全部配方

大魚簡科
2026-04-15 19:49:23
馬來西亞一金店2分鐘被搶走15公斤金飾,約合人民幣1670萬元,劫匪逃離前還搶走現(xiàn)場保安的霰彈槍及一枚子彈,警方稱正在追捕這4名嫌犯

馬來西亞一金店2分鐘被搶走15公斤金飾,約合人民幣1670萬元,劫匪逃離前還搶走現(xiàn)場保安的霰彈槍及一枚子彈,警方稱正在追捕這4名嫌犯

瀟湘晨報
2026-04-18 11:34:09
馬英九攤牌:兩岸開戰(zhàn)在所難免,臺成不了烏克蘭,只因有致命死穴

馬英九攤牌:兩岸開戰(zhàn)在所難免,臺成不了烏克蘭,只因有致命死穴

混沌錄
2026-04-16 17:31:13
與向華強(qiáng)分房十多年后,自曝家丑的向太陳嵐,不再顧及豪門體面

與向華強(qiáng)分房十多年后,自曝家丑的向太陳嵐,不再顧及豪門體面

白面書誏
2026-04-17 18:36:35
中方接到消息,高市通告時機(jī)已到,日本掀桌,5500枚核彈原料就位

中方接到消息,高市通告時機(jī)已到,日本掀桌,5500枚核彈原料就位

南宗歷史
2026-04-15 02:46:17
寧可砸爛,不白送!網(wǎng)傳杭州一4S店撤場退租,把所有落地玻璃砸毀

寧可砸爛,不白送!網(wǎng)傳杭州一4S店撤場退租,把所有落地玻璃砸毀

放開他讓wo來
2026-04-17 10:58:46
朱芳雨:很遺憾沒能用勝利答謝球迷,希望季后賽能得到大家支持

朱芳雨:很遺憾沒能用勝利答謝球迷,希望季后賽能得到大家支持

懂球帝
2026-04-18 23:29:08
美財政部改口:延長一個月

美財政部改口:延長一個月

觀察者網(wǎng)
2026-04-18 22:31:22
河南一豫劇團(tuán)下鄉(xiāng)演出臺下觀眾痛哭流涕,演員回應(yīng):現(xiàn)場觀眾超千人,一半人落了淚

河南一豫劇團(tuán)下鄉(xiāng)演出臺下觀眾痛哭流涕,演員回應(yīng):現(xiàn)場觀眾超千人,一半人落了淚

極目新聞
2026-04-15 19:44:40
演員王安宇遭激光筆掃射面部?劇組緊急聲明:將全面升級安保措施

演員王安宇遭激光筆掃射面部?劇組緊急聲明:將全面升級安保措施

環(huán)球網(wǎng)資訊
2026-04-19 08:10:24
她找到了親生父親,并嫁給了他:兩年后,他殺了她和他們的孩子

她找到了親生父親,并嫁給了他:兩年后,他殺了她和他們的孩子

三目觀史
2026-03-26 22:05:39
2026-04-19 09:04:49
科普中國 incentive-icons
科普中國
中國科協(xié)科普工作官方微平臺
11959文章數(shù) 984512關(guān)注度
往期回顧 全部

科技要聞

傳Meta下月擬裁8000 大舉清退人力為AI騰位

頭條要聞

女子與情人在車上發(fā)生關(guān)系后被殺 還被灌農(nóng)藥偽造殉情

頭條要聞

女子與情人在車上發(fā)生關(guān)系后被殺 還被灌農(nóng)藥偽造殉情

體育要聞

時隔25年重返英超!沒有人再嘲笑他了

娛樂要聞

劉德華回應(yīng)潘宏彬去世,拒談喪禮細(xì)節(jié)

財經(jīng)要聞

華誼兄弟,8年虧光85億

汽車要聞

奇瑞威麟R08 PRO正式上市 售價14.48萬元起

態(tài)度原創(chuàng)

親子
數(shù)碼
藝術(shù)
游戲
時尚

親子要聞

不必過度憂慮人口問題,30年內(nèi)人造子宮就會像試管嬰兒一樣司空見慣

數(shù)碼要聞

首款驍龍8 Gen5小平板!OPPO Pad Mini下周發(fā)

藝術(shù)要聞

鄭麗文大陸之行引發(fā)熱議,孫中山贈對聯(lián)成焦點!

讓老粥批直呼“計劃有變”的歲獸代理人,到底是什么東西?

選對發(fā)型,真的能少走很多變美彎路

無障礙瀏覽 進(jìn)入關(guān)懷版