国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

普通人如何逃離DeepSeek幻覺陷阱

0
分享至

DeepSeek橫空出世,我們和人工智能的關(guān)系也隨之進(jìn)入新時(shí)代。但對于許多人來說,與AI的蜜月期還沒有結(jié)束,幻覺問題就不合時(shí)宜地來預(yù)警。

近期一條“80后死亡率突破5.2%”的假新聞廣為流傳,據(jù)上海網(wǎng)絡(luò)辟謠介紹,最初的信源很可能是來自AI對話。

這種甚至一眼假的數(shù)據(jù)是怎么來的呢?我最近也在嘗試用AI對話代替搜索,發(fā)現(xiàn)確實(shí)會給工作埋下一些“地雷”。

例如前幾天我們寫了京東外賣的稿件,嘗試用DeepSeek來搜集資料,“山姆每年為京東即時(shí)零售帶來多少訂單”的問題,DeepSeek語氣肯定地給出一個(gè)數(shù)據(jù),并稱京東今年將和山姆展開新合作。

我沒有查到這個(gè)數(shù)據(jù)的來源,而且我更震驚的是關(guān)于合作的預(yù)測,“山姆和京東不是去年分手了嗎”。

這就是DeepSeek的“幻覺”?;糜X,是大模型的“基因”問題,因?yàn)樗举|(zhì)上是根據(jù)每個(gè)詞出現(xiàn)的概率來選擇回答,所以很容易編出一篇看起來很流暢但完全不符合事實(shí)的回答。

所有的大模型或多或少,都有這個(gè)問題。

但是,DeepSeek-R1的幻覺在領(lǐng)先的模型中尤為嚴(yán)重,在Vectara HHEM人工智能幻覺測試中達(dá)到了14.3%,是DeepSeek-V3的近4倍,也遠(yuǎn)超行業(yè)平均水平。

DeepSeek-R1的幻覺率高于同行(圖源自Semafor)

同時(shí),DeepSeek R1是目前中國應(yīng)用范圍最廣泛的大模型之一。正因?yàn)樗銐蛑悄?,很容易被充分信任,在“掉鏈子”的時(shí)候也不會被察覺,反而有可能成為引發(fā)更大范圍的“輿論幻覺”。

01、DeepSeek怎么背刺我

球球今年讀大四,最近都在一家實(shí)驗(yàn)室實(shí)習(xí)。用Kimi、豆包等AI助手來撰寫資料、找文獻(xiàn),他已經(jīng)駕輕就熟,在DeepSeek上線以后,更是感到如虎添翼。

最近剛開學(xué),他就開始忙著寫論文。不過,他這學(xué)期已經(jīng)不敢直接使用AI生成的內(nèi)容了。

網(wǎng)上最近流傳的一個(gè)貼子,DeepSeek生成的一個(gè)綜述中,參考文獻(xiàn)全是自己編的,“秉持著嚴(yán)謹(jǐn)?shù)膽B(tài)度,我去搜了這些參考文獻(xiàn),竟然!!竟然沒有一篇是真的!! ”

一位大模型業(yè)內(nèi)人士表示,這是一個(gè)很有意思的案例,“見過胡編事實(shí)的,沒看到編造論文引用的?!?/p>

類似胡編的情況還有很多,比如有網(wǎng)友問DeepSeek上海有幾家麻六記,地址都在哪里?結(jié)果DeepSeek給了他四個(gè)地址,且四個(gè)地址都是錯誤的。

最搞笑的,是一位玩具博主,讓DeepSeek幫她查國內(nèi)兒童玩具理論的文獻(xiàn)綜述,其中引用了一本名為《玩具與兒童發(fā)展》的書。

“我咋沒見過呢?就讓它詳細(xì)介紹一下”,結(jié)果,她就在思維鏈里發(fā)現(xiàn)DeepSeek說,這本書是虛構(gòu)的,而且“要避免指出這本書是虛構(gòu)的,以免讓用戶感到困惑”。

音樂自媒體“亂彈山”進(jìn)一步發(fā)現(xiàn),DeepSeek特別擅長使用陌生信息和專業(yè)領(lǐng)域的詞匯來胡編亂造。

他發(fā)現(xiàn)一個(gè)小紅書筆記,名叫《我聽了這么多年五月天,還不如DeepSeek》,讓DeepSeek來提供五月天歌曲里面的彩蛋?!捌鋵?shí)里面全是扯淡”。

比如里面提到《倉頡》前奏中“需要你 需要你 需要你”,倒放會變成“宇宙爆炸的瞬間 我看見了你的臉”。大部分人試一試就會知道,這三個(gè)音節(jié)怎么來回折騰,都成不了這句話。但依然不妨礙下面有很多人都說,被感動到了!

另外,他還讓DeepSeek深度解析韓國音樂人Woodz的風(fēng)格。DeepSeek解析出的“雙聲道交替”“呼吸聲放大”“元音拉伸”等巧思,都是對應(yīng)歌曲中沒有的,很像我們剛學(xué)會了一些專業(yè)名詞就張冠李戴胡亂賣弄的樣子。

但值得指出的是,當(dāng)這些專業(yè)詞匯足夠多,這些專業(yè)足夠陌生的時(shí)候,普通人根本無法分辨這些敘述的真實(shí)性。

就像前面提到的央視新聞報(bào)道的“80后的死亡率已經(jīng)達(dá)到5.2%”的謠言,中國人民大學(xué)人口與健康學(xué)院教授李婷梳理發(fā)現(xiàn),很可能就是AI大模型導(dǎo)致的錯誤,但普通人對這些數(shù)據(jù)并沒有概念,就很容易相信。

這幾天,已經(jīng)有好幾篇被認(rèn)為由AI撰寫的謠言騙倒了不少人:梁文峰在知乎上對于DeepSeepk的首次回應(yīng),《哪吒2》員工996是因?yàn)楣驹诔啥挤址?,電梯墜落再沖頂?shù)氖鹿试颉侣務(wù)鎸?shí)和虛構(gòu)段落被很好地捏合到一起,常人很難分辨。

而且,就算DeepSeek沒掉鏈子,很多時(shí)候普通人連使用它的方式都不正確。AI訓(xùn)練的獎懲方式,簡單來說,就是它猜你最想要的是什么回答,而不是最正確的是什么回答。

丁香園前兩天寫過,已經(jīng)有很多人拿著DeepSeek的診斷,來向醫(yī)生咨詢。一位發(fā)熱兒童的家長,堅(jiān)信醫(yī)生開的檢查沒有必要,是過度治療;醫(yī)生不開抗甲流的抗病毒藥物,就是拖延治療。醫(yī)生很疑惑,“你們怎么能確定是甲流呢?發(fā)熱的原因有很多?!奔议L說,他們問了DeepSeek。

醫(yī)生打開手機(jī)發(fā)現(xiàn),家長的提問是,“得了甲流要做什么治療?”這個(gè)問題首先就預(yù)設(shè)了孩子已經(jīng)得了甲流,大模型自然也只會作出相應(yīng)的回答,并不會綜合實(shí)際條件來進(jìn)行決策。幻覺能借此危害現(xiàn)實(shí)。

02、幻覺,是bless也是curse

幻覺本身其實(shí)并不是“劇毒”,只能算是大模型的“基因”。在研究人工智能的早期,幻覺被認(rèn)為是好事,代表AI有了產(chǎn)生智能的可能性。這也是AI業(yè)界研究非常久遠(yuǎn)的話題。

但在AI有了判斷和生成的能力后,幻覺被用來形容偏差和錯誤。而在LLM領(lǐng)域,幻覺更是每個(gè)模型與生俱來的缺陷。

用最簡單的邏輯來描述,LLM訓(xùn)練過程中,是將海量數(shù)據(jù)高度壓縮抽象,輸入的是內(nèi)容之間關(guān)系的數(shù)學(xué)表征,而不是內(nèi)容本身。就像柏拉圖的洞穴寓言,囚徒看到的全是外部世界的投影,而不是真實(shí)世界本身。

LLM在輸出時(shí),是無法將壓縮后的規(guī)律和知識完全復(fù)原的,因此會去填補(bǔ)空白,于是產(chǎn)生幻覺。

不同研究還依據(jù)來源或領(lǐng)域不同,將幻覺分為“認(rèn)知不確定性和偶然不確定性”,或“數(shù)據(jù)源、訓(xùn)練過程和推理階段導(dǎo)致的幻覺”。

但OpenAI等團(tuán)隊(duì)的研究者們發(fā)現(xiàn),推理增強(qiáng)會明顯減少幻覺。

此前普通用戶使用 ChatGPT(GPT3)時(shí)就發(fā)現(xiàn),在模型本身不變的情況下,只需要在提示詞中加上“讓我們一步步思考(let’s think step by step)”,就能生成chain-of-thought(CoT),提高推理的準(zhǔn)確性,減少幻覺。OpenAI用o系列的模型進(jìn)一步證明了這一點(diǎn)。

但是DeepSeek-R1的表現(xiàn),跟這一發(fā)現(xiàn)恰好相反。

R1在數(shù)學(xué)相關(guān)的推理上極強(qiáng),而在涉及到創(chuàng)意創(chuàng)造的領(lǐng)域非常容易胡編亂造。非常極端。

一個(gè)案例能很好地說明DeepSeek的能力。相信有不少人看到過,一個(gè)博主用“strawberry里有幾個(gè)r”這個(gè)經(jīng)典問題去測試R1。

絕大多數(shù)大模型會回答“2個(gè)”。這是模型之間互相“學(xué)習(xí)”傳遞的謬誤,也說明了LLM的“黑盒子”境地,它看不到外部世界,甚至看不到單詞中的最簡單的字母。

而DeepSeek在經(jīng)歷了來回非常多輪長達(dá)100多秒的深度思考后,終于選擇堅(jiān)信自己推理出來的數(shù)字“3個(gè)”,戰(zhàn)勝了它習(xí)得的思想鋼印“2個(gè)”。

圖片來自 @斯庫里

而這種強(qiáng)大的推理能力(CoT深度思考能力),是雙刃劍。在與數(shù)學(xué)、科學(xué)真理無關(guān)的任務(wù)中,它有時(shí)會生成出一套自圓其說的“真理”,且捏造出配合自己理論的論據(jù)。

據(jù)騰訊科技,出門問問大模型團(tuán)隊(duì)前工程副總裁李維認(rèn)為,R1比V3幻覺高4倍,有模型層的原因:

V3: query --〉answer

R1: query+CoT --〉answer

“對于V3已經(jīng)能很好完成的任務(wù),比如摘要或翻譯,任何思維鏈的長篇引導(dǎo)都可能帶來偏離或發(fā)揮的傾向,這就為幻覺提供了溫床?!?/p>

一個(gè)合理的推測是,R1在強(qiáng)化學(xué)習(xí)階段去掉了人工干預(yù),減少了大模型為了討好人類偏好而鉆空子,但單純的準(zhǔn)確性信號反饋,或許讓R1在文科類的任務(wù)中把“創(chuàng)造性”當(dāng)成了更高優(yōu)先級。而后續(xù)的Alignment并未對此進(jìn)行有效彌補(bǔ)。

OpenAI的前科學(xué)家翁荔在2024年曾撰寫過一篇重要blog(Extrinsic Hallucinations in LLMs),她在OpenAI任職后期專注于大模型安全問題。

她提出,如果將預(yù)訓(xùn)練數(shù)據(jù)集看作是世界知識的象征,那么本質(zhì)上是試圖確保模型輸出是事實(shí)性的,并可以通過外部世界知識進(jìn)行驗(yàn)證。“當(dāng)模型不了解某個(gè)事實(shí)時(shí),它應(yīng)該明確表示不知道。”

如今一些大模型如今在觸碰到知識邊界時(shí),會給出“不知道”或者“不確定”的回答。

R2或許會在減少幻覺方面有顯著成效。而眼下R1有龐大的應(yīng)用范圍,其模型的幻覺程度,需要被大家意識到,從而減少不必要的傷害和損失。

03、來,讓我們打敗幻覺

那么,在現(xiàn)實(shí)使用的過程中,我們普通人對大模型的幻覺就束手無策了嗎?

互聯(lián)網(wǎng)資深產(chǎn)品經(jīng)理Sam,最近一直在用大模型做應(yīng)用,他對ChatGPT和DeepSeek都有豐富的使用體驗(yàn)。

對于Sam這樣的開發(fā)者來說,最靠譜的反幻覺手段有兩種。

第一個(gè)就是在調(diào)用API時(shí),根據(jù)需求設(shè)置一些參數(shù),如temperature和top_p等,以控制幻覺問題。有些大模型,還支持設(shè)置信息標(biāo),如對于模糊信息,需標(biāo)注“此處為推測內(nèi)容”等。

第二種方法更專業(yè)。大模型的答案是否靠譜,很大程序依賴語料質(zhì)量,同樣一個(gè)大模型語料質(zhì)量也可能不一樣,比如說,現(xiàn)在同樣是滿血版的DeepSeek,百度版和騰訊版的語料,就來自于各自的內(nèi)容生態(tài)。此時(shí)就需要開發(fā)者選擇自己信任的生態(tài)。

對于專業(yè)的企業(yè)用戶,就可以從數(shù)據(jù)側(cè)下手規(guī)避幻覺。在這方面,現(xiàn)在RAG技術(shù)已經(jīng)在應(yīng)用開發(fā)中普遍采用。

RAG,也就是檢索增強(qiáng)生成,是先從一個(gè)數(shù)據(jù)集中檢索信息,然后指導(dǎo)內(nèi)容生成。當(dāng)然,這個(gè)集合是要根據(jù)企業(yè)自己的需求,搭建的事實(shí)性、權(quán)威性數(shù)據(jù)庫。

Sam認(rèn)為,這種方法雖好,但不適合一般的個(gè)人用戶,因?yàn)樯婕暗酱髽颖镜臄?shù)據(jù)標(biāo)注,成本很高。

ChatGPT為個(gè)人用戶也設(shè)置了一個(gè)調(diào)整方案來減少幻覺。在ChatGPT開發(fā)者中心的playground中,有一個(gè)調(diào)節(jié)參數(shù)功能,專門用來給普通用戶使用。但目前DeepSeek沒有提供這個(gè)功能。

ChatGPT在playground提供了參數(shù)調(diào)整功能

實(shí)際上,就算有這個(gè)功能,一般用戶可能也會嫌麻煩。Sam說,他發(fā)現(xiàn)ChatGPT的這個(gè)功能,一般的個(gè)人用戶就很少會使用。

那么個(gè)人用戶怎么辦呢?目前來看,對于大家反應(yīng)較多的DeepSeek幻覺問題,最靠譜的方法也有兩個(gè),第一個(gè)是多方查詢,交叉驗(yàn)證。

例如,我的一位養(yǎng)貓的朋友說,使用DeepSeek之前,她一般是在小紅書上學(xué)習(xí)養(yǎng)貓知識,DeepSeek雖然方便,但是她現(xiàn)在仍然會用小紅書,用兩個(gè)結(jié)果去交叉驗(yàn)證,經(jīng)常會發(fā)現(xiàn)DeepSeek的結(jié)果被此前一些廣泛流行的錯誤觀念污染。

如果是想用DeepSeek做一些專業(yè)數(shù)據(jù)搜集,這個(gè)方法可能就沒那么好用。此外,還有一個(gè)更簡單的方法。

具體來說,就是你在對話中,如果發(fā)現(xiàn)DeepSeek有自己腦補(bǔ)的內(nèi)容,就可以直接告訴它,“說你知道的就好,不用胡說”,DeepSeek馬上就會修正自己的生成內(nèi)容。

chatgpt給出的建議

Sam說,對一般用戶來說,這個(gè)方法效果不錯。

實(shí)際上,正如我們前文所說,DeepSeek幻覺更嚴(yán)重,一部分原因是因它更智能。反過來說,我們要打敗幻覺,也要利用它這個(gè)特點(diǎn)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
邀約偷鐵皮遭拒絕,云南一61歲老婦殺害13歲男孩,一審獲死刑

邀約偷鐵皮遭拒絕,云南一61歲老婦殺害13歲男孩,一審獲死刑

紅星新聞
2026-01-09 18:09:30
黎筍之子黎堅(jiān)誠坦言:父親選擇同中國開戰(zhàn),是其畢生最大的失策

黎筍之子黎堅(jiān)誠坦言:父親選擇同中國開戰(zhàn),是其畢生最大的失策

磊子講史
2025-12-24 11:04:05
證監(jiān)會提高“吹哨人”獎勵,最高獎勵100萬元

證監(jiān)會提高“吹哨人”獎勵,最高獎勵100萬元

每日經(jīng)濟(jì)新聞
2026-01-09 21:16:39
相親時(shí)男方問我父母做什么的,我說:我媽看大門,我爸?jǐn)[水果攤

相親時(shí)男方問我父母做什么的,我說:我媽看大門,我爸?jǐn)[水果攤

朝暮書屋
2026-01-07 18:18:02
王石與田樸珺視頻流出!她沒了仰慕和愛意,他的眼睛透出一股寒意

王石與田樸珺視頻流出!她沒了仰慕和愛意,他的眼睛透出一股寒意

火山詩話
2026-01-07 06:53:05
被約基奇掩蓋的超級后衛(wèi)!兩戰(zhàn)49分33助,當(dāng)代納什,2億真不貴

被約基奇掩蓋的超級后衛(wèi)!兩戰(zhàn)49分33助,當(dāng)代納什,2億真不貴

你的籃球頻道
2026-01-09 09:13:40
女子新房裝玫紅色入戶門貼花壁紙,網(wǎng)友直呼“全網(wǎng)獨(dú)一無二”,當(dāng)事人:裝修花費(fèi)近100萬元,老公每次來都像游客一樣

女子新房裝玫紅色入戶門貼花壁紙,網(wǎng)友直呼“全網(wǎng)獨(dú)一無二”,當(dāng)事人:裝修花費(fèi)近100萬元,老公每次來都像游客一樣

極目新聞
2026-01-07 13:36:53
終于輪到日本“強(qiáng)烈抗議”了:130年來,日本從未像今天這樣憋屈

終于輪到日本“強(qiáng)烈抗議”了:130年來,日本從未像今天這樣憋屈

胖哥不胡說
2026-01-08 13:12:20
離婚19年,朱玲玲每周三仍回霍家吃飯。不是復(fù)婚,也不是演戲。

離婚19年,朱玲玲每周三仍回霍家吃飯。不是復(fù)婚,也不是演戲。

百態(tài)人間
2026-01-10 05:15:03
張本智和贏球后,向國乒教練揮拳慶祝,有誰注意到周啟豪的反應(yīng)?

張本智和贏球后,向國乒教練揮拳慶祝,有誰注意到周啟豪的反應(yīng)?

十點(diǎn)街球體育
2026-01-10 02:00:03
四川省河湖保護(hù)和監(jiān)管事務(wù)中心原主任劉剛被“雙開”

四川省河湖保護(hù)和監(jiān)管事務(wù)中心原主任劉剛被“雙開”

界面新聞
2026-01-09 11:04:57
英法德意波蘭等七國向美發(fā)通牒,特朗普24小時(shí)內(nèi)變臉

英法德意波蘭等七國向美發(fā)通牒,特朗普24小時(shí)內(nèi)變臉

花顏蘊(yùn)韻
2026-01-09 21:03:39
美軍狂追18天,最后一刻搶下俄超級油輪,俄海軍終究晚來一步

美軍狂追18天,最后一刻搶下俄超級油輪,俄海軍終究晚來一步

軍機(jī)Talk
2026-01-08 10:41:44
100元與20元香煙差別多大?煙廠老員工曝實(shí)情,答案出人意料

100元與20元香煙差別多大?煙廠老員工曝實(shí)情,答案出人意料

復(fù)轉(zhuǎn)這些年
2026-01-08 23:29:55
日方召見中國大使抗議,吳江浩大使當(dāng)場駁回:中方意志不會改變

日方召見中國大使抗議,吳江浩大使當(dāng)場駁回:中方意志不會改變

頭條爆料007
2026-01-09 11:28:57
這下不吹了,俄烏兩軍連續(xù)大戰(zhàn),打破一個(gè)又一個(gè)“無敵”武器神話

這下不吹了,俄烏兩軍連續(xù)大戰(zhàn),打破一個(gè)又一個(gè)“無敵”武器神話

策略述
2025-11-12 18:42:46
2026年春節(jié)不一般,老人說“5個(gè)生肖要穿紅”,看看有你嗎?

2026年春節(jié)不一般,老人說“5個(gè)生肖要穿紅”,看看有你嗎?

復(fù)轉(zhuǎn)這些年
2026-01-05 23:36:21
不賣島就開戰(zhàn)?特朗普話音剛落,丹麥等來6國外援,美軍開始行動

不賣島就開戰(zhàn)?特朗普話音剛落,丹麥等來6國外援,美軍開始行動

探史
2026-01-10 00:33:53
閆學(xué)晶堅(jiān)持不道歉官媒點(diǎn)名批評毫不留情! 秦海璐一句話讓她認(rèn)慫

閆學(xué)晶堅(jiān)持不道歉官媒點(diǎn)名批評毫不留情! 秦海璐一句話讓她認(rèn)慫

娛樂小丸子
2026-01-08 14:54:44
隨著CBA聯(lián)賽12輪戰(zhàn)罷,這三支球隊(duì)已成為奪冠大熱門!

隨著CBA聯(lián)賽12輪戰(zhàn)罷,這三支球隊(duì)已成為奪冠大熱門!

田先生籃球
2026-01-09 12:06:49
2026-01-10 06:19:00
20社 incentive-icons
20社
關(guān)注年輕人的錢包、工作和生活。
158文章數(shù) 67關(guān)注度
往期回顧 全部

科技要聞

市場偏愛MiniMax:開盤漲42%,市值超700億

頭條要聞

媒體稱委內(nèi)瑞拉代總統(tǒng)計(jì)劃13日訪問華盛頓 委方回應(yīng)

頭條要聞

媒體稱委內(nèi)瑞拉代總統(tǒng)計(jì)劃13日訪問華盛頓 委方回應(yīng)

體育要聞

金元時(shí)代最后的外援,來中國8年了

娛樂要聞

關(guān)曉彤鹿晗風(fēng)波后露面 不受影響狀態(tài)佳

財(cái)經(jīng)要聞

投資必看!瑞銀李萌給出3大核心配置建議

汽車要聞

助跑三年的奇瑞 接下來是加速還是起跳?

態(tài)度原創(chuàng)

教育
旅游
親子
本地
游戲

教育要聞

震驚!556分上211?合肥工大統(tǒng)計(jì)學(xué)真香

旅游要聞

想看霧凇別瞎跑!吉林阿什哈達(dá)這 5 個(gè)觀賞秘訣,幫你避開空跑遺憾

親子要聞

“國學(xué)馴化”從娃娃抓起?

本地新聞

云游內(nèi)蒙|“包”你再來?一座在硬核里釀出詩意的城

怎么會有游戲上來就說自己的新服活不過10天???"/> 主站 商城 論壇 自運(yùn)營 登錄 注冊 怎么會有游戲上來就說自己的新服活不過10天?。?廉頗 202...

無障礙瀏覽 進(jìn)入關(guān)懷版