網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

OpenAI的新論文，為什么被業(yè)內(nèi)嘲諷是營(yíng)銷(xiāo)？

2025-09-12 15:52:11　來(lái)源: 知危

浙江舉報(bào)

分享至

近期，OpenAI 發(fā)布了一篇新論文《 Why Language Models Hallucinate 》，指出當(dāng)前大模型幻覺(jué)的主要來(lái)源，引發(fā)了廣泛關(guān)注。

他們給出了一個(gè)簡(jiǎn)潔卻顛覆性的解釋?zhuān)?strong>大模型之所以出現(xiàn)幻覺(jué)，并非由于模型架構(gòu)的失靈，而是當(dāng)前技術(shù)社區(qū)的訓(xùn)練與評(píng)測(cè)機(jī)制傾向于獎(jiǎng)勵(lì)猜測(cè)，并且懲罰承認(rèn)不確定的行為，迫使模型在高度不確定時(shí)，也傾向猜測(cè)性作答以博取準(zhǔn)確率分?jǐn)?shù)。

換句話(huà)說(shuō)，大多數(shù)評(píng)估基準(zhǔn)采用一種 “ 應(yīng)試考試 ” 的方式，迫使大語(yǔ)言模型成為 “ 應(yīng)試者 ”，不管是選擇題、填空題還是解答題，如果不知道正確答案，那就猜一個(gè)甚至蒙一個(gè)，這樣在概率上也比不答分?jǐn)?shù)高。

預(yù)訓(xùn)練層面上，大模型通常只接觸正面示例，也就是給定提示詞，然后接著輸出完整的回答，沒(méi)有在這個(gè)過(guò)程中接觸任何拒絕回答的示例，所以自然學(xué)不會(huì)這種拒絕回答的行為。

OpenAI 拿自家模型舉了一個(gè)例子，在 SimpleQA 基準(zhǔn)中，舊模型 o4-mini 相比新模型 GPT-5-thinking-mini 準(zhǔn)確率略高（ 22% vs. 24% ），但也有高得多的錯(cuò)誤率（ 75% vs. 26% ），因?yàn)樗?“ 棄答 ”。

OpenAI據(jù)此主張：在往后的評(píng)估基準(zhǔn)中，應(yīng)對(duì)高自信的錯(cuò)誤施以懲罰，并為恰當(dāng)?shù)牟淮_定表達(dá)給出適當(dāng)分?jǐn)?shù)，使激勵(lì)從 “ 大膽猜 ” 轉(zhuǎn)向 “ 知之為知之 ”，改變主流排行榜長(zhǎng)期以 “ 準(zhǔn)確率 ” 一項(xiàng)稱(chēng)王的局面。

可以說(shuō)，這篇研究是在把 “ 幻覺(jué) ” 從工程缺陷轉(zhuǎn)化為技術(shù)社區(qū)的 “ 激勵(lì)設(shè)計(jì) ” 問(wèn)題。

如果真的往這個(gè)方向發(fā)展，以后真正值得關(guān)注的，將不再是誰(shuí)的準(zhǔn)確率小幅上漲，而是誰(shuí)愿意重寫(xiě)評(píng)測(cè)與產(chǎn)品規(guī)則，讓模型在不確定時(shí)自然地說(shuō)：“ 我不知道 ”。

技術(shù)社區(qū)對(duì)該話(huà)題討論熱烈，其中對(duì)論文的詬病也不少。

有人認(rèn)為這篇論文既不新穎，水平也不高，即相關(guān)研究早已經(jīng)出現(xiàn)，并且這篇論文的技術(shù)水平更像是初級(jí)研究人員寫(xiě)出來(lái)的。

紐約大學(xué)數(shù)據(jù)中心助理教授 Ravid Shwartz Ziv 直言這篇論文更像是一場(chǎng)營(yíng)銷(xiāo)，而不是研究。

有人指出，問(wèn)題的核心其實(shí)在于，幻覺(jué)的概念實(shí)際上到現(xiàn)在為止都還沒(méi)有被嚴(yán)格地定義。

雖然已有不少研究指出了幻覺(jué)的可能原因，例如模型過(guò)度自信、解碼隨機(jī)性、滾雪球效應(yīng)、長(zhǎng)尾訓(xùn)練樣本、誤導(dǎo)性對(duì)齊訓(xùn)練、虛假相關(guān)性、曝光偏差、逆轉(zhuǎn)詛咒以及上下文劫持等，但這些方法毋寧說(shuō)是一種幻覺(jué)的分類(lèi)。

幻覺(jué)的本質(zhì)，或許可以用一個(gè)很簡(jiǎn)單的例子來(lái)說(shuō)明。

以機(jī)器學(xué)習(xí)中的曲線(xiàn)擬合為例，假設(shè)下圖的數(shù)據(jù)點(diǎn)是被用于訓(xùn)練的事實(shí)，我們需要擬合一條曲線(xiàn)來(lái)對(duì)數(shù)據(jù)進(jìn)行回歸，使其能夠準(zhǔn)確地預(yù)測(cè)新數(shù)據(jù)。這條曲線(xiàn)，代表的就是模型。

圖源：網(wǎng)絡(luò)

嚴(yán)格意義上來(lái)講，不存在唯一正確的模型。因?yàn)槊恳环N模型都具備不同的擬合度和泛化性，也都有各自的適用場(chǎng)景。

比如上圖中最右邊的復(fù)雜曲線(xiàn)擬合度更強(qiáng)甚至過(guò)擬合（訓(xùn)練數(shù)據(jù)準(zhǔn)確率高），但泛化性弱（測(cè)試數(shù)據(jù)準(zhǔn)確率低）；最左邊的簡(jiǎn)單曲線(xiàn)擬合度更弱甚至欠擬合（訓(xùn)練數(shù)據(jù)準(zhǔn)確率低），但泛化性強(qiáng)（測(cè)試數(shù)據(jù)準(zhǔn)確率高）。

不同曲線(xiàn)，可以生成不同的新數(shù)據(jù)。而任何曲線(xiàn)，生成的不同于訓(xùn)練數(shù)據(jù)的新數(shù)據(jù)，都有可能是錯(cuò)的，也就是都有可能是幻覺(jué)。至于幻覺(jué)的確認(rèn)，原則是只能與現(xiàn)實(shí)進(jìn)行直接對(duì)比校驗(yàn)，其它方式都是間接性的。

而且，機(jī)器學(xué)習(xí)或大語(yǔ)言模型其實(shí)都不擅長(zhǎng)分布外泛化，也就是其泛化能力更多是在已有觀測(cè)點(diǎn)的范圍內(nèi)估計(jì)未知值。

近期的理論研究比如 2024 年發(fā)表的論文《On the Limits of Language Generation: Trade-Offs Between Hallucination and Mode Collapse 》形式化地闡述了一致性（避免無(wú)效輸出）和廣度（生成多樣化、語(yǔ)言豐富的內(nèi)容）之間的內(nèi)在權(quán)衡。這些研究表明，對(duì)于廣泛的語(yǔ)言類(lèi)別，任何在其訓(xùn)練數(shù)據(jù)之外進(jìn)行泛化的模型，要么會(huì)產(chǎn)生幻覺(jué)，要么會(huì)遭遇模式崩潰，無(wú)法生成所有有效的響應(yīng)。

所以，如果保證訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)（或?qū)嶋H應(yīng)用數(shù)據(jù) ）在大致相同的數(shù)據(jù)分布范圍內(nèi)，并且模型是過(guò)擬合的，基本能保證很低的錯(cuò)誤率或幻覺(jué)率。

假設(shè) “ 低幻覺(jué) ” 大模型發(fā)展成了這個(gè)樣子，那其實(shí)它基本上就是更高效地串聯(lián)已知事實(shí)點(diǎn)、知識(shí)點(diǎn)的自然語(yǔ)言搜索引擎而已。

這會(huì)是OpenAI希望的結(jié)果嗎？我們假設(shè)是，然后繼續(xù)推測(cè)一下。

回過(guò)頭看《 Why Language Models Hallucinate 》這篇論文，幻覺(jué)表現(xiàn)方面，OpenAI 指出，大模型在拼寫(xiě)和括號(hào)等細(xì)節(jié)基本不會(huì)出錯(cuò)，但在低頻任意事實(shí)上很容易出錯(cuò)。

他們引用了一個(gè)有趣的研究成果，論文《 Calibrated Language Models Must Hallucinate 》表明即使訓(xùn)練數(shù)據(jù)沒(méi)有錯(cuò)誤，產(chǎn)生幻覺(jué)的概率也接近于訓(xùn)練數(shù)據(jù)中恰好出現(xiàn)一次的事實(shí)的比例（ “ Good-Turing ” 估計(jì) ）。相比之下，大型語(yǔ)言模型很少會(huì)在經(jīng)常引用的事實(shí)上出錯(cuò)，例如愛(ài)因斯坦的生日或論文標(biāo)題。

并且，該論文還指出，沒(méi)有統(tǒng)計(jì)學(xué)理由表明預(yù)訓(xùn)練會(huì)導(dǎo)致對(duì)訓(xùn)練數(shù)據(jù)中可能出現(xiàn)多次的事實(shí)（例如對(duì)文章、書(shū)籍的引用）或系統(tǒng)性事實(shí)（例如算術(shù)計(jì)算）產(chǎn)生幻覺(jué)。

所以，盡管這個(gè)自然語(yǔ)言搜索引擎很死板，但在使用時(shí)，對(duì)于查詢(xún)提示詞的拼寫(xiě)、標(biāo)點(diǎn)符號(hào)、語(yǔ)言表達(dá)習(xí)慣等還是能做出靈活的響應(yīng)，并且對(duì)于人類(lèi)多次引用或應(yīng)用的知識(shí)、事實(shí)，基本能保證準(zhǔn)確。如果是涉及單次出現(xiàn)的事實(shí)，則很可能出錯(cuò)，這時(shí)候大模型會(huì)選擇拒絕回答。

這樣的大模型自然會(huì)變得很安全、可靠。對(duì)于 AI Agent 產(chǎn)品的構(gòu)建或企業(yè) AI（企業(yè) AI 將主要以 Agent 的形式交付）的落地，都是非常好的底座。因?yàn)橐l(fā)揮AI Agent 的最大限度的能力，首先要保證低幻覺(jué)，避免錯(cuò)誤累積的乘積效應(yīng)。

而且，企業(yè)數(shù)據(jù)通常領(lǐng)域獨(dú)立、長(zhǎng)尾、稀疏，訓(xùn)練出來(lái)的大模型潛在的幻覺(jué)點(diǎn)會(huì)很多，增加拒答率，其實(shí)類(lèi)似于在代碼里增加了 Bug 日志，可以幫助企業(yè)更好地優(yōu)化模型。

但另一方面，我們能信任這個(gè)死板的自然語(yǔ)言搜索引擎的泛化能力嗎？也就是應(yīng)對(duì)實(shí)際新問(wèn)題的能力？

當(dāng)然，這只是一種對(duì) OpenAI 描繪的設(shè)想在經(jīng)典概念上的理解。對(duì)于泛化能力這一部分，其實(shí)目前沒(méi)有很好的量化方法。

這個(gè) “ 低幻覺(jué) ” 大模型將不會(huì)只能解決已知場(chǎng)景下的問(wèn)題。至于在解決一個(gè)具體問(wèn)題時(shí)，是否保證準(zhǔn)確，還是需要一些間接指標(biāo)來(lái)判斷。

當(dāng)前并沒(méi)有很好地自動(dòng)化檢測(cè)幻覺(jué)的方法，很多復(fù)雜的檢測(cè)方法，甚至只和分析響應(yīng)長(zhǎng)度方法效果相當(dāng)。

最簡(jiǎn)單粗暴的方法，就是讓 LLM 生成多個(gè)獨(dú)立答案，然后比較這些答案的一致性，但計(jì)算成本高昂，因?yàn)槊總€(gè)查詢(xún)都需要生成多個(gè)答案。

后續(xù)研究則在這個(gè)基礎(chǔ)上，利用多個(gè)答案之間的重復(fù)部分的緩存來(lái)節(jié)省計(jì)算成本。另一些方法則是比較不同模型對(duì)同一個(gè)查詢(xún)的輸出差異來(lái)分析幻覺(jué)。

目前可能最高效的方法，是在推理過(guò)程中，一邊推理，一邊計(jì)算模型內(nèi)部的置信度信號(hào)，在推理過(guò)程中或推理結(jié)束后動(dòng)態(tài)過(guò)濾掉低質(zhì)量的推理路徑。該方法無(wú)需額外的模型訓(xùn)練或超參數(shù)調(diào)整。比如論文《 DEEP THINK WITH CONFIDENCE 》依靠這種方法，基于開(kāi)源模型在 AIME 2025 達(dá)到了 99.9% 的 “ @512 準(zhǔn)確率 ”（ Best-of-512 sampling ），生成的文本長(zhǎng)度也比全并行推理方法減少了 84.7% 。

圖源：DEEP THINK WITH CONFIDENCE

置信度是非常典型的度量大模型自信程度的信號(hào)，這也是 OpenAI 指出的大模型拒絕回答時(shí)的依據(jù)。

如何理解置信度呢？簡(jiǎn)單來(lái)說(shuō)，有一種簡(jiǎn)單的定義是，大模型推理生成下一個(gè) token 時(shí)，下一個(gè) token 的所有候選詞的概率分布越不均勻，越集中在少量詞，置信度越大。比如下圖中的下一個(gè) token 的概率分布就比較符合高置信度的特點(diǎn)。

圖源：網(wǎng)絡(luò)

客觀來(lái)講，關(guān)于置信度的相關(guān)研究確實(shí)已經(jīng)出現(xiàn)，而且還不少，概念定義和方法也非常多樣。上述提到的讓 LLM 生成多個(gè)獨(dú)立答案再分析一致性的方式，也是一種度量置信度的方法。

甚至，你可以直接讓大模型在輸出時(shí)，附加一句 “ 我有約80%的把握 ” 之類(lèi)的話(huà)，或使用詞語(yǔ)如 “ 可能 ”、“ 不確定 ”來(lái)表達(dá)置信度。這就有點(diǎn) “ 玄學(xué) ” 的味道了，但確實(shí)實(shí)驗(yàn)統(tǒng)計(jì)上有效。論文《 Just Ask for Calibration 》通過(guò)實(shí)驗(yàn)發(fā)現(xiàn)，在提示詞中加入不確定性表達(dá)，可以顯著提高 GPT-3 答案的準(zhǔn)確性和模型校準(zhǔn)度。

OpenAI 這篇論文的創(chuàng)新之處不在于提出的方法，更像是一種面向大模型技術(shù)社區(qū)的倡議，如果社區(qū)集體能夠認(rèn)同其觀點(diǎn)，后續(xù)大模型將會(huì)朝著不鼓勵(lì)猜測(cè)答案的方向發(fā)展。

在論文中，OpenAI 也確實(shí)指出，“ 這種懲罰不確定答案的 ‘ 流行病 ’ 只能通過(guò)社會(huì)技術(shù)緩解措施來(lái)解決 ”。

而作為大模型時(shí)代的奠基者，OpenAI 確實(shí)具備這樣的號(hào)召力。

那么，OpenAI 如此倡導(dǎo)，背后有沒(méi)有更深層次的理由？

結(jié)合 GPT-5 的低幻覺(jué)招牌，低幻覺(jué)率對(duì) AI Agent、企業(yè)AI的重要性，企業(yè)數(shù)據(jù)的稀疏性，以及 OpenAI 近期的關(guān)鍵舉措，包括收購(gòu)并合并 io Products 推進(jìn)硬件布局、成立 “ 應(yīng)用 ” 板塊并任命 Fidji Simo 為 Applications CEO 等。

只能猜測(cè)，OpenAI 希望社區(qū)認(rèn)可 GPT-5的成就，強(qiáng)調(diào) GPT-5 或后續(xù)模型（如果有的話(huà) ）對(duì)AI Agent、企業(yè)應(yīng)用的優(yōu)勢(shì)所在。

以及，他們自己也要認(rèn)真做應(yīng)用了。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.