国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

OpenAI的新論文,為什么被業(yè)內(nèi)嘲諷是營(yíng)銷(xiāo)?

0
分享至



近期,OpenAI 發(fā)布了一篇新論文《 Why Language Models Hallucinate 》,指出當(dāng)前大模型幻覺(jué)的主要來(lái)源,引發(fā)了廣泛關(guān)注。

他們給出了一個(gè)簡(jiǎn)潔卻顛覆性的解釋?zhuān)?strong>大模型之所以出現(xiàn)幻覺(jué),并非由于模型架構(gòu)的失靈,而是當(dāng)前技術(shù)社區(qū)的訓(xùn)練與評(píng)測(cè)機(jī)制傾向于獎(jiǎng)勵(lì)猜測(cè),并且懲罰承認(rèn)不確定的行為,迫使模型在高度不確定時(shí),也傾向猜測(cè)性作答以博取準(zhǔn)確率分?jǐn)?shù)。

換句話(huà)說(shuō),大多數(shù)評(píng)估基準(zhǔn)采用一種 “ 應(yīng)試考試 ” 的方式,迫使大語(yǔ)言模型成為 “ 應(yīng)試者 ”,不管是選擇題、填空題還是解答題,如果不知道正確答案,那就猜一個(gè)甚至蒙一個(gè),這樣在概率上也比不答分?jǐn)?shù)高。

預(yù)訓(xùn)練層面上,大模型通常只接觸正面示例,也就是給定提示詞,然后接著輸出完整的回答,沒(méi)有在這個(gè)過(guò)程中接觸任何拒絕回答的示例,所以自然學(xué)不會(huì)這種拒絕回答的行為。

OpenAI 拿自家模型舉了一個(gè)例子,在 SimpleQA 基準(zhǔn)中,舊模型 o4-mini 相比新模型 GPT-5-thinking-mini 準(zhǔn)確率略高( 22% vs. 24% ),但也有高得多的錯(cuò)誤率( 75% vs. 26% ),因?yàn)樗?“ 棄答 ”。



OpenAI據(jù)此主張:在往后的評(píng)估基準(zhǔn)中,應(yīng)對(duì)高自信的錯(cuò)誤施以懲罰,并為恰當(dāng)?shù)牟淮_定表達(dá)給出適當(dāng)分?jǐn)?shù),使激勵(lì)從 “ 大膽猜 ” 轉(zhuǎn)向 “ 知之為知之 ”,改變主流排行榜長(zhǎng)期以 “ 準(zhǔn)確率 ” 一項(xiàng)稱(chēng)王的局面。

可以說(shuō),這篇研究是在把 “ 幻覺(jué) ” 從工程缺陷轉(zhuǎn)化為技術(shù)社區(qū)的 “ 激勵(lì)設(shè)計(jì) ” 問(wèn)題。

如果真的往這個(gè)方向發(fā)展,以后真正值得關(guān)注的,將不再是誰(shuí)的準(zhǔn)確率小幅上漲,而是誰(shuí)愿意重寫(xiě)評(píng)測(cè)與產(chǎn)品規(guī)則,讓模型在不確定時(shí)自然地說(shuō):“ 我不知道 ”。

技術(shù)社區(qū)對(duì)該話(huà)題討論熱烈,其中對(duì)論文的詬病也不少。

有人認(rèn)為這篇論文既不新穎,水平也不高,即相關(guān)研究早已經(jīng)出現(xiàn),并且這篇論文的技術(shù)水平更像是初級(jí)研究人員寫(xiě)出來(lái)的。

紐約大學(xué)數(shù)據(jù)中心助理教授 Ravid Shwartz Ziv 直言這篇論文更像是一場(chǎng)營(yíng)銷(xiāo),而不是研究。



有人指出,問(wèn)題的核心其實(shí)在于,幻覺(jué)的概念實(shí)際上到現(xiàn)在為止都還沒(méi)有被嚴(yán)格地定義。

雖然已有不少研究指出了幻覺(jué)的可能原因,例如模型過(guò)度自信、解碼隨機(jī)性、滾雪球效應(yīng)、長(zhǎng)尾訓(xùn)練樣本、誤導(dǎo)性對(duì)齊訓(xùn)練、虛假相關(guān)性、曝光偏差、逆轉(zhuǎn)詛咒以及上下文劫持等,但這些方法毋寧說(shuō)是一種幻覺(jué)的分類(lèi)。

幻覺(jué)的本質(zhì),或許可以用一個(gè)很簡(jiǎn)單的例子來(lái)說(shuō)明。

以機(jī)器學(xué)習(xí)中的曲線(xiàn)擬合為例,假設(shè)下圖的數(shù)據(jù)點(diǎn)是被用于訓(xùn)練的事實(shí),我們需要擬合一條曲線(xiàn)來(lái)對(duì)數(shù)據(jù)進(jìn)行回歸,使其能夠準(zhǔn)確地預(yù)測(cè)新數(shù)據(jù)。這條曲線(xiàn),代表的就是模型。



圖源:網(wǎng)絡(luò)

嚴(yán)格意義上來(lái)講,不存在唯一正確的模型。因?yàn)槊恳环N模型都具備不同的擬合度和泛化性,也都有各自的適用場(chǎng)景。

比如上圖中最右邊的復(fù)雜曲線(xiàn)擬合度更強(qiáng)甚至過(guò)擬合( 訓(xùn)練數(shù)據(jù)準(zhǔn)確率高 ),但泛化性弱( 測(cè)試數(shù)據(jù)準(zhǔn)確率低 );最左邊的簡(jiǎn)單曲線(xiàn)擬合度更弱甚至欠擬合( 訓(xùn)練數(shù)據(jù)準(zhǔn)確率低 ),但泛化性強(qiáng)( 測(cè)試數(shù)據(jù)準(zhǔn)確率高 )。

不同曲線(xiàn),可以生成不同的新數(shù)據(jù)。而任何曲線(xiàn),生成的不同于訓(xùn)練數(shù)據(jù)的新數(shù)據(jù),都有可能是錯(cuò)的,也就是都有可能是幻覺(jué)。至于幻覺(jué)的確認(rèn),原則是只能與現(xiàn)實(shí)進(jìn)行直接對(duì)比校驗(yàn),其它方式都是間接性的。

而且,機(jī)器學(xué)習(xí)或大語(yǔ)言模型其實(shí)都不擅長(zhǎng)分布外泛化,也就是其泛化能力更多是在已有觀測(cè)點(diǎn)的范圍內(nèi)估計(jì)未知值。

近期的理論研究比如 2024 年發(fā)表的論文《On the Limits of Language Generation: Trade-Offs Between Hallucination and Mode Collapse 》形式化地闡述了一致性( 避免無(wú)效輸出 )和廣度( 生成多樣化、語(yǔ)言豐富的內(nèi)容 )之間的內(nèi)在權(quán)衡。這些研究表明,對(duì)于廣泛的語(yǔ)言類(lèi)別,任何在其訓(xùn)練數(shù)據(jù)之外進(jìn)行泛化的模型,要么會(huì)產(chǎn)生幻覺(jué),要么會(huì)遭遇模式崩潰,無(wú)法生成所有有效的響應(yīng)。

所以,如果保證訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)( 或?qū)嶋H應(yīng)用數(shù)據(jù) )在大致相同的數(shù)據(jù)分布范圍內(nèi),并且模型是過(guò)擬合的,基本能保證很低的錯(cuò)誤率或幻覺(jué)率。

假設(shè) “ 低幻覺(jué) ” 大模型發(fā)展成了這個(gè)樣子,那其實(shí)它基本上就是更高效地串聯(lián)已知事實(shí)點(diǎn)、知識(shí)點(diǎn)的自然語(yǔ)言搜索引擎而已。

這會(huì)是OpenAI希望的結(jié)果嗎?我們假設(shè)是,然后繼續(xù)推測(cè)一下。

回過(guò)頭看《 Why Language Models Hallucinate 》這篇論文,幻覺(jué)表現(xiàn)方面,OpenAI 指出,大模型在拼寫(xiě)和括號(hào)等細(xì)節(jié)基本不會(huì)出錯(cuò),但在低頻任意事實(shí)上很容易出錯(cuò)。

他們引用了一個(gè)有趣的研究成果,論文 《 Calibrated Language Models Must Hallucinate 》表明即使訓(xùn)練數(shù)據(jù)沒(méi)有錯(cuò)誤,產(chǎn)生幻覺(jué)的概率也接近于訓(xùn)練數(shù)據(jù)中恰好出現(xiàn)一次的事實(shí)的比例( “ Good-Turing ” 估計(jì) )。相比之下,大型語(yǔ)言模型很少會(huì)在經(jīng)常引用的事實(shí)上出錯(cuò),例如愛(ài)因斯坦的生日或論文標(biāo)題。

并且,該論文還指出,沒(méi)有統(tǒng)計(jì)學(xué)理由表明預(yù)訓(xùn)練會(huì)導(dǎo)致對(duì)訓(xùn)練數(shù)據(jù)中可能出現(xiàn)多次的事實(shí)( 例如對(duì)文章、書(shū)籍的引用 )或系統(tǒng)性事實(shí)( 例如算術(shù)計(jì)算 )產(chǎn)生幻覺(jué)。

所以,盡管這個(gè)自然語(yǔ)言搜索引擎很死板,但在使用時(shí),對(duì)于查詢(xún)提示詞的拼寫(xiě)、標(biāo)點(diǎn)符號(hào)、語(yǔ)言表達(dá)習(xí)慣等還是能做出靈活的響應(yīng),并且對(duì)于人類(lèi)多次引用或應(yīng)用的知識(shí)、事實(shí),基本能保證準(zhǔn)確。如果是涉及單次出現(xiàn)的事實(shí),則很可能出錯(cuò),這時(shí)候大模型會(huì)選擇拒絕回答。

這樣的大模型自然會(huì)變得很安全、可靠。對(duì)于 AI Agent 產(chǎn)品的構(gòu)建或企業(yè) AI( 企業(yè) AI 將主要以 Agent 的形式交付 )的落地,都是非常好的底座。因?yàn)橐l(fā)揮AI Agent 的最大限度的能力,首先要保證低幻覺(jué),避免錯(cuò)誤累積的乘積效應(yīng)。

而且,企業(yè)數(shù)據(jù)通常領(lǐng)域獨(dú)立、長(zhǎng)尾、稀疏,訓(xùn)練出來(lái)的大模型潛在的幻覺(jué)點(diǎn)會(huì)很多,增加拒答率,其實(shí)類(lèi)似于在代碼里增加了 Bug 日志,可以幫助企業(yè)更好地優(yōu)化模型。

但另一方面,我們能信任這個(gè)死板的自然語(yǔ)言搜索引擎的泛化能力嗎?也就是應(yīng)對(duì)實(shí)際新問(wèn)題的能力?

當(dāng)然,這只是一種對(duì) OpenAI 描繪的設(shè)想在經(jīng)典概念上的理解。對(duì)于泛化能力這一部分,其實(shí)目前沒(méi)有很好的量化方法。

這個(gè) “ 低幻覺(jué) ” 大模型將不會(huì)只能解決已知場(chǎng)景下的問(wèn)題。至于在解決一個(gè)具體問(wèn)題時(shí),是否保證準(zhǔn)確,還是需要一些間接指標(biāo)來(lái)判斷。

當(dāng)前并沒(méi)有很好地自動(dòng)化檢測(cè)幻覺(jué)的方法,很多復(fù)雜的檢測(cè)方法,甚至只和分析響應(yīng)長(zhǎng)度方法效果相當(dāng)。

最簡(jiǎn)單粗暴的方法,就是讓 LLM 生成多個(gè)獨(dú)立答案,然后比較這些答案的一致性,但計(jì)算成本高昂,因?yàn)槊總€(gè)查詢(xún)都需要生成多個(gè)答案。

后續(xù)研究則在這個(gè)基礎(chǔ)上,利用多個(gè)答案之間的重復(fù)部分的緩存來(lái)節(jié)省計(jì)算成本。另一些方法則是比較不同模型對(duì)同一個(gè)查詢(xún)的輸出差異來(lái)分析幻覺(jué)。

目前可能最高效的方法,是在推理過(guò)程中,一邊推理,一邊計(jì)算模型內(nèi)部的置信度信號(hào),在推理過(guò)程中或推理結(jié)束后動(dòng)態(tài)過(guò)濾掉低質(zhì)量的推理路徑。該方法無(wú)需額外的模型訓(xùn)練或超參數(shù)調(diào)整。比如論文《 DEEP THINK WITH CONFIDENCE 》依靠這種方法,基于開(kāi)源模型在 AIME 2025 達(dá)到了 99.9% 的 “ @512 準(zhǔn)確率 ”( Best-of-512 sampling ),生成的文本長(zhǎng)度也比全并行推理方法減少了 84.7% 。



圖源:DEEP THINK WITH CONFIDENCE

置信度是非常典型的度量大模型自信程度的信號(hào),這也是 OpenAI 指出的大模型拒絕回答時(shí)的依據(jù)。

如何理解置信度呢?簡(jiǎn)單來(lái)說(shuō),有一種簡(jiǎn)單的定義是,大模型推理生成下一個(gè) token 時(shí),下一個(gè) token 的所有候選詞的概率分布越不均勻,越集中在少量詞,置信度越大。比如下圖中的下一個(gè) token 的概率分布就比較符合高置信度的特點(diǎn)。



圖源:網(wǎng)絡(luò)

客觀來(lái)講,關(guān)于置信度的相關(guān)研究確實(shí)已經(jīng)出現(xiàn),而且還不少,概念定義和方法也非常多樣。上述提到的讓 LLM 生成多個(gè)獨(dú)立答案再分析一致性的方式,也是一種度量置信度的方法。

甚至,你可以直接讓大模型在輸出時(shí),附加一句 “ 我有約80%的把握 ” 之類(lèi)的話(huà),或使用詞語(yǔ)如 “ 可能 ”、“ 不確定 ”來(lái)表達(dá)置信度。這就有點(diǎn) “ 玄學(xué) ” 的味道了,但確實(shí)實(shí)驗(yàn)統(tǒng)計(jì)上有效。論文《 Just Ask for Calibration 》通過(guò)實(shí)驗(yàn)發(fā)現(xiàn),在提示詞中加入不確定性表達(dá),可以顯著提高 GPT-3 答案的準(zhǔn)確性和模型校準(zhǔn)度。

OpenAI 這篇論文的創(chuàng)新之處不在于提出的方法,更像是一種面向大模型技術(shù)社區(qū)的倡議,如果社區(qū)集體能夠認(rèn)同其觀點(diǎn),后續(xù)大模型將會(huì)朝著不鼓勵(lì)猜測(cè)答案的方向發(fā)展。

在論文中,OpenAI 也確實(shí)指出,“ 這種懲罰不確定答案的 ‘ 流行病 ’ 只能通過(guò)社會(huì)技術(shù)緩解措施來(lái)解決 ”。

而作為大模型時(shí)代的奠基者,OpenAI 確實(shí)具備這樣的號(hào)召力。

那么,OpenAI 如此倡導(dǎo),背后有沒(méi)有更深層次的理由?

結(jié)合 GPT-5 的低幻覺(jué)招牌,低幻覺(jué)率對(duì) AI Agent、企業(yè)AI的重要性,企業(yè)數(shù)據(jù)的稀疏性,以及 OpenAI 近期的關(guān)鍵舉措,包括收購(gòu)并合并 io Products 推進(jìn)硬件布局、成立 “ 應(yīng)用 ” 板塊并任命 Fidji Simo 為 Applications CEO 等。

只能猜測(cè),OpenAI 希望社區(qū)認(rèn)可 GPT-5的 成就,強(qiáng)調(diào) GPT-5 或后續(xù)模型( 如果有的話(huà) )對(duì)AI Agent、企業(yè)應(yīng)用的優(yōu)勢(shì)所在。

以及,他們自己也要認(rèn)真做應(yīng)用了。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
為什么北京像莫斯科?

為什么北京像莫斯科?

虔青
2026-02-26 11:39:20
齊達(dá)內(nèi)親口承認(rèn)!史上最強(qiáng)球員遠(yuǎn)超自己,曾一度力挺另一人

齊達(dá)內(nèi)親口承認(rèn)!史上最強(qiáng)球員遠(yuǎn)超自己,曾一度力挺另一人

瀾歸序
2026-03-02 04:35:45
原來(lái)早已不是中國(guó)籍?事業(yè)巔峰遠(yuǎn)赴美國(guó),被老外“玩膩”晚年回國(guó)

原來(lái)早已不是中國(guó)籍?事業(yè)巔峰遠(yuǎn)赴美國(guó),被老外“玩膩”晚年回國(guó)

往史過(guò)眼云煙
2026-02-27 23:04:59
英國(guó)宣布參與對(duì)伊朗軍事行動(dòng) 戰(zhàn)機(jī)已升空

英國(guó)宣布參與對(duì)伊朗軍事行動(dòng) 戰(zhàn)機(jī)已升空

桂系007
2026-02-28 23:56:12
夸美國(guó)空氣香甜的楊舒平,已被美驅(qū)逐出境,如今回國(guó)下場(chǎng)怎么樣了

夸美國(guó)空氣香甜的楊舒平,已被美驅(qū)逐出境,如今回國(guó)下場(chǎng)怎么樣了

談史論天地
2026-02-07 13:20:03
為什么詹姆斯辦一個(gè)退役巡演這么難?

為什么詹姆斯辦一個(gè)退役巡演這么難?

籃球小煙花
2026-03-02 09:10:03
上海電影院現(xiàn)場(chǎng)被捉奸,帶情夫當(dāng)老公面出軌,狗血女主角真容曝光

上海電影院現(xiàn)場(chǎng)被捉奸,帶情夫當(dāng)老公面出軌,狗血女主角真容曝光

壹月情感
2026-02-27 19:45:48
“突然理解道明寺媽媽了”,高鐵上小少爺走紅,讓普通人看透現(xiàn)實(shí)

“突然理解道明寺媽媽了”,高鐵上小少爺走紅,讓普通人看透現(xiàn)實(shí)

妍妍教育日記
2026-02-28 17:41:50
女子回湖北婆家過(guò)年,車(chē)被妯娌砸稀爛,竟?fàn)砍渡虾⒆?,原因太炸?>
    </a>
        <h3>
      <a href=社會(huì)日日鮮
2026-03-01 08:30:01
贏7分!楊毅卻批評(píng)主教練郭士強(qiáng):將中國(guó)男籃的優(yōu)勢(shì)給丟了

贏7分!楊毅卻批評(píng)主教練郭士強(qiáng):將中國(guó)男籃的優(yōu)勢(shì)給丟了

體育哲人
2026-03-01 22:40:43
汪小菲回應(yīng)轉(zhuǎn)學(xué)風(fēng)波,大S私自操辦被國(guó)際學(xué)校退學(xué),得知后很崩潰

汪小菲回應(yīng)轉(zhuǎn)學(xué)風(fēng)波,大S私自操辦被國(guó)際學(xué)校退學(xué),得知后很崩潰

萌神木木
2026-03-01 11:37:34
富士康創(chuàng)始人郭臺(tái)銘:“若兩岸爆發(fā)沖突,我會(huì)誓死守護(hù)臺(tái)灣”

富士康創(chuàng)始人郭臺(tái)銘:“若兩岸爆發(fā)沖突,我會(huì)誓死守護(hù)臺(tái)灣”

百態(tài)人間
2026-02-12 15:21:00
“以為是六個(gè)博士,結(jié)果是六個(gè)送外賣(mài)的!”六個(gè)兒子征婚視頻火了

“以為是六個(gè)博士,結(jié)果是六個(gè)送外賣(mài)的!”六個(gè)兒子征婚視頻火了

阿凱銷(xiāo)售場(chǎng)
2026-03-01 01:46:42
俄媒:伊朗總統(tǒng)府表示哈梅內(nèi)伊之死不會(huì)沒(méi)有回應(yīng)

俄媒:伊朗總統(tǒng)府表示哈梅內(nèi)伊之死不會(huì)沒(méi)有回應(yīng)

參考消息
2026-03-01 11:11:04
天塌了!柳州一已婚女子出軌感染艾滋,涉事小伙是工廠班組長(zhǎng)…

天塌了!柳州一已婚女子出軌感染艾滋,涉事小伙是工廠班組長(zhǎng)…

火山詩(shī)話(huà)
2026-03-02 05:47:48
超20000名旅客滯留!上海大學(xué)生:因?yàn)橐粓?chǎng)急病,提前逃出迪拜,感嘆“差點(diǎn)沒(méi)法上學(xué)”

超20000名旅客滯留!上海大學(xué)生:因?yàn)橐粓?chǎng)急病,提前逃出迪拜,感嘆“差點(diǎn)沒(méi)法上學(xué)”

新民晚報(bào)
2026-03-01 20:44:34
1.2億農(nóng)村老人,每月只領(lǐng)200元養(yǎng)老金,買(mǎi)兩袋米就沒(méi)了。

1.2億農(nóng)村老人,每月只領(lǐng)200元養(yǎng)老金,買(mǎi)兩袋米就沒(méi)了。

流蘇晚晴
2026-02-26 18:18:15
“讓領(lǐng)導(dǎo)先走”=“倚天不出,誰(shuí)與爭(zhēng)鋒”

“讓領(lǐng)導(dǎo)先走”=“倚天不出,誰(shuí)與爭(zhēng)鋒”

張佳瑋寫(xiě)字的地方
2026-03-01 10:09:57
韓寒和郭敬明:20年了,終于一個(gè)天上,一個(gè)地下

韓寒和郭敬明:20年了,終于一個(gè)天上,一個(gè)地下

陳意小可愛(ài)
2026-03-01 13:23:13
向美國(guó)捐8億被罵叛徒!無(wú)錫唐氏21代掌門(mén):我的錢(qián)只認(rèn)文明歸屬

向美國(guó)捐8億被罵叛徒!無(wú)錫唐氏21代掌門(mén):我的錢(qián)只認(rèn)文明歸屬

談史論天地
2026-02-10 08:16:24
2026-03-02 11:04:49
知危 incentive-icons
知危
投資不立危墻之下
539文章數(shù) 1833關(guān)注度
往期回顧 全部

科技要聞

榮耀發(fā)布機(jī)器人手機(jī)、折疊屏、人形機(jī)器人

頭條要聞

牛彈琴:伊朗之戰(zhàn)比俄烏之戰(zhàn)更生猛 給世界5個(gè)深刻教訓(xùn)

頭條要聞

牛彈琴:伊朗之戰(zhàn)比俄烏之戰(zhàn)更生猛 給世界5個(gè)深刻教訓(xùn)

體育要聞

卡里克主場(chǎng)5連勝!隊(duì)史第2人通過(guò)最大考驗(yàn)

娛樂(lè)要聞

美伊以沖突爆發(fā),多位明星被困中東

財(cái)經(jīng)要聞

中東局勢(shì)影響如何?十大券商策略來(lái)了

汽車(chē)要聞

小米發(fā)布超跑! 游戲中對(duì)標(biāo)布加迪法拉利

態(tài)度原創(chuàng)

游戲
數(shù)碼
時(shí)尚
旅游
公開(kāi)課

知名可靠消息人士談《巫師3》DLC:它確實(shí)存在!

數(shù)碼要聞

內(nèi)存成本前所未有:入門(mén)級(jí)PC將完全消失!不漲價(jià)根本不行

從每天只睡4小時(shí)到8小時(shí):一個(gè)失眠者的自救指南

旅游要聞

2月大事件集錦 | 一文讀遍旅游行業(yè)“新鮮事”!

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版