国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

OpenAI的新論文,為什么被業(yè)內嘲諷是營銷?

0
分享至



近期,OpenAI 發(fā)布了一篇新論文《 Why Language Models Hallucinate 》,指出當前大模型幻覺的主要來源,引發(fā)了廣泛關注。

他們給出了一個簡潔卻顛覆性的解釋:大模型之所以出現(xiàn)幻覺,并非由于模型架構的失靈,而是當前技術社區(qū)的訓練與評測機制傾向于獎勵猜測,并且懲罰承認不確定的行為,迫使模型在高度不確定時,也傾向猜測性作答以博取準確率分數(shù)。

換句話說,大多數(shù)評估基準采用一種 “ 應試考試 ” 的方式,迫使大語言模型成為 “ 應試者 ”,不管是選擇題、填空題還是解答題,如果不知道正確答案,那就猜一個甚至蒙一個,這樣在概率上也比不答分數(shù)高。

預訓練層面上,大模型通常只接觸正面示例,也就是給定提示詞,然后接著輸出完整的回答,沒有在這個過程中接觸任何拒絕回答的示例,所以自然學不會這種拒絕回答的行為。

OpenAI 拿自家模型舉了一個例子,在 SimpleQA 基準中,舊模型 o4-mini 相比新模型 GPT-5-thinking-mini 準確率略高( 22% vs. 24% ),但也有高得多的錯誤率( 75% vs. 26% ),因為它更少 “ 棄答 ”。



OpenAI據(jù)此主張:在往后的評估基準中,應對高自信的錯誤施以懲罰,并為恰當?shù)牟淮_定表達給出適當分數(shù),使激勵從 “ 大膽猜 ” 轉向 “ 知之為知之 ”,改變主流排行榜長期以 “ 準確率 ” 一項稱王的局面。

可以說,這篇研究是在把 “ 幻覺 ” 從工程缺陷轉化為技術社區(qū)的 “ 激勵設計 ” 問題。

如果真的往這個方向發(fā)展,以后真正值得關注的,將不再是誰的準確率小幅上漲,而是誰愿意重寫評測與產(chǎn)品規(guī)則,讓模型在不確定時自然地說:“ 我不知道 ”。

技術社區(qū)對該話題討論熱烈,其中對論文的詬病也不少。

有人認為這篇論文既不新穎,水平也不高,即相關研究早已經(jīng)出現(xiàn),并且這篇論文的技術水平更像是初級研究人員寫出來的。

紐約大學數(shù)據(jù)中心助理教授 Ravid Shwartz Ziv 直言這篇論文更像是一場營銷,而不是研究。



有人指出,問題的核心其實在于,幻覺的概念實際上到現(xiàn)在為止都還沒有被嚴格地定義。

雖然已有不少研究指出了幻覺的可能原因,例如模型過度自信、解碼隨機性、滾雪球效應、長尾訓練樣本、誤導性對齊訓練、虛假相關性、曝光偏差、逆轉詛咒以及上下文劫持等,但這些方法毋寧說是一種幻覺的分類。

幻覺的本質,或許可以用一個很簡單的例子來說明。

以機器學習中的曲線擬合為例,假設下圖的數(shù)據(jù)點是被用于訓練的事實,我們需要擬合一條曲線來對數(shù)據(jù)進行回歸,使其能夠準確地預測新數(shù)據(jù)。這條曲線,代表的就是模型。



圖源:網(wǎng)絡

嚴格意義上來講,不存在唯一正確的模型。因為每一種模型都具備不同的擬合度和泛化性,也都有各自的適用場景。

比如上圖中最右邊的復雜曲線擬合度更強甚至過擬合( 訓練數(shù)據(jù)準確率高 ),但泛化性弱( 測試數(shù)據(jù)準確率低 );最左邊的簡單曲線擬合度更弱甚至欠擬合( 訓練數(shù)據(jù)準確率低 ),但泛化性強( 測試數(shù)據(jù)準確率高 )。

不同曲線,可以生成不同的新數(shù)據(jù)。而任何曲線,生成的不同于訓練數(shù)據(jù)的新數(shù)據(jù),都有可能是錯的,也就是都有可能是幻覺。至于幻覺的確認,原則是只能與現(xiàn)實進行直接對比校驗,其它方式都是間接性的。

而且,機器學習或大語言模型其實都不擅長分布外泛化,也就是其泛化能力更多是在已有觀測點的范圍內估計未知值。

近期的理論研究比如 2024 年發(fā)表的論文《On the Limits of Language Generation: Trade-Offs Between Hallucination and Mode Collapse 》形式化地闡述了一致性( 避免無效輸出 )和廣度( 生成多樣化、語言豐富的內容 )之間的內在權衡。這些研究表明,對于廣泛的語言類別,任何在其訓練數(shù)據(jù)之外進行泛化的模型,要么會產(chǎn)生幻覺,要么會遭遇模式崩潰,無法生成所有有效的響應。

所以,如果保證訓練數(shù)據(jù)和測試數(shù)據(jù)( 或實際應用數(shù)據(jù) )在大致相同的數(shù)據(jù)分布范圍內,并且模型是過擬合的,基本能保證很低的錯誤率或幻覺率。

假設 “ 低幻覺 ” 大模型發(fā)展成了這個樣子,那其實它基本上就是更高效地串聯(lián)已知事實點、知識點的自然語言搜索引擎而已。

這會是OpenAI希望的結果嗎?我們假設是,然后繼續(xù)推測一下。

回過頭看《 Why Language Models Hallucinate 》這篇論文,幻覺表現(xiàn)方面,OpenAI 指出,大模型在拼寫和括號等細節(jié)基本不會出錯,但在低頻任意事實上很容易出錯。

他們引用了一個有趣的研究成果,論文 《 Calibrated Language Models Must Hallucinate 》表明即使訓練數(shù)據(jù)沒有錯誤,產(chǎn)生幻覺的概率也接近于訓練數(shù)據(jù)中恰好出現(xiàn)一次的事實的比例( “ Good-Turing ” 估計 )。相比之下,大型語言模型很少會在經(jīng)常引用的事實上出錯,例如愛因斯坦的生日或論文標題。

并且,該論文還指出,沒有統(tǒng)計學理由表明預訓練會導致對訓練數(shù)據(jù)中可能出現(xiàn)多次的事實( 例如對文章、書籍的引用 )或系統(tǒng)性事實( 例如算術計算 )產(chǎn)生幻覺。

所以,盡管這個自然語言搜索引擎很死板,但在使用時,對于查詢提示詞的拼寫、標點符號、語言表達習慣等還是能做出靈活的響應,并且對于人類多次引用或應用的知識、事實,基本能保證準確。如果是涉及單次出現(xiàn)的事實,則很可能出錯,這時候大模型會選擇拒絕回答。

這樣的大模型自然會變得很安全、可靠。對于 AI Agent 產(chǎn)品的構建或企業(yè) AI( 企業(yè) AI 將主要以 Agent 的形式交付 )的落地,都是非常好的底座。因為要發(fā)揮AI Agent 的最大限度的能力,首先要保證低幻覺,避免錯誤累積的乘積效應。

而且,企業(yè)數(shù)據(jù)通常領域獨立、長尾、稀疏,訓練出來的大模型潛在的幻覺點會很多,增加拒答率,其實類似于在代碼里增加了 Bug 日志,可以幫助企業(yè)更好地優(yōu)化模型。

但另一方面,我們能信任這個死板的自然語言搜索引擎的泛化能力嗎?也就是應對實際新問題的能力?

當然,這只是一種對 OpenAI 描繪的設想在經(jīng)典概念上的理解。對于泛化能力這一部分,其實目前沒有很好的量化方法。

這個 “ 低幻覺 ” 大模型將不會只能解決已知場景下的問題。至于在解決一個具體問題時,是否保證準確,還是需要一些間接指標來判斷。

當前并沒有很好地自動化檢測幻覺的方法,很多復雜的檢測方法,甚至只和分析響應長度方法效果相當。

最簡單粗暴的方法,就是讓 LLM 生成多個獨立答案,然后比較這些答案的一致性,但計算成本高昂,因為每個查詢都需要生成多個答案。

后續(xù)研究則在這個基礎上,利用多個答案之間的重復部分的緩存來節(jié)省計算成本。另一些方法則是比較不同模型對同一個查詢的輸出差異來分析幻覺。

目前可能最高效的方法,是在推理過程中,一邊推理,一邊計算模型內部的置信度信號,在推理過程中或推理結束后動態(tài)過濾掉低質量的推理路徑。該方法無需額外的模型訓練或超參數(shù)調整。比如論文《 DEEP THINK WITH CONFIDENCE 》依靠這種方法,基于開源模型在 AIME 2025 達到了 99.9% 的 “ @512 準確率 ”( Best-of-512 sampling ),生成的文本長度也比全并行推理方法減少了 84.7% 。



圖源:DEEP THINK WITH CONFIDENCE

置信度是非常典型的度量大模型自信程度的信號,這也是 OpenAI 指出的大模型拒絕回答時的依據(jù)。

如何理解置信度呢?簡單來說,有一種簡單的定義是,大模型推理生成下一個 token 時,下一個 token 的所有候選詞的概率分布越不均勻,越集中在少量詞,置信度越大。比如下圖中的下一個 token 的概率分布就比較符合高置信度的特點。



圖源:網(wǎng)絡

客觀來講,關于置信度的相關研究確實已經(jīng)出現(xiàn),而且還不少,概念定義和方法也非常多樣。上述提到的讓 LLM 生成多個獨立答案再分析一致性的方式,也是一種度量置信度的方法。

甚至,你可以直接讓大模型在輸出時,附加一句 “ 我有約80%的把握 ” 之類的話,或使用詞語如 “ 可能 ”、“ 不確定 ”來表達置信度。這就有點 “ 玄學 ” 的味道了,但確實實驗統(tǒng)計上有效。論文《 Just Ask for Calibration 》通過實驗發(fā)現(xiàn),在提示詞中加入不確定性表達,可以顯著提高 GPT-3 答案的準確性和模型校準度。

OpenAI 這篇論文的創(chuàng)新之處不在于提出的方法,更像是一種面向大模型技術社區(qū)的倡議,如果社區(qū)集體能夠認同其觀點,后續(xù)大模型將會朝著不鼓勵猜測答案的方向發(fā)展。

在論文中,OpenAI 也確實指出,“ 這種懲罰不確定答案的 ‘ 流行病 ’ 只能通過社會技術緩解措施來解決 ”。

而作為大模型時代的奠基者,OpenAI 確實具備這樣的號召力。

那么,OpenAI 如此倡導,背后有沒有更深層次的理由?

結合 GPT-5 的低幻覺招牌,低幻覺率對 AI Agent、企業(yè)AI的重要性,企業(yè)數(shù)據(jù)的稀疏性,以及 OpenAI 近期的關鍵舉措,包括收購并合并 io Products 推進硬件布局、成立 “ 應用 ” 板塊并任命 Fidji Simo 為 Applications CEO 等。

只能猜測,OpenAI 希望社區(qū)認可 GPT-5的 成就,強調 GPT-5 或后續(xù)模型( 如果有的話 )對AI Agent、企業(yè)應用的優(yōu)勢所在

以及,他們自己也要認真做應用了。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
張鎮(zhèn)麟爆發(fā)太瘋狂,遼寧隊被迫簽第五名外援,史上最差交易

張鎮(zhèn)麟爆發(fā)太瘋狂,遼寧隊被迫簽第五名外援,史上最差交易

宗介說體育
2026-01-04 21:00:02
抓馬杜羅非開戰(zhàn)!美高官辯稱是緝毒 遭國內政界強烈反駁

抓馬杜羅非開戰(zhàn)!美高官辯稱是緝毒 遭國內政界強烈反駁

驚奇理查茲
2026-01-05 08:16:21
李在明和金惠景抵達北京,金惠景穿寶藍色大衣漂亮,保鏢高大帥氣

李在明和金惠景抵達北京,金惠景穿寶藍色大衣漂亮,保鏢高大帥氣

娛圈小愚
2026-01-05 09:28:50
吉林省副省長王子聯(lián)已任吉林省委常委

吉林省副省長王子聯(lián)已任吉林省委常委

澎湃新聞
2026-01-04 20:46:31
崔鳳祥捐國博佛像20年失蹤,全網(wǎng)都在追問誰掉包了?后續(xù)來了!

崔鳳祥捐國博佛像20年失蹤,全網(wǎng)都在追問誰掉包了?后續(xù)來了!

眼光很亮
2026-01-02 17:00:07
官媒下場點名!“皇子”登基觀眾不買賬,內娛世襲制為何惹眾怒

官媒下場點名!“皇子”登基觀眾不買賬,內娛世襲制為何惹眾怒

以茶帶書
2025-12-11 12:36:49
"崩老頭"火了!年輕女性在網(wǎng)上釣中年男性,索要小額紅包節(jié)日大紅包

"崩老頭"火了!年輕女性在網(wǎng)上釣中年男性,索要小額紅包節(jié)日大紅包

互聯(lián)網(wǎng)大觀
2025-12-12 15:14:03
人民幣升值破7,中國GDP重估,中美經(jīng)濟差距縮小?

人民幣升值破7,中國GDP重估,中美經(jīng)濟差距縮???

壹號股權
2026-01-04 13:50:20
外媒:馬杜羅身邊有內鬼向美軍通風報信

外媒:馬杜羅身邊有內鬼向美軍通風報信

上觀新聞
2026-01-04 10:06:04
1949年,衛(wèi)立煌抵達香港的消息傳到中央,毛主席當即下令:立刻通知合肥縣政府,對他的家屬加以保護、免受驚擾

1949年,衛(wèi)立煌抵達香港的消息傳到中央,毛主席當即下令:立刻通知合肥縣政府,對他的家屬加以保護、免受驚擾

寄史言志
2026-01-03 14:13:26
韓國教授:漢朝前中國一直歸屬韓國統(tǒng)治,外國網(wǎng)友評論出奇一致

韓國教授:漢朝前中國一直歸屬韓國統(tǒng)治,外國網(wǎng)友評論出奇一致

小豫講故事
2026-01-04 06:00:05
小S組織多人運動趴體!女網(wǎng)紅無縫銜接!

小S組織多人運動趴體!女網(wǎng)紅無縫銜接!

八卦瘋叔
2026-01-04 11:51:07
特朗普登機訪華前,美方搶先通告全球,中國已經(jīng)買了800萬噸大豆

特朗普登機訪華前,美方搶先通告全球,中國已經(jīng)買了800萬噸大豆

擲低有聲
2026-01-04 19:05:22
國博佛像最新回應!文物疑似被以1200多萬拍賣,崔老賬號已被處理

國博佛像最新回應!文物疑似被以1200多萬拍賣,崔老賬號已被處理

天天熱點見聞
2026-01-05 08:14:35
湖北美術館發(fā)生火災,官方通報館藏作品未受影響,評論區(qū)一言難盡

湖北美術館發(fā)生火災,官方通報館藏作品未受影響,評論區(qū)一言難盡

眼光很亮
2026-01-03 22:40:13
中美芯片攤牌!現(xiàn)實比封鎖更狠:美國不賣芯片,是想抽中國脊梁

中美芯片攤牌!現(xiàn)實比封鎖更狠:美國不賣芯片,是想抽中國脊梁

現(xiàn)代小青青慕慕
2025-12-24 17:08:15
父母千萬身家,追男星漂亮舍得花錢就行?揭秘30歲司曉迪真實背景

父母千萬身家,追男星漂亮舍得花錢就行?揭秘30歲司曉迪真實背景

青橘罐頭
2026-01-04 19:42:26
雷軍拆車直播兩小時,多個直播間關閉評論區(qū),為啥越拆爭議越多?

雷軍拆車直播兩小時,多個直播間關閉評論區(qū),為啥越拆爭議越多?

眼光很亮
2026-01-04 01:31:34
折磨人的生理反應有哪些?網(wǎng)友:排卵期就想穿性感一點

折磨人的生理反應有哪些?網(wǎng)友:排卵期就想穿性感一點

帶你感受人間冷暖
2026-01-04 00:10:07
看了赫本的老年狀態(tài),才發(fā)現(xiàn):衣穿長、發(fā)盤起,老了干瘦也貴氣!

看了赫本的老年狀態(tài),才發(fā)現(xiàn):衣穿長、發(fā)盤起,老了干瘦也貴氣!

小陳聊搭配
2025-12-28 19:05:57
2026-01-05 10:31:00
知危 incentive-icons
知危
投資不立危墻之下
516文章數(shù) 1829關注度
往期回顧 全部

科技要聞

雷軍新年首播:確認汽車業(yè)務降速

頭條要聞

牛彈琴:美國露出獠牙 現(xiàn)在有三個國家感到最危險

頭條要聞

牛彈琴:美國露出獠牙 現(xiàn)在有三個國家感到最危險

體育要聞

女子世界第一,9年前在咖啡店洗碗

娛樂要聞

《小城大事》上星央八 熱血筑夢正當時

財經(jīng)要聞

李迅雷:擴內需要把重心從"投"轉向"消"

汽車要聞

最高續(xù)航310km 嵐圖泰山8或將上半年發(fā)布

態(tài)度原創(chuàng)

藝術
親子
健康
本地
公開課

藝術要聞

掌握狂草書法的四個要點,助你技藝精進。

親子要聞

向太慈母多敗兒?原生家庭會帶來多大傷害?

這些新療法,讓化療不再那么痛苦

本地新聞

即將過去的2025年,對重慶的影響竟然如此深遠

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版