国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

奧特曼發(fā)紅色警報,大模型走進死胡同了嗎?

0
分享至


昨天,OpenAI CEO奧特曼發(fā)出了一份內(nèi)部備忘錄,宣布公司進入“Code Red”(紅色警報)緊急狀態(tài)。

表面上看,這是OpenAI針對谷歌、Anthropic這兩位強力競爭對手的應急響應。

但更深層的問題是,OpenAI正在面臨一個整個行業(yè)都無法回避的技術(shù)困境。那就是訓練成本飆升,模型規(guī)模不斷擴大,但性能提升卻越來越有限。

根據(jù)斯坦福大學的《2025年AI指數(shù)報告》,2019年到2022年間,訓練成本每增加10倍,模型在主流基準測試上的性能平均能提升25%-35%。但到了2023年之后,同樣10倍的成本投入,性能提升就只剩下10%-15%。

更糟糕的是,2024年以來,即使訓練成本再翻倍,性能提升往往不足5%,投入產(chǎn)出比正在斷崖式下跌。

各家頭部模型的表現(xiàn)開始趨同,仿佛集體撞上了某種看不見的天花板。

這引發(fā)了一個在AI學術(shù)界和產(chǎn)業(yè)界激烈爭論的問題:大語言模型,是否已經(jīng)走進了死胡同?

01

首先從用戶數(shù)據(jù)來看,OpenAI的領(lǐng)先地位已經(jīng)開始動搖。

谷歌的Gemini 3模型在基準測試上超越了OpenAI,這使得Gemini的月活用戶飆升,谷歌第三季度財報披露,目前Gemini的月活已經(jīng)從7月的4.5億增長到10月的6.5億。

與此同時,Anthropic的Claude也在企業(yè)客戶中越來越受歡迎。根據(jù)OpenRouter的數(shù)據(jù),截至2025年11月末,Claude的周訪問量達0.41億人次,較六周前增長17.1%。


但更要命的消息還在后面。

根據(jù)半導體行業(yè)分析公司SemiAnalysis的爆料,自2024年5月GPT-4o發(fā)布以來,OpenAI的頂尖研究人員就再也沒有成功完成過一次大規(guī)模的全面預訓練。

這意味著GPT-5跟GPT-4o之間,其實沒有經(jīng)歷真正意義上的代際升級,更像是在GPT-4o基礎(chǔ)上做的微調(diào)和優(yōu)化,而不是一個全新訓練出來的模型。

SemiAnalysis還在分析中給OpenAI補了一刀:“預訓練一個前沿模型,是整個AI研發(fā)中最困難、資源最密集的挑戰(zhàn)。而谷歌的TPU平臺已經(jīng)決定性地通過了這個測試,可OpenAI并沒有。”

預訓練是訓練大語言模型的第一步,也是最關(guān)鍵的一步。在這個階段,模型要在海量的文本數(shù)據(jù)上學習語言的基本規(guī)律,比如語法、語義、事實知識等等。

無法完成大規(guī)模預訓練,就無法升級迭代到下一個時代的模型,這對于OpenAI這種必須保持技術(shù)領(lǐng)先的企業(yè)來說是致命的。

MMLU的跑分進一步佐證了SemiAnalysis的觀點。其全稱為大規(guī)模多任務語言理解(Massive Multitask Language Understanding),是衡量大模型綜合知識與推理能力的核心權(quán)威基準測試。

從結(jié)果來看,GPT-5的MMLU評分只比GPT-4提升了10%-20%。

要知道,Anthropic CEO 達里奧·阿莫迪(Dario Amodei)曾公開表示,2024-2025年期間的大模型,訓練成本是10億到20億美元,是一年前大模型訓練成本的10倍。而GPT-5的成本更是比GPT-4(約 6000萬-1億美元)高了約20-30倍。

面對如此的雙重困境,奧特曼不得不調(diào)整策略,將重心轉(zhuǎn)向優(yōu)化現(xiàn)有產(chǎn)品。

奧特曼在備忘錄中表示,公司需要改進ChatGPT的個性化功能、提高速度和可靠性、擴大其可回答的問題范圍。

為此,OpenAI決定推遲廣告、健康和購物AI代理、名為Pulse的個人助手等其他項目的開發(fā),鼓勵員工臨時調(diào)崗,每天召開專門會議討論ChatGPT的改進。

在此之前,OpenAI曾于2025年10月拉響過“Code Orange”(橙色警報)。

OpenAI內(nèi)部的警報分為三個級別:黃色、橙色、紅色。顏色越紅,就代表事態(tài)越嚴重。而拉響內(nèi)部警報的標準,是根據(jù)OpenAI當前的市場競爭壓力和產(chǎn)品危機。

橙色警報對應明確的競爭威脅或產(chǎn)品危機,核心業(yè)務已出現(xiàn) “被動局面”,比如市場份額被蠶食、用戶流失。需要OpenAI “局部資源傾斜” 應對。

當時OpenAI的做法是成立 “應急優(yōu)化小組”,由產(chǎn)品、技術(shù)、算法核心負責人牽頭,調(diào)配 50% 以上的研發(fā)資源聚焦核心產(chǎn)品。

02

但OpenAI不是唯一陷入瓶頸的公司,整個行業(yè)都在面臨同樣的困境。

從2024年底到2025年初,頂尖大模型的性能提升曲線出現(xiàn)了明顯的平緩。根據(jù)LMSYS Chatbot Arena的盲測數(shù)據(jù),2024年6月時,排名第一和第十的模型之間Elo評分差距超過150分。

但到2025年11月,這個差距已經(jīng)收窄到不足50分。更值得注意的是,幾乎所有主流模型在關(guān)鍵基準測試上的得分都開始集中在一個狹窄的區(qū)間內(nèi)。這種趨勢意味著,即使各家公司投入的資源差異巨大(從數(shù)千萬美元到數(shù)十億美元不等),但最終產(chǎn)出的模型性能卻越來越相似。

在2023年3月,OpenAI剛發(fā)布GPT-4時,其在MMLU測試中的得分確實為86.4%。而當時主流競爭對手的成績大多集中在60%-75%區(qū)間,比如同期的Claude v1在該測試中得分僅為75.6%,LLaMA-65則只有 63.4%。

可是到了2025年9月的MMLU-Pro(MMLU的進階版評測基準,評分標準更嚴格)中,所有的頭部模型都是85%到90%,幾乎沒有任何差別。

從更新的頻率來看,Meta的Llama模型從第二代到第三代間隔約9個月,而Llama 3到計劃推出的Llama 4間隔已超15個月;Anthropic從Claude 3到Claude 4的間隔也長達11個月。

種種跡象都在表明,曾經(jīng)被奉為大語言模型黃金定律的Scaling Law,正在失效。

造成這一結(jié)果的原因,其實就來自于大模型本身。

大模型訓練的核心任務是“預測下一個詞”。

通過在海量文本上反復訓練這個任務,模型逐漸學會了語法、常識、推理能力等。當模型已經(jīng)足夠強,明白語法和常識時,語言本身的不確定性就成為了影響模型輸出結(jié)果的變量。

舉個例子:“他把蘋果放在桌子上,然后它就不見了?!边@里的“它”是指蘋果還是桌子?從語法上講,兩種理解都說得通。要搞清楚“它”指什么,需要的不是更好的語法知識,而是對現(xiàn)實世界的常識判斷。

但如果換一種說法:“他把手機放在桌子上,然后它就倒了?!边@里的“它”可能是手機,也可能是桌子。如果是廉價折疊桌,確實可能因為放了個手機就倒了;如果是手機殼打開了,手機本身也可能倒。沒有足夠的上下文,連人類也很難做出準確判斷。

這種由語言本身的歧義和不確定性造成的誤差,在統(tǒng)計學上叫“不可約誤差”(Irreducible Error),或者“貝葉斯誤差率”(Bayes Error Rate)。

即使你有完美的算法、無限的數(shù)據(jù)和算力,這個誤差也無法消除,它是問題本身固有的特性。


人類語言充滿了這種不確定性。我們平時說話,很多信息靠語境、肢體語言、聲調(diào)、共同背景知識來傳遞。把這些都去掉,只留下純文本,信息損失巨大。

大語言模型訓練的就是這些純文本,所以天生就會面臨不可約誤差的限制。

當模型還比較弱時,它會犯很多低級錯誤,比如語法錯誤、事實錯誤、邏輯錯誤。解決這些可以通過增加數(shù)據(jù)、增大模型、改進算法來實現(xiàn)。但當模型已經(jīng)足夠強,不再犯低級錯誤時,剩下的錯誤主要就是這種不可約的、由語言本身特性造成的誤差。

到這個階段,再怎么砸錢砸資源,提升也是有限的。

第二個問題是數(shù)據(jù)枯竭。到GPT-4的時候,OpenAI幾乎已經(jīng)把整個互聯(lián)網(wǎng)上的高質(zhì)量文本都學完了。各種百科、數(shù)字圖書館、GitHub代碼、Reddit討論、各種專業(yè)論文和文檔。

能用的高質(zhì)量數(shù)據(jù)基本都用完了。剩下的是大量低質(zhì)量內(nèi)容,比如廣告軟文、垃圾帖子、重復內(nèi)容、機器生成的垃圾信息。

要解決數(shù)據(jù)不足,一些廠商開始用AI生成數(shù)據(jù)來訓練AI。但這會導致一個嚴重問題,叫“模型崩潰”(Model Collapse)。簡單說,如果一個模型只吃自己或其他模型產(chǎn)出的數(shù)據(jù),它的多樣性會下降,甚至會放大自身的錯誤和偏見,最終導致模型變得越來越笨,輸出越來越單調(diào)。

這個過程有點像生物學上的近親繁殖。在生物界,如果一個種群長期近親繁殖,基因多樣性會逐漸喪失,遺傳缺陷會被放大,最終導致種群退化。模型崩潰也是同樣的道理。

2024年發(fā)表在Nature上的一篇論文《當 AI 模型在遞歸生成的數(shù)據(jù)上訓練時,會出現(xiàn)性能崩潰》(AI models collapse when trained on recursively generated data),就系統(tǒng)研究了這個問題。研究人員發(fā)現(xiàn),在早期模型崩潰階段,模型會首先丟失數(shù)據(jù)分布尾部的信息。到了后期,整個數(shù)據(jù)分布會收斂到一個非常狹窄的范圍,跟原始數(shù)據(jù)幾乎沒有相似之處。

研究人員做過實驗:用一個預訓練好的語言模型生成一批文本,然后用這批文本訓練新模型,再用新模型生成文本,再訓練更新的模型……如此反復幾代后,模型的輸出變得越來越單調(diào)、重復,原本數(shù)據(jù)中那些出現(xiàn)頻率較低但很重要的信息(比如專業(yè)領(lǐng)域知識、小眾但正確的觀點)逐漸消失了。

每一代模型生成數(shù)據(jù)時,都會傾向于生成那些在訓練數(shù)據(jù)中最常見、最“安全”的內(nèi)容。那些出現(xiàn)頻率低的、邊緣的信息,在生成的數(shù)據(jù)中出現(xiàn)概率會更低。經(jīng)過幾代迭代,這些信息就徹底丟失了。

更麻煩的是,現(xiàn)在互聯(lián)網(wǎng)上已經(jīng)充斥著大量AI生成的內(nèi)容。ChatGPT發(fā)布后,網(wǎng)絡上的文章、社交媒體帖子、甚至學術(shù)論文,都開始出現(xiàn)越來越多AI生成痕跡。

如果未來模型通過爬取互聯(lián)網(wǎng)獲取訓練數(shù)據(jù),不可避免地會把這些AI生成內(nèi)容也包含進去。這意味著,模型崩潰不再只是實驗室里的理論問題,而是整個AI行業(yè)都將面臨的實際威脅。

03

關(guān)于大語言模型是否進入了死胡同,這個問題其實一直充滿爭議。

以AI教母李飛飛為代表的維新派認為:大語言模型不是萬能的,它只是AI系統(tǒng)中的一個組件。要實現(xiàn)真正的人工智能,需要把不同類型的任務分配給不同類型的模型。

李飛飛曾直言不諱地說,AGI是一個營銷術(shù)語,不是科學術(shù)語?,F(xiàn)如今真正缺失的不是“通用智能”,而是“空間智能”,也就是理解和操作三維物理世界的能力。

她認為,未來的AI系統(tǒng)可能是“世界模型”(World Model)。它的核心能力是理解三維空間、物理規(guī)律和因果關(guān)系。它不是通過學習文本理解世界,而是通過觀察視頻、圖像、傳感器數(shù)據(jù)來建立對物理世界的認知。

世界模型使用嚴格的邏輯規(guī)則和數(shù)學證明技術(shù),而不是像現(xiàn)在的大語言模型一樣依賴統(tǒng)計模式。

谷歌DeepMind開發(fā)的AlphaGeometry就是這個方向的例子,它能夠解決奧林匹克競賽級別的幾何問題,靠的不是語言模型,而是符號推理系統(tǒng)和神經(jīng)網(wǎng)絡的結(jié)合。

圖靈獎得主、Meta前首席AI科學家楊立昆(Yann LeCun)對語言模型路徑的批評更加直接。他形容這條路徑是“給鸚鵡喂更大的芯片”。


在他看來,語言模型只是在學習統(tǒng)計規(guī)律,在做模式匹配,并沒有真正理解世界。要實現(xiàn)真正的智能,必須讓AI建立對物理世界的模型,理解物體、空間、時間、因果關(guān)系這些基本概念。

彼時,大語言模型將會成為“翻譯官”。當用戶用自然語言提出需求時,大語言模型負責理解需求,把它翻譯成機器能處理的指令,分配給合適的像是世界模型這樣的子系統(tǒng)來執(zhí)行。

當任務完成后,大語言模型再把結(jié)果翻譯成自然流暢的人類語言輸出給用戶。

OpenAI和Anthropic則是守舊派。

奧特曼認為,只要把語言模型繼續(xù)放大,投入更多數(shù)據(jù)和算力,智能就會“自動涌現(xiàn)”。

他相信,當模型規(guī)模達到某個臨界點時,會突然展現(xiàn)出質(zhì)的飛躍,獲得真正的理解能力和推理能力。這個觀點在業(yè)內(nèi)被稱為“scaling hypothesis”(規(guī)模假說)。

OpenAI聯(lián)合創(chuàng)始人兼首席科學家伊爾亞·蘇茲科維(Ilya Sutskever)的觀點是壓縮就是理解。

他坦言,“如果你能把全世界的數(shù)據(jù)無損地壓縮進一個大語言模型的神經(jīng)網(wǎng)絡,那么這個模型就在內(nèi)部構(gòu)建出了一個關(guān)于這個世界的真實模型?!?/p>

Anthropic的聯(lián)合創(chuàng)始人杰拉德·卡普蘭(Jared Kaplan)則認為語言模型本身可能不是智能,但可以成為智能的基礎(chǔ)。他認為通過改進訓練方法、增強安全性對齊、結(jié)合其他技術(shù),語言模型路徑仍然有潛力達到AGI。

MIT的認知學家伊芙琳娜·費多林柯(Evelina Fedorenko)以及多位MIT和伯克利的學者,在《Nature》期刊上發(fā)表文章,他們指出:語言不是思維,人類的思維是獨立于語言的。嬰兒在學會說話之前就已經(jīng)有了對物理世界的理解,對因果關(guān)系的認知。盲人和聾人雖然缺失某些感官通道,但思維能力并不受影響。

語言主要是交流工具而非思維工具,語言模型也就不可能是真正的人工智能。


歡迎在評論區(qū)留言~
如需開白請加小編微信:dongfangmark


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
官方:遼寧鐵人中場邦本宜裕加盟中甲延邊龍鼎

官方:遼寧鐵人中場邦本宜裕加盟中甲延邊龍鼎

懂球帝
2026-01-09 10:26:41
爆冷!雨果2-3翻車,慘遭一輪游,證明樊振東太強,張本再戰(zhàn)國乒

爆冷!雨果2-3翻車,慘遭一輪游,證明樊振東太強,張本再戰(zhàn)國乒

體育就你秀
2026-01-09 03:30:03
美國千億投資打水漂后,郭臺銘想通了!帶46臺光刻機回國求賞飯

美國千億投資打水漂后,郭臺銘想通了!帶46臺光刻機回國求賞飯

奉壹數(shù)碼
2026-01-05 14:06:20
馬杜羅為何不慌?進了DEA“牢籠”,反而拿到了博弈主動權(quán)

馬杜羅為何不慌?進了DEA“牢籠”,反而拿到了博弈主動權(quán)

回旋鏢
2026-01-05 23:14:21
一不小心說出真心話:委內(nèi)是“美國境內(nèi)國家”!難怪加拿大要訪華

一不小心說出真心話:委內(nèi)是“美國境內(nèi)國家”!難怪加拿大要訪華

一口娛樂
2026-01-09 03:45:28
1945年重慶酒局,毛主席偶遇江青前夫,握手時說了3個字,讓張治中冷汗直流

1945年重慶酒局,毛主席偶遇江青前夫,握手時說了3個字,讓張治中冷汗直流

歷史回憶室
2026-01-05 11:05:14
張水華在直播說了很多,和361°沒合作,穿是懂感恩,老公不是教練

張水華在直播說了很多,和361°沒合作,穿是懂感恩,老公不是教練

阿廢冷眼觀察所
2026-01-09 11:58:37
中國U23男足0-0伊拉克,21歲真核閃耀全場,他就是下一個鄭智

中國U23男足0-0伊拉克,21歲真核閃耀全場,他就是下一個鄭智

國足風云
2026-01-09 00:14:25
主持人李靜自曝絕經(jīng)過程,很快失去性魅力,連男人也沒興趣了

主持人李靜自曝絕經(jīng)過程,很快失去性魅力,連男人也沒興趣了

阿器談史
2025-12-30 17:26:47
下一個萬億賽道?衛(wèi)星互聯(lián)網(wǎng)迎來黃金發(fā)展期,這些公司站上風口

下一個萬億賽道?衛(wèi)星互聯(lián)網(wǎng)迎來黃金發(fā)展期,這些公司站上風口

證券市場周刊
2026-01-08 14:38:20
從警30多年的“老公安”秦書偉,任上被查

從警30多年的“老公安”秦書偉,任上被查

中國青年報
2026-01-08 20:13:07
CBA焦點戰(zhàn)今夜打響!CCTV5直播表,遼寧沖3連勝,山東爭5連勝

CBA焦點戰(zhàn)今夜打響!CCTV5直播表,遼寧沖3連勝,山東爭5連勝

老吳說體育
2026-01-09 10:50:24
中美日26年GDP預測出爐:美31萬億,日跌破4.5萬億,中國令人意外

中美日26年GDP預測出爐:美31萬億,日跌破4.5萬億,中國令人意外

跳跳歷史
2026-01-08 14:29:39
林徽因落選的國徽方案,網(wǎng)友看后感嘆:審美確實一絕,但真不合適

林徽因落選的國徽方案,網(wǎng)友看后感嘆:審美確實一絕,但真不合適

抽象派大師
2026-01-03 02:13:54
研究生教人騎車兩年賺27萬,當事人:市場需求大

研究生教人騎車兩年賺27萬,當事人:市場需求大

南國今報
2026-01-08 22:11:08
"永久產(chǎn)權(quán)″來了!不動產(chǎn)登記正式生效,不用糾結(jié)土地年限了!

"永久產(chǎn)權(quán)″來了!不動產(chǎn)登記正式生效,不用糾結(jié)土地年限了!

蜉蝣說
2025-12-16 19:47:24
你在火車的臥鋪上遇到過什么奇葩事?網(wǎng)友親身經(jīng)歷:真是笑噴了!

你在火車的臥鋪上遇到過什么奇葩事?網(wǎng)友親身經(jīng)歷:真是笑噴了!

戶外小阿隋
2026-01-06 11:36:14
兩位女神太美了,百看不厭,還有后面石頭上的兩個字陌生有誰認識

兩位女神太美了,百看不厭,還有后面石頭上的兩個字陌生有誰認識

情感大頭說說
2026-01-06 15:09:24
俄油價暴跌至36美元/桶,川普這盤大棋就是:讓你沒錢

俄油價暴跌至36美元/桶,川普這盤大棋就是:讓你沒錢

移光幻影
2026-01-08 17:23:48
最高9.4,這五部硬核美劇,看過的都太有眼光

最高9.4,這五部硬核美劇,看過的都太有眼光

天天美劇吧
2025-12-30 19:26:51
2026-01-09 12:31:00
直面派 incentive-icons
直面派
講述值得講述的真實故事
244文章數(shù) 236關(guān)注度
往期回顧 全部

科技要聞

17.68萬起售!何小鵬一口氣發(fā)了4款車

頭條要聞

12歲男孩在溫泉池溺水身亡 父親:身高1.4米水深1.1米

頭條要聞

12歲男孩在溫泉池溺水身亡 父親:身高1.4米水深1.1米

體育要聞

世乒賽銀牌得主,說自己夢里都是孫穎莎

娛樂要聞

檀健次戀愛風波越演越烈 上學經(jīng)歷被扒

財經(jīng)要聞

郁亮的萬科35年:從"寶萬之爭"到"活下去"

汽車要聞

上汽大眾首款“9系旗艦” ID. ERA 9X實車曝光

態(tài)度原創(chuàng)

健康
房產(chǎn)
時尚
親子
數(shù)碼

這些新療法,讓化療不再那么痛苦

房產(chǎn)要聞

豪宅搶瘋、剛需撿漏……2025年,一張房票改寫了廣州市場格局

60+女性穿搭指南來了:4招告別“大媽感”,解鎖冬日優(yōu)雅氣質(zhì)

親子要聞

真服了,一個女子懷孕了八個月了,去飯店,又喝啤酒,又抽煙

數(shù)碼要聞

普通眼鏡秒變AI眼鏡:歌爾CES 2026展示外掛配件Rox-Vision

無障礙瀏覽 進入關(guān)懷版