国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

GPT-5被吐槽沒進(jìn)步?Epoch年終報告打臉:AI在飛速狂飆,ASI更近了!

0
分享至


新智元報道

編輯:Aeneas

【新智元導(dǎo)讀】Epoch AI年終大盤點來了!出乎意料的是,AI沒有停滯,反而變快了。

最近,Epoch AI又發(fā)了不少東西。

他們在FrontierMath上測試了幾個開源權(quán)重的中文模型。

結(jié)果是,它們在1-3級的最高得分,要落后于全球頂尖AI模型大約七個月。


而在較難的第四級,幾乎所有開源中文大模型都掛了零蛋。

唯一得分的選手,只有DeepSeek-V3.2 (Thinking)。它回答對了一道題,取得了1/48 ≈ 2%的分?jǐn)?shù)。



當(dāng)然,雖然這些中文開源大模型掛蛋了,外國模型們表現(xiàn)也很差。

GPT、Gemini這些頂尖模型,在傳統(tǒng)的數(shù)學(xué)測試(比如 GSM-8k、MATH)上簡直一路飆分。然而在FrontierMath上,它們的正確率也并不高。

不過從表中可以看出,它們的表現(xiàn)至少要比中文開源模型好一些。原因是為什么呢?暫時沒找到。

而所有AI模型都考不好,是因為FrontierMath不是普通的benchmark,而是由60+名數(shù)學(xué)界頂尖專家聯(lián)手出題,更有菲爾茲獎得主背書 。

它是一套真正的數(shù)學(xué)大考卷,不是那種簡單的公式代入、算算微積分的小測驗,而是專家級的原創(chuàng)難題,覆蓋數(shù)論、實分析、代數(shù)幾何、范疇論等,甚至是科研級別、要花數(shù)小時甚至數(shù)天才能解開的難題。

這也證明了,在真正難的數(shù)學(xué)問題 上,AI 現(xiàn)在還不是「做題機(jī)器」,更像是偶爾翻到答案的小學(xué)生。

AI進(jìn)化,又加速了

此外,他們還出了一份最新數(shù)據(jù)洞察,結(jié)論令人驚喜——

AI的能力增長,比以前更快了!


他們用一個叫Epoch Capabilities Index(ECI)的綜合指標(biāo),追蹤了前沿 AI 模型能力的發(fā)展趨勢。

結(jié)果顯示:自2024年4月開始,AI 能力增長速度明顯加快——比之前的增長速度快了近一倍!

也就是說,在過去的幾年里,AI的能力不是一條穩(wěn)定的上升線——而是在某個時間點突然開始更快地往上沖刺。

背后原因就是這兩個:推理模型更強(qiáng)了,強(qiáng)化學(xué)習(xí)更受重視了。


很多人會覺得,如今的AI進(jìn)展變慢了,因為GPT-4發(fā)布后,就再沒看到巨大的飛躍。

但數(shù)據(jù)顯示,其實AI的進(jìn)步從來沒停過,只是方向和節(jié)奏變了。它一直在某些核心技能上加速,比如推理能力,而不是靠「更大模型 + 更多參數(shù)」。



年度TOP十大洞察

并且,就在剛剛,Epoch AI出了一篇硬核年終回顧。


在整個2025年,他們發(fā)布了36篇數(shù)據(jù)洞察和37篇通訊。

在這70短篇關(guān)于AI的短調(diào)查中,哪些是最受歡迎的?

Epoch AI給我們來了個年終盤點。

以下這10個調(diào)查,是最受讀者歡迎的。

前5個,是最受歡迎的數(shù)據(jù)洞察。

1.AI推理成本瘋狂降價

嚴(yán)謹(jǐn)一點說,就是LLM推理價格在不同任務(wù)中迅速但不均衡地下降。

在2023年4月至2025年3月期間,Epoch AI觀察到在同等性能水平下,每枚token的價格下降了10倍以上。

也就是說,AI每一次推理(輸出回答)的價格都下降了10倍以上。


越來越便宜,就意味著AI的普及會更加無門檻:從此,它不再是「大廠拿得起」的技術(shù),而是人人都能用得起的工具!

2.AI「大腦」正跑到你的電腦里

短短一年內(nèi),前沿AI性能就已在消費級硬件上實現(xiàn)。

目前能在消費級GPU上運行的頂級開源模型,在GPQA、MMLU、AA Intelligence和 LMArena等多項性能指標(biāo)上,并且與頂尖AI的差距不到一年,甚至更短。


既然最強(qiáng)開源模型能在普通的消費級顯卡上運行,那么在不久的將來,你的筆記本可能就能跑AI大模型了!

而且任何最前沿的AI能力,都可能在不到一年內(nèi)被公眾廣泛獲取。

3. OpenAI 2024的大多數(shù)算力,其實都用在了試驗上

媒體報道顯示,2024年OpenAI的大部分計算資源并未用于推理或訓(xùn)練,而是用于做實驗,以支持進(jìn)一步開發(fā)。


是的,不是你想的那樣:不是訓(xùn)練就是24/7為用戶提供服務(wù),它更多是在試錯、探索、實驗。

這說明,目前的AI研發(fā)仍然非常依賴大量實驗,而不只是跑幾個benchmark就完事。

同時,當(dāng)前AI的成本也大多來自于實驗,而非訓(xùn)練和部署。

4. 英偉達(dá)芯片算力,每10個月翻一倍!

自2020年以來,英偉達(dá)芯片的已部署AI計算量每年增長超過一倍。

每發(fā)布一款旗艦芯片,它在三年內(nèi)就會占據(jù)現(xiàn)有計算量的絕大部分。


所以可以說,GPU仍然是AI運算的核心燃料,而且增長速度快得飛起。

而為了維持當(dāng)前AI發(fā)展的腳步,計算資源還需要再成倍增加,老黃和其他芯片商還有的賺!

5. GPT-4和GPT-5,都是大飛躍

盡管有人吐槽OpenAI更新太快看不出進(jìn)步,但不要信他們的!

無論是GPT-4還是GPT-5,都在基準(zhǔn)測試中都實現(xiàn)了重大飛躍,大大超越了它們前代產(chǎn)品的性能。


所以,今年的AI不是微創(chuàng)新的堆疊,而是真正的能力躍遷。

那為什么GPT-5發(fā)布后,許多人感覺很失望?

這是因為,過去兩年新模型發(fā)布的頻率更高了,而非能力放緩了。

Gradient最熱TOP 5:洞見背后的思考

接下來5個,是最受歡迎的Gradient專欄文章。

Gradient是Epoch AI的專欄,專門發(fā)表簡短的快訊。

6. ChatGPT耗電驚人?并不是

GPT-4o的每次推理,平均耗能究竟是多少?

答案是,比點亮一個燈泡五分鐘的耗電量還要少。

這個結(jié)論,也得到了奧特曼的證實,和谷歌報告的每條Gemini prompt的能量成本相似。


也就是說,外界對于AI消耗能源的擔(dān)憂,其實比實際情況要夸張了。

當(dāng)然,AI的能源消耗一直在指數(shù)級增長,未來可能會成為大問題。

7. DeepSeek如何改進(jìn)了Transformer架構(gòu)?

一文講清了DeepSeek v3用哪三項核心技巧,在算力更低的情況下拿下了當(dāng)時最強(qiáng)開源模型的位置。

三個技術(shù)是,多頭潛在注意力(MLA)、混合專家(MoE)架構(gòu)的改進(jìn),以及多token預(yù)測機(jī)制。


就在這篇文章發(fā)布后三天,DeepSeek發(fā)布了R1,引起了全球AI圈的大地震。它的性能跟OpenAI o1相當(dāng),但開發(fā)成本卻是幾分之一。

整個AI圈都被上了一課:精妙的架構(gòu)創(chuàng)新 = 更低的研發(fā)成本 + 更快的落地速度。

8. 推理模型能走多遠(yuǎn)?局限在哪?

作者分析了推理訓(xùn)練的增長模式和上限。結(jié)論是:推理確實重要,但增長不會無限爆炸。


OpenAI、Anthropic在2025年初就曾表示,它們當(dāng)前的RL擴(kuò)展速度最多只能維持1–2年,很快就會觸及自身算力基礎(chǔ)設(shè)施的上限。

推理能力已經(jīng)成為模型訓(xùn)練中一個極其重要的擴(kuò)展維度,并在數(shù)學(xué)、軟件工程上帶來了非常亮眼的效果。

然而,這一方向的增長存在明顯邊界,這也意味著,2024–2025年模型能力的爆發(fā)式提升,可能很快就會放緩。

對研發(fā)規(guī)劃來說,這是重要的現(xiàn)實提醒。

9. 「AI曼哈頓計劃」有多大?

Epoch AI用曼哈頓計劃、阿波羅計劃做對比,估算出一個美國國家級AI項目可能達(dá)到的規(guī)模。

他們的結(jié)論是:這個項目足以支撐一次規(guī)模達(dá)到GPT-4的1萬倍的訓(xùn)練任務(wù)。


也就是說,當(dāng)AI被視為國家戰(zhàn)略級科技項目時,它的級別真能放大很多倍!

10.AI的最大價值,并不來自搞科研?

最后這一篇,十分有趣。

我們常常聽到一種敘事:AI一旦能自動做科研,技術(shù)就會指數(shù)級爆炸,人類生產(chǎn)力就會迎來史詩級躍遷。

但Epoch AI給出了一個更冷靜的判斷——

AI創(chuàng)造的大部分價值,可能并不是來自加速研發(fā)(R&D),而是來自對整個經(jīng)濟(jì)體系中大量工作的廣泛自動化。

這是因為,從歷史數(shù)據(jù)看,在1988–2020年這三十多年里,研發(fā)活動對整體生產(chǎn)率的貢獻(xiàn)其實相當(dāng)有限。

就算AI把「科研效率」拉滿,真正撬動經(jīng)濟(jì)的,未必是實驗室里的突破,而是日常工作方式的改變。


這里,就存在一個關(guān)鍵分歧!

要知道,像奧特曼、Demis Hassabis、Dario Amodei這些領(lǐng)軍人物,論調(diào)都是「AI自動化研發(fā),是通向爆發(fā)式增長的關(guān)鍵」。

如果這個判斷成立,那么AI的影響就會很迅猛,很劇烈。它會突然跨過「科研自動化的最后一道門檻」,在少數(shù)AI公司內(nèi)部實現(xiàn)巨大飛躍。

但Epoch AI提出的,卻是另一種可能性,也是更「社會學(xué)」的版本。

AI更可能通過一個緩慢而分散的過程,來改變世界。

不是一夜之間,而是幾年甚至幾十年,AI會逐步被不同行業(yè)、不同組織吸收,替代重復(fù)勞動。

如果真是這樣,AI的革命不會是一聲巨響,而是一場長時間的潮水。

參考資料:

https://x.com/EpochAIResearch/status/2003510001277747518

https://x.com/EpochAIResearch/status/2003559099867496872

https://epoch.ai/data-insights/ai-capabilities-progress-has-sped-up

https://x.com/EpochAIResearch/status/2003178174310678644

秒追ASI

?點贊、轉(zhuǎn)發(fā)、在看一鍵三連?

點亮星標(biāo),鎖定新智元極速推送!


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
全線爆發(fā)!油價直線拉升,白銀大漲,美股集體飄紅!

全線爆發(fā)!油價直線拉升,白銀大漲,美股集體飄紅!

證券時報e公司
2026-01-09 23:38:37
科學(xué)都這么先進(jìn)了,為什么人類至今還搞不定石油是怎么來的?

科學(xué)都這么先進(jìn)了,為什么人類至今還搞不定石油是怎么來的?

向航說
2025-12-29 00:45:03
閆學(xué)晶好友孫濤再發(fā)聲:誰要是再敢說閆學(xué)晶的壞話,我就跟誰急

閆學(xué)晶好友孫濤再發(fā)聲:誰要是再敢說閆學(xué)晶的壞話,我就跟誰急

小徐講八卦
2026-01-08 09:00:40
“凍齡岳父”火了,婚禮牽女兒被認(rèn)成“新郎”,伴娘:以為換人了

“凍齡岳父”火了,婚禮牽女兒被認(rèn)成“新郎”,伴娘:以為換人了

大果小果媽媽
2026-01-08 13:25:42
張水華笑容很燦爛!強(qiáng)調(diào)不后悔辭職 醫(yī)院同事沒了她并未變得更好

張水華笑容很燦爛!強(qiáng)調(diào)不后悔辭職 醫(yī)院同事沒了她并未變得更好

念洲
2026-01-09 10:48:15
震驚!圓明園馬首X光照出驚人真相!專家怒斥:這根本不是磨損!

震驚!圓明園馬首X光照出驚人真相!專家怒斥:這根本不是磨損!

鶴羽說個事
2025-12-31 11:36:55
探訪景德鎮(zhèn)一家三口被撞案受害者家:擺有4張全家福,3張是AI照僅1張是真的

探訪景德鎮(zhèn)一家三口被撞案受害者家:擺有4張全家福,3張是AI照僅1張是真的

上游新聞
2026-01-09 11:36:11
35歲鄭爽近況曝光!相貌大變,臉部又僵又腫,住豪宅生活很安逸

35歲鄭爽近況曝光!相貌大變,臉部又僵又腫,住豪宅生活很安逸

代軍哥哥談娛樂
2026-01-09 10:29:05
44歲秦嵐同居實錘!情侶拖鞋+見家長,偏不領(lǐng)證太清醒

44歲秦嵐同居實錘!情侶拖鞋+見家長,偏不領(lǐng)證太清醒

陳意小可愛
2026-01-09 08:29:47
保利聯(lián)手金地7.36億底價摘大連馬欄啤酒廠地塊 樓面價7454元/㎡

保利聯(lián)手金地7.36億底價摘大連馬欄啤酒廠地塊 樓面價7454元/㎡

觀點機(jī)構(gòu)
2026-01-09 20:22:16
周六007亞洲杯 23:伊朗 U23 對陣烏茲別克 U23,強(qiáng)強(qiáng)對決分析!

周六007亞洲杯 23:伊朗 U23 對陣烏茲別克 U23,強(qiáng)強(qiáng)對決分析!

一瓶卸妝水就足以毀你容
2026-01-10 05:40:03
張一鳴震驚世界,抖音估值超2萬億

張一鳴震驚世界,抖音估值超2萬億

電商派Pro
2026-01-09 10:04:20
73歲三浦友和近況曝光!不住豪宅不靠兒孫,只想陪著山口百惠老去

73歲三浦友和近況曝光!不住豪宅不靠兒孫,只想陪著山口百惠老去

代軍哥哥談娛樂
2026-01-07 10:31:39
再破3萬億!A股本輪行情將超出所有人的想象!下周大盤怎么走?

再破3萬億!A股本輪行情將超出所有人的想象!下周大盤怎么走?

扶蘇史記
2026-01-10 00:05:16
許晴一看就老了,竟然還沒張凱麗顯年輕!

許晴一看就老了,竟然還沒張凱麗顯年輕!

草莓解說體育
2026-01-07 09:12:50
2026換證大潮來襲!身份證“長期”竟是坑?這些人必須提前準(zhǔn)備

2026換證大潮來襲!身份證“長期”竟是坑?這些人必須提前準(zhǔn)備

老特有話說
2026-01-09 00:10:02
6年了,郭麒麟的反擊幾乎斷送了朱亞文的演藝生涯

6年了,郭麒麟的反擊幾乎斷送了朱亞文的演藝生涯

小熊侃史
2025-12-25 11:24:12
女護(hù)士處理男患者隱私部位,會感覺難為情嗎?美女護(hù)士說出大實話

女護(hù)士處理男患者隱私部位,會感覺難為情嗎?美女護(hù)士說出大實話

第7情感
2025-09-17 12:12:15
一場大病后才懂:退休后哪怕閑得發(fā)慌,這三個地方也少去

一場大病后才懂:退休后哪怕閑得發(fā)慌,這三個地方也少去

白云故事
2025-12-19 11:45:09
閆學(xué)晶酸黃瓜事件升級!其過往婚史被扒,人脈金錢兩手抓,不簡單

閆學(xué)晶酸黃瓜事件升級!其過往婚史被扒,人脈金錢兩手抓,不簡單

深析古今
2026-01-09 11:04:08
2026-01-10 06:23:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
14296文章數(shù) 66451關(guān)注度
往期回顧 全部

科技要聞

市場偏愛MiniMax:開盤漲42%,市值超700億

頭條要聞

媒體稱委內(nèi)瑞拉代總統(tǒng)計劃13日訪問華盛頓 委方回應(yīng)

頭條要聞

媒體稱委內(nèi)瑞拉代總統(tǒng)計劃13日訪問華盛頓 委方回應(yīng)

體育要聞

金元時代最后的外援,來中國8年了

娛樂要聞

關(guān)曉彤鹿晗風(fēng)波后露面 不受影響狀態(tài)佳

財經(jīng)要聞

投資必看!瑞銀李萌給出3大核心配置建議

汽車要聞

助跑三年的奇瑞 接下來是加速還是起跳?

態(tài)度原創(chuàng)

游戲
旅游
家居
藝術(shù)
公開課

怎么會有游戲上來就說自己的新服活不過10天啊?"/> 主站 商城 論壇 自運營 登錄 注冊 怎么會有游戲上來就說自己的新服活不過10天??? 廉頗 202...

旅游要聞

想看霧凇別瞎跑!吉林阿什哈達(dá)這 5 個觀賞秘訣,幫你避開空跑遺憾

家居要聞

木色留白 演繹現(xiàn)代自由

藝術(shù)要聞

15位著名畫家的女性之美:哪一張觸動了你的心?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版