国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

能解奧數(shù),不會(huì)看鐘:斯坦福2026年AI報(bào)告的15個(gè)判斷

0
分享至


4月13日,斯坦福大學(xué)人本AI研究所(HAI)發(fā)布了2026年度AI Index報(bào)告。400多頁,覆蓋技術(shù)能力、投資格局、就業(yè)影響、公眾認(rèn)知,是這個(gè)行業(yè)迄今最完整的第三方年度審計(jì)。

這份報(bào)告從2017年開始連續(xù)發(fā)布,今年的結(jié)論可以用一句話概括:AI的能力正在以從未有過的速度跑贏一切——跑贏監(jiān)管框架,跑贏公眾信任,跑贏教育體系,甚至跑贏AI公司自己對(duì)信息透明度的意愿。

以下是從報(bào)告中提煉的核心內(nèi)容。

原文鏈接:https://hai.stanford.edu/ai-index/2026-ai-index-report

一、科學(xué)能解奧數(shù),不會(huì)看鐘

先從一個(gè)細(xì)節(jié)說起。

今年的報(bào)告里有一張圖,橫軸是時(shí)間,縱軸是AI在各類任務(wù)上相對(duì)于人類的表現(xiàn)。圖上有一條線幾乎是垂直上升的:代碼能力。SWE-bench Verified——衡量AI自主完成真實(shí)軟件工程任務(wù)的標(biāo)準(zhǔn)測(cè)試——在一年之內(nèi)從60%跳到了近100%。同期,AI代理處理現(xiàn)實(shí)任務(wù)的成功率從20%躍升至77.3%,網(wǎng)絡(luò)安全問題的解題率從15%飆到93%。


過去一年,Terminal-Bench 2.0 的準(zhǔn)確率顯著提升,從 2025 年 2 月的 20%提升到 2026 年初的 77.3%(見圖 2.5.2)。

Humanity's Last Exam是一套由全球近千名領(lǐng)域?qū)<夜餐O(shè)計(jì)的考題,專門為了難倒AI而生,覆蓋物理、數(shù)學(xué)、歷史、法律等幾乎所有高難度學(xué)科。2025年時(shí),排名第一的模型只能答對(duì)8.8%的題目。到今天,前沿模型的得分已經(jīng)超過50%。


2024 年至 2025 年間,HLE 模型準(zhǔn)確率提高了 30 個(gè)百分點(diǎn)(見圖 2.4.4)。一年內(nèi),準(zhǔn)確率從不到 10%躍升到38.3%

這不是線性增長(zhǎng),是躍遷。

但同一份報(bào)告里,還有另一條線——機(jī)器人完成真實(shí)家務(wù)任務(wù)的成功率,折疊衣服、洗碗這類事,至今只有12%。AI仍然不能穩(wěn)定地看懂模擬時(shí)鐘。生成連貫視頻仍然困難,多步驟規(guī)劃仍然出錯(cuò),某些專家級(jí)學(xué)術(shù)考試仍然答不對(duì)。


Gemini Deep Think 在 2025 年 IMO 中以自然語言進(jìn)行首發(fā)工作,在 4.5 小時(shí)的時(shí)間限制內(nèi)獲得 35 分(金),高于 2024 年獲得的 28 分銀獎(jiǎng)。在 ClockBench 上,頂級(jí)型號(hào)能正確讀取模擬時(shí)鐘的 50.1%,而人類則為 90.1%

能力的分布是不均勻的——某些維度已經(jīng)超越了人類可以驗(yàn)證的范圍,另一些地方仍在爬行。這是2026年AI的真實(shí)狀態(tài),也是接下來所有問題的底色。

二、美國(guó)是中國(guó)投資額的23倍,但AI人才流入已跌了89%

2025年,全球AI私人投資達(dá)到3447億美元,同比增長(zhǎng)127.5%。企業(yè)層面的AI投資總額達(dá)到5817億美元,一年翻了一倍多。

美國(guó)在這場(chǎng)軍備競(jìng)賽里出手最猛。2025年,美國(guó)AI投資額2859億美元,是排名第二的中國(guó)(124億美元)的23倍。這個(gè)差距是壓倒性的。


但同一份報(bào)告里,另一組數(shù)字指向了完全相反的方向。

2017年到2026年,AI領(lǐng)域頂尖學(xué)者移居美國(guó)的數(shù)量下降了89%。僅在過去一年,這一數(shù)字又跌了80%。

兩組數(shù)字放在一起的含義很清楚:美國(guó)在AI上砸的錢越來越多,但能用這些錢招到的最頂尖的人越來越少。錢還在涌入,但它的邊際價(jià)值正在被人才流失侵蝕。

中國(guó)的投資邏輯與此不同。報(bào)告指出,單純以私人投資額比較,會(huì)系統(tǒng)性地低估中國(guó)投入AI的資本體量。中國(guó)政府通過"政府引導(dǎo)基金"這一機(jī)制,自2000年以來在包括AI在內(nèi)的各領(lǐng)域累計(jì)部署了超過9120億美元。這筆錢不走市場(chǎng)化渠道,不出現(xiàn)在私人投資數(shù)據(jù)里,但它實(shí)實(shí)在在地存在。

在模型數(shù)量上,美國(guó)2025年發(fā)布了50個(gè)"值得關(guān)注"的模型,中國(guó)大約30個(gè),差距在縮小。在工業(yè)機(jī)器人安裝量上,中國(guó)2024年安裝了29.5萬臺(tái),美國(guó)3.42萬臺(tái),差距是8.6倍。中美在AI上走的是兩條平行賽道,正面交鋒的地方只是其中一部分。



三、22歲的程序員已經(jīng)感受到了,CEO還在說AI只是工具

就業(yè)影響的數(shù)據(jù)今年第一次清晰到無法繞開。

22到25歲的軟件開發(fā)者,從2024年以來就業(yè)人數(shù)下降了近20%。同一時(shí)期,26歲以上的同行就業(yè)人數(shù)基本持平甚至小幅增長(zhǎng)。這不是整個(gè)軟件行業(yè)在萎縮——是AI沖擊從底部開始,精準(zhǔn)地切掉了入門崗位。


自 2022 年以來,最年輕工人(22 至 25 歲)的就業(yè)人數(shù)有所下降,盡管年長(zhǎng)年齡段的員工人數(shù)持續(xù)增長(zhǎng)(見圖 4.4.29)。到 2025 年 9 月,22 至 25 歲軟件開發(fā)者的就業(yè)人數(shù)較 2022 年峰值下降了近 20%。

客服領(lǐng)域同樣出現(xiàn)了類似的模式:初級(jí)崗位在收縮,資深崗位暫時(shí)安全。

三分之一的企業(yè)高管在麥肯錫的調(diào)查中表示,預(yù)計(jì)未來一年將進(jìn)一步縮減員工規(guī)模,尤其集中在服務(wù)業(yè)、供應(yīng)鏈和軟件工程。這是關(guān)于未來的計(jì)劃,不是已經(jīng)發(fā)生的事。已經(jīng)發(fā)生的是:年輕人先感受到了。

報(bào)告的研究者同時(shí)提出了一個(gè)重要的限定:就業(yè)數(shù)據(jù)受到宏觀經(jīng)濟(jì)的干擾,無法把AI的影響完全分離出來。但他們也指出了一個(gè)反常的現(xiàn)象——AI暴露程度低的職業(yè),失業(yè)率的上升反而高于AI暴露程度高的職業(yè)。這與"AI直接替代"的簡(jiǎn)單敘事不符,背后可能有更復(fù)雜的勞動(dòng)力市場(chǎng)重構(gòu)正在發(fā)生。

AI帶來的生產(chǎn)力提升數(shù)字,報(bào)告同樣給出了:客服領(lǐng)域提升14%,軟件開發(fā)領(lǐng)域提升26%。這些增益是真實(shí)的,但享受這些增益的,是已經(jīng)在崗的、有經(jīng)驗(yàn)的工人。新進(jìn)入市場(chǎng)的年輕人,面對(duì)的是崗位數(shù)量本身正在減少的入口。

增益集中在上面,代價(jià)落在了底部。

四、模型越來越強(qiáng),告訴你它是怎么訓(xùn)練出來的公司越來越少

有一組數(shù)字在這份報(bào)告里是最少被引用的,但可能是最重要的。

Foundation Model Transparency Index,衡量主要AI公司對(duì)其模型訓(xùn)練數(shù)據(jù)、計(jì)算資源、能力邊界、風(fēng)險(xiǎn)及使用政策的披露程度。這個(gè)指標(biāo)去年的平均分是58分,今年跌到了40分。

報(bào)告的結(jié)論更直接:在透明度最低的模型里,往往是能力最強(qiáng)的那批。


人工分析開放性指數(shù)根據(jù)權(quán)重的自由訪問和許可程度,以及訓(xùn)練方法和訓(xùn)練前后數(shù)據(jù)的透明度,對(duì) AI 模型進(jìn)行 0 到 100 的評(píng)分。領(lǐng)先模型的得分較低,大多數(shù)在 100 分中的 2 到 16 分之間(見圖 3.8.1)

這是一個(gè)有意思的反轉(zhuǎn)。AI能力在加速進(jìn)化,但公眾能用來理解、審查、監(jiān)督這些能力的信息,在系統(tǒng)性減少。大型模型的訓(xùn)練數(shù)據(jù)是什么、用了多少算力、有哪些已知局限——這些本來應(yīng)該隨著能力增強(qiáng)而更受關(guān)注的問題,正在隨著能力增強(qiáng)而變得更加不透明。

公眾信任的數(shù)字也在印證這件事。全球調(diào)查中,只有31%的美國(guó)人表示信任本國(guó)政府能有效監(jiān)管AI,是所有被調(diào)查國(guó)家中倒數(shù)第二(中國(guó)是27%,墊底)。歐盟的數(shù)字是53%,差距明顯。

與此同時(shí),Gen Z對(duì)AI的情緒正在發(fā)生轉(zhuǎn)變。他們?cè)巧墒紸I最早的熱情擁躉,現(xiàn)在的調(diào)查數(shù)據(jù)顯示這一人群的焦慮和憤怒在上升。TechCrunch引用的一位研究者說得更直白:AI領(lǐng)袖們自己都在說"如果什么都不做,很多人會(huì)很慘",然后奇怪為什么公眾會(huì)焦慮。

4/5的美國(guó)高中和大學(xué)生在用AI完成學(xué)業(yè)任務(wù),但只有6%的教師表示學(xué)校有清晰的AI使用政策。能力跑在前面,框架跑在后面,中間的空白地帶是每天在使用AI的幾億個(gè)普通人。



五、訓(xùn)練一個(gè)模型,等于1.7萬輛車跑一年

AI的能力在加速,代價(jià)也在加速。只是這個(gè)代價(jià)大部分是看不見的。

報(bào)告給出的數(shù)字:xAI的Grok 4,訓(xùn)練產(chǎn)生的碳排放估計(jì)約為7.28萬噸CO?當(dāng)量,相當(dāng)于1.7萬輛汽車行駛一整年產(chǎn)生的溫室氣體。而Epoch AI的獨(dú)立估算認(rèn)為這個(gè)數(shù)字更高,約為14萬噸。

作為對(duì)比,OpenAI的GPT-4訓(xùn)練排放約5184噸,Meta的Llama 3.1 405B約8930噸。從GPT-4到Grok 4,不到兩年,單次訓(xùn)練的碳排放增加了超過10倍。

推理側(cè)的消耗同樣在積累。全年GPT-4o的推理水耗(用于冷卻數(shù)據(jù)中心服務(wù)器或水力發(fā)電),據(jù)估算可能超過1200萬人全年的飲用水需求。全球AI數(shù)據(jù)中心的總電力容量達(dá)到29.6GW,相當(dāng)于整個(gè)紐約州的峰值用電量,也與瑞士或奧地利的全國(guó)用電量相當(dāng)。

與能源消耗同步增長(zhǎng)的,是算力的集中度。Nvidia的GPU目前占全球AI算力總量的60%以上,而全球AI算力自2022年以來每年增長(zhǎng)3.3倍,累計(jì)已是2021年的30倍。整個(gè)AI系統(tǒng)的物理基礎(chǔ),正在加速向少數(shù)幾家硬件供應(yīng)商和超大規(guī)模云服務(wù)商集中。

這些成本不會(huì)出現(xiàn)在AI產(chǎn)品的價(jià)格標(biāo)簽上,也不會(huì)出現(xiàn)在生產(chǎn)力提升的統(tǒng)計(jì)數(shù)字里。但它們是真實(shí)的,只是被分?jǐn)偟搅舜髿?、地下水和電網(wǎng)里。

報(bào)告里有一個(gè)細(xì)節(jié),可以作為整篇的注腳。

AI已經(jīng)能解開數(shù)學(xué)奧林匹克競(jìng)賽的題目,但仍然不能穩(wěn)定地看懂模擬時(shí)鐘。

這個(gè)不均勻性,不是AI的bug,是這個(gè)階段的特征。某些維度的能力已經(jīng)超出了人類可以直覺驗(yàn)證的范圍,另一些維度還在爬行。而我們正處在這兩條曲線都在快速移動(dòng)的時(shí)刻——高速能力擴(kuò)張,與治理、信任、透明度的同步滑落。

斯坦福的研究者在報(bào)告序言里寫道:今年的報(bào)告揭示了"AI能做什么"與"我們準(zhǔn)備好管理它沒有"之間的裂縫正在變寬。這份報(bào)告本身能做的,是用數(shù)據(jù)讓裂縫可見。

裂縫之后怎么辦,是另一個(gè)問題。

關(guān)注硅星GenAI,獲取最新AI資訊~

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
爆料瘋傳!中南醫(yī)院“王護(hù)士長(zhǎng)”被扒,她到底有沒有問題?

爆料瘋傳!中南醫(yī)院“王護(hù)士長(zhǎng)”被扒,她到底有沒有問題?

千言娛樂記
2026-04-22 13:31:23
現(xiàn)在找工作已經(jīng)不是工資的問題了!

現(xiàn)在找工作已經(jīng)不是工資的問題了!

燈錦年
2026-04-22 20:25:02
“中年返貧三件套”,正在吞掉一代人的存款

“中年返貧三件套”,正在吞掉一代人的存款

十點(diǎn)讀書
2026-04-18 18:36:15
助攻基因!22歲曼城新核碾壓全歐中場(chǎng),藍(lán)月亮3650萬歐撿漏新梅西

助攻基因!22歲曼城新核碾壓全歐中場(chǎng),藍(lán)月亮3650萬歐撿漏新梅西

體壇老球迷
2026-04-22 11:48:46
亞洲第一美男,果真帥氣,比公認(rèn)的帥哥三浦友和都要好看

亞洲第一美男,果真帥氣,比公認(rèn)的帥哥三浦友和都要好看

老吳教育課堂
2026-04-21 17:13:58
中國(guó)的“性蕭條”時(shí)代,正式到來了

中國(guó)的“性蕭條”時(shí)代,正式到來了

律法刑道
2025-12-15 08:28:58
大跌眼鏡!“做空閨蜜”登熱搜,勸閨蜜不婚不育,自己孩子10歲了

大跌眼鏡!“做空閨蜜”登熱搜,勸閨蜜不婚不育,自己孩子10歲了

火山詩話
2026-04-20 07:28:33
廣西一4S店疑因資金鏈斷裂閉店,店內(nèi)一片狼藉,展車被清空!

廣西一4S店疑因資金鏈斷裂閉店,店內(nèi)一片狼藉,展車被清空!

黃河新聞網(wǎng)呂梁
2026-04-22 10:03:58
太火爆!上海已約滿,名額一掃而空!能保命!

太火爆!上海已約滿,名額一掃而空!能保命!

看看新聞Knews
2026-04-22 22:12:53
馬英九催促交流團(tuán),李德維強(qiáng)硬回?fù)?,馬辦漏洞百出

馬英九催促交流團(tuán),李德維強(qiáng)硬回?fù)?,馬辦漏洞百出

幾人盡棄
2026-04-23 00:53:01
廣東3消息!新大外完成體檢,徐昕鎖定兩大獎(jiǎng),薩姆納季后賽懸了

廣東3消息!新大外完成體檢,徐昕鎖定兩大獎(jiǎng),薩姆納季后賽懸了

多特體育說
2026-04-22 22:45:56
超99%發(fā)現(xiàn)率!Nature子刊:首醫(yī)大團(tuán)隊(duì)首次在活人大腦中發(fā)現(xiàn)微塑料,或與腫瘤增殖有關(guān)

超99%發(fā)現(xiàn)率!Nature子刊:首醫(yī)大團(tuán)隊(duì)首次在活人大腦中發(fā)現(xiàn)微塑料,或與腫瘤增殖有關(guān)

醫(yī)諾維
2026-04-22 19:12:36
iPhone 18 Pro 或推全新“深櫻桃色” 經(jīng)典黑色選項(xiàng)依然欠奉

iPhone 18 Pro 或推全新“深櫻桃色” 經(jīng)典黑色選項(xiàng)依然欠奉

cnBeta.COM
2026-04-23 01:04:07
4093億!馬斯克要收購(gòu)Cursor,4個(gè)00后即將封神

4093億!馬斯克要收購(gòu)Cursor,4個(gè)00后即將封神

智東西
2026-04-22 09:54:18
火遍外網(wǎng)的玩偶姐姐首次曝光全臉照和收入,評(píng)論區(qū)卻全被她顏值驚呆!

火遍外網(wǎng)的玩偶姐姐首次曝光全臉照和收入,評(píng)論區(qū)卻全被她顏值驚呆!

喬話
2026-04-21 21:16:37
我回京那日,喬府全家上下正在給養(yǎng)女過生辰/喬嬰寧謝景辭喬晚棠

我回京那日,喬府全家上下正在給養(yǎng)女過生辰/喬嬰寧謝景辭喬晚棠

航航
2026-04-21 23:36:19
老百姓大藥房等藥店被查

老百姓大藥房等藥店被查

21世紀(jì)經(jīng)濟(jì)報(bào)道
2026-04-22 21:07:31
那晚我住女朋友家,她媽說你倆今晚敢睡一個(gè)被窩,我就掀你們被子

那晚我住女朋友家,她媽說你倆今晚敢睡一個(gè)被窩,我就掀你們被子

千秋文化
2026-04-16 20:08:23
馬云的預(yù)言應(yīng)驗(yàn)了?手機(jī)掃碼付款或?qū)⑻蕴咳碌闹Ц斗绞降絹砹?>
    </a>
        <h3>
      <a href=貓叔東山再起
2026-04-22 10:30:08
“磨膝大戶”被公布,是跑步的20倍,醫(yī)生:不想軟骨磨光,早扔掉

“磨膝大戶”被公布,是跑步的20倍,醫(yī)生:不想軟骨磨光,早扔掉

垚垚分享健康
2026-04-19 14:35:09
2026-04-23 02:28:49
硅星GenAI incentive-icons
硅星GenAI
比一部分人更先進(jìn)入GenAl。
272文章數(shù) 37關(guān)注度
往期回顧 全部

科技要聞

對(duì)話梅濤:沒有視頻底座,具身智能走不遠(yuǎn)

頭條要聞

伊朗:特朗普“又說謊了”

頭條要聞

伊朗:特朗普“又說謊了”

體育要聞

網(wǎng)易傳媒再度簽約法國(guó)隊(duì)和阿根廷隊(duì)

娛樂要聞

蜜雪冰城泰國(guó)代言人 被扒出辱華黑歷史

財(cái)經(jīng)要聞

醫(yī)院專家號(hào)"秒空"!警方牽出黑色產(chǎn)業(yè)鏈

汽車要聞

純電續(xù)航301km+激光雷達(dá) 宋Pro DM-i飛馳版9.99萬起

態(tài)度原創(chuàng)

家居
藝術(shù)
時(shí)尚
數(shù)碼
本地

家居要聞

極簡(jiǎn)繪夢(mèng) 克制和諧

藝術(shù)要聞

看!這些美女的眼神能讓你心醉神迷!

用了8年還心動(dòng),這筆錢是花得真值啊

數(shù)碼要聞

寧德時(shí)代發(fā)布第三代神行超充電池:6分鐘滿電 續(xù)航1500公里

本地新聞

春色滿城關(guān)不?。座N梅浪漫盛放,吳山藏了一片四月雪

無障礙瀏覽 進(jìn)入關(guān)懷版