斯坦福HAI報告揭示AI在科學(xué)領(lǐng)域表現(xiàn)

2026-04-20 08:10:55　來源: Ai時代前沿

北京舉報

分享至

根據(jù)斯坦福大學(xué)以人為本人工智能中心（HAI）發(fā)布的最新人工智能指數(shù)（AI Index）報告，人工智能在一系列專業(yè)領(lǐng)域的進展持續(xù)加速。在科學(xué)、數(shù)學(xué)和推理方面，多個前沿AI模型現(xiàn)已達到或超越博士級問題的基準(zhǔn)線。然而，AI模型仍存在缺限，其在現(xiàn)實世界中的應(yīng)用方式也仍有不足。

斯坦福HAI中心的AI Index報告具有較高價值，因為它們收集的是運行于現(xiàn)實世界的AI模型的硬數(shù)據(jù)，而非僅詢問人們的意見（HAI也開展這方面的調(diào)查）。在2026年的報告中，HAI研究了多種AI模型的已發(fā)表基準(zhǔn)測試結(jié)果，發(fā)現(xiàn)它們持續(xù)以驚人速度改進。

例如，研究人員發(fā)現(xiàn)，前沿模型在"人類終極考試"（Humanity's Last Exam）上一年內(nèi)提升了30個百分點——這是一個由近1000名學(xué)科專家（主要是教授、研究人員和研究生學(xué)位持有者）出題組成的基準(zhǔn)測試。HAI在報告中指出，"人類終極考試"旨在真正考驗AI模型的能力，但模型已變得如此強大，原本預(yù)期需要數(shù)年才能完成的評估，如今數(shù)月內(nèi)即可完成。

HAI報告稱根據(jù)Arena排行榜，2026年初排名前六的AI模型——來自Anthropic、xAI、谷歌、OpenAI、阿里巴巴和DeepSeek——在能力上已趨于收斂。Meta目前位居頂尖模型陣營之外，且在該基準(zhǔn)測試上過去22個月未有提升?？傮w而言，HAI指出，像Meta的Llama這樣的開源模型表現(xiàn)不如OpenAI等閉源模型。頂尖閉源模型與頂尖開源模型之間的差距，從2024年8月的0.3%擴大到2026年3月的3.3%。

"AI能力并未進入平臺期，而是在加速發(fā)展，并觸達比以往更多的人。"AI Index報告作者寫道，"2025年，業(yè)界生產(chǎn)了超過90%的知名前沿模型，其中多個模型現(xiàn)已在博士級科學(xué)問題、多模態(tài)推理和競賽數(shù)學(xué)方面達到或超越人類基準(zhǔn)。在關(guān)鍵編程基準(zhǔn)SWE-bench Verified上，性能在一年內(nèi)從60%提升至接近100%的人類基準(zhǔn)線。組織采用率達88%，五分之四的大學(xué)生現(xiàn)使用生成式人工智能（GenAI）。"

在科學(xué)領(lǐng)域，AI模型持續(xù)取得大幅進展。然而，其整體實用性表現(xiàn)參差不齊。例如，HAI指出，前沿模型現(xiàn)已普遍超越人類化學(xué)家，這一點由ChemBench證明——這是一個旨在評估大語言模型化學(xué)知識和推理能力的基準(zhǔn)測試。據(jù)HAI介紹，最佳AI模型現(xiàn)已在ChemBench超過2700道化學(xué)問題上超越人類專家平均水平。

HAI還提及Polymathic的AION-1的發(fā)布——這是首個天文學(xué)基礎(chǔ)模型，并指出天氣預(yù)報領(lǐng)域的重大進展，包括FourCastNet 3全球天氣模型和劍橋大學(xué)開發(fā)的Aardvark Weather AI預(yù)報器。

HAI還指出，2025年首篇完全由AI生成的論文被同行評議研討會接收。Sakana的AI Scientist-v2模型生成了一篇被ICLR研討會接收的論文，且未使用任何人工模板；該論文此后已被《自然》期刊接受發(fā)表。HAI表示，谷歌的AI Co-Scientist在三個生物醫(yī)學(xué)領(lǐng)域得到驗證。

盡管取得這些進展，AI的科學(xué)能力庫仍存在空白，包括復(fù)現(xiàn)科學(xué)研究的能力。HAI指出，前沿模型在ReplicationBench的天體物理學(xué)論文級復(fù)現(xiàn)任務(wù)上得分低于20%——這是2025年由斯坦福和多倫多大學(xué)研究人員引入的框架，用于評估AI輔助天體物理學(xué)研究的有效性。HAI還指出，LLM智能體在UnivEarth上回答地球觀測問題的準(zhǔn)確率僅為33%——這是為衡量AI輔助地球觀測和地理空間分析研究可靠性而創(chuàng)建的基準(zhǔn)測試。此外，LLM智能體的代碼在UnivEarth上的失敗率達58%。

科學(xué)LLM智能體處理端到端任務(wù)的能力也尚未達標(biāo)。HAI指出，最佳智能體在康奈爾大學(xué)研究人員去年推出的PaperArena評估工具上達到38.8%的準(zhǔn)確率，而博士專家基準(zhǔn)為83.5%。前沿模型在BixBench衡量的現(xiàn)實世界生物信息學(xué)分析中準(zhǔn)確率約為17%——這是去年推出的計算生物學(xué)基準(zhǔn)測試。

AI在醫(yī)學(xué)領(lǐng)域也在取得進展，這在AI Index中占據(jù)完整一章。得益于AI轉(zhuǎn)錄準(zhǔn)確性的廣泛提升，醫(yī)生在就診后撰寫病歷的時間減少了高達83%。報告指出，這對減少職業(yè)倦怠產(chǎn)生了實質(zhì)性影響。AI在疾病診斷方面也展現(xiàn)出一定技能，微軟的AI診斷編排器（利用OpenAI的o3）證明了這一點——在一項復(fù)雜已發(fā)表病例研究測試中準(zhǔn)確率達85.5%。相比之下，"無輔助醫(yī)生"（意味著無法使用其"常規(guī)工具"）僅得分20%。

但AI模型在衡量端到端科學(xué)工作流的PaperArena等基準(zhǔn)上尚未達到人類基準(zhǔn)。

AI Index指出，分子生物學(xué)領(lǐng)域正出現(xiàn)向更小模型的轉(zhuǎn)變。HAI提到MSA Pairformer的報道——這是一個1.11億參數(shù)的蛋白質(zhì)語言模型，盡管參數(shù)量少兩個數(shù)量級，卻在ProteinGym基準(zhǔn)上超越了此前的領(lǐng)先者。報告還指出，2億參數(shù)的基因組學(xué)模型GPN-Star超越了400億參數(shù)的模型。

盡管AI已取得長足進步，但仍存在一些差距，這導(dǎo)致了AI的"鋸齒狀前沿"問題。例如，還存在一個奇怪的問題：AI模型無法可靠地讀取時間。據(jù)斯坦福HAI介紹，頂尖模型讀取模擬時鐘的正確率僅為50.1%。

幻覺問題仍然存在。GPT-4o的準(zhǔn)確率從98.2%下降至64.4%，而DeepSeek R1從約90%下降至14.4%。

模型還會區(qū)分"虛假陳述"的歸屬主體。"當(dāng)虛假陳述被呈現(xiàn)為其他人相信的內(nèi)容時，模型能夠妥善處理。"AI Index作者寫道，"當(dāng)同樣的虛假陳述被呈現(xiàn)為用戶自己相信的內(nèi)容時，性能便急劇下降。"

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.