国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

斯坦福HAI報告揭示AI在科學(xué)領(lǐng)域表現(xiàn)

0
分享至

根據(jù)斯坦福大學(xué)以人為本人工智能中心HAI發(fā)布的最新人工智能指數(shù)(AI Index)報告,人工智能在一系列專業(yè)領(lǐng)域的進展持續(xù)加速。在科學(xué)、數(shù)學(xué)和推理方面,多個前沿AI模型現(xiàn)已達到或超越博士級問題的基準(zhǔn)線。然而,AI模型仍存在缺限,其在現(xiàn)實世界中的應(yīng)用方式也仍有不足。


斯坦福HAI中心的AI Index報告具有較高價值,因為它們收集的是運行于現(xiàn)實世界的AI模型的硬數(shù)據(jù),而非僅詢問人們的意見(HAI也開展這方面的調(diào)查)。在2026年的報告中,HAI研究了多種AI模型的已發(fā)表基準(zhǔn)測試結(jié)果,發(fā)現(xiàn)它們持續(xù)以驚人速度改進。

例如,研究人員發(fā)現(xiàn),前沿模型在"人類終極考試"(Humanity's Last Exam)上一年內(nèi)提升了30個百分點——這是一個由近1000名學(xué)科專家(主要是教授、研究人員和研究生學(xué)位持有者)出題組成的基準(zhǔn)測試。HAI在報告中指出,"人類終極考試"旨在真正考驗AI模型的能力,但模型已變得如此強大,原本預(yù)期需要數(shù)年才能完成的評估,如今數(shù)月內(nèi)即可完成。


HAI報告稱根據(jù)Arena排行榜,2026年初排名前六的AI模型——來自Anthropic、xAI、谷歌、OpenAI、阿里巴巴和DeepSeek——在能力上已趨于收斂。Meta目前位居頂尖模型陣營之外,且在該基準(zhǔn)測試上過去22個月未有提升??傮w而言,HAI指出,像Meta的Llama這樣的開源模型表現(xiàn)不如OpenAI等閉源模型。頂尖閉源模型與頂尖開源模型之間的差距,從2024年8月的0.3%擴大到2026年3月的3.3%。

"AI能力并未進入平臺期,而是在加速發(fā)展,并觸達比以往更多的人。"AI Index報告作者寫道,"2025年,業(yè)界生產(chǎn)了超過90%的知名前沿模型,其中多個模型現(xiàn)已在博士級科學(xué)問題、多模態(tài)推理和競賽數(shù)學(xué)方面達到或超越人類基準(zhǔn)。在關(guān)鍵編程基準(zhǔn)SWE-bench Verified上,性能在一年內(nèi)從60%提升至接近100%的人類基準(zhǔn)線。組織采用率達88%,五分之四的大學(xué)生現(xiàn)使用生成式人工智能(GenAI)。"

在科學(xué)領(lǐng)域,AI模型持續(xù)取得大幅進展。然而,其整體實用性表現(xiàn)參差不齊。例如,HAI指出,前沿模型現(xiàn)已普遍超越人類化學(xué)家,這一點由ChemBench證明——這是一個旨在評估大語言模型化學(xué)知識和推理能力的基準(zhǔn)測試。據(jù)HAI介紹,最佳AI模型現(xiàn)已在ChemBench超過2700道化學(xué)問題上超越人類專家平均水平。

HAI還提及Polymathic的AION-1的發(fā)布——這是首個天文學(xué)基礎(chǔ)模型,并指出天氣預(yù)報領(lǐng)域的重大進展,包括FourCastNet 3全球天氣模型和劍橋大學(xué)開發(fā)的Aardvark Weather AI預(yù)報器。

HAI還指出,2025年首篇完全由AI生成的論文被同行評議研討會接收。Sakana的AI Scientist-v2模型生成了一篇被ICLR研討會接收的論文,且未使用任何人工模板;該論文此后已被《自然》期刊接受發(fā)表。HAI表示,谷歌的AI Co-Scientist在三個生物醫(yī)學(xué)領(lǐng)域得到驗證。

盡管取得這些進展,AI的科學(xué)能力庫仍存在空白,包括復(fù)現(xiàn)科學(xué)研究的能力。HAI指出,前沿模型在ReplicationBench的天體物理學(xué)論文級復(fù)現(xiàn)任務(wù)上得分低于20%——這是2025年由斯坦福和多倫多大學(xué)研究人員引入的框架,用于評估AI輔助天體物理學(xué)研究的有效性。HAI還指出,LLM智能體在UnivEarth上回答地球觀測問題的準(zhǔn)確率僅為33%——這是為衡量AI輔助地球觀測和地理空間分析研究可靠性而創(chuàng)建的基準(zhǔn)測試。此外,LLM智能體的代碼在UnivEarth上的失敗率達58%。

科學(xué)LLM智能體處理端到端任務(wù)的能力也尚未達標(biāo)。HAI指出,最佳智能體在康奈爾大學(xué)研究人員去年推出的PaperArena評估工具上達到38.8%的準(zhǔn)確率,而博士專家基準(zhǔn)為83.5%。前沿模型在BixBench衡量的現(xiàn)實世界生物信息學(xué)分析中準(zhǔn)確率約為17%——這是去年推出的計算生物學(xué)基準(zhǔn)測試。

AI在醫(yī)學(xué)領(lǐng)域也在取得進展,這在AI Index中占據(jù)完整一章。得益于AI轉(zhuǎn)錄準(zhǔn)確性的廣泛提升,醫(yī)生在就診后撰寫病歷的時間減少了高達83%。報告指出,這對減少職業(yè)倦怠產(chǎn)生了實質(zhì)性影響。AI在疾病診斷方面也展現(xiàn)出一定技能,微軟的AI診斷編排器(利用OpenAI的o3)證明了這一點——在一項復(fù)雜已發(fā)表病例研究測試中準(zhǔn)確率達85.5%。相比之下,"無輔助醫(yī)生"(意味著無法使用其"常規(guī)工具")僅得分20%。

AI模型在衡量端到端科學(xué)工作流的PaperArena等基準(zhǔn)上尚未達到人類基準(zhǔn)。

AI Index指出,分子生物學(xué)領(lǐng)域正出現(xiàn)向更小模型的轉(zhuǎn)變。HAI提到MSA Pairformer的報道——這是一個1.11億參數(shù)的蛋白質(zhì)語言模型,盡管參數(shù)量少兩個數(shù)量級,卻在ProteinGym基準(zhǔn)上超越了此前的領(lǐng)先者。報告還指出,2億參數(shù)的基因組學(xué)模型GPN-Star超越了400億參數(shù)的模型。

盡管AI已取得長足進步,但仍存在一些差距,這導(dǎo)致了AI的"鋸齒狀前沿"問題。例如,還存在一個奇怪的問題:AI模型無法可靠地讀取時間。據(jù)斯坦福HAI介紹,頂尖模型讀取模擬時鐘的正確率僅為50.1%。

幻覺問題仍然存在。GPT-4o的準(zhǔn)確率從98.2%下降至64.4%,而DeepSeek R1從約90%下降至14.4%。

模型還會區(qū)分"虛假陳述"的歸屬主體。"當(dāng)虛假陳述被呈現(xiàn)為其他人相信的內(nèi)容時,模型能夠妥善處理。"AI Index作者寫道,"當(dāng)同樣的虛假陳述被呈現(xiàn)為用戶自己相信的內(nèi)容時,性能便急劇下降。"

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
烏媒:中國拆除所有俄羅斯部件,將“現(xiàn)代”級改造為自己的驅(qū)逐艦

烏媒:中國拆除所有俄羅斯部件,將“現(xiàn)代”級改造為自己的驅(qū)逐艦

素衣讀史
2026-04-28 22:01:12
伊朗終于明白問題嚴(yán)重性:自己的王牌武器,被美軍看得一清二楚!

伊朗終于明白問題嚴(yán)重性:自己的王牌武器,被美軍看得一清二楚!

小蘭聊歷史
2026-05-03 13:21:50
4000架無人機就位 3000枚高精度導(dǎo)彈下發(fā):60萬大軍等候戰(zhàn)斗令!

4000架無人機就位 3000枚高精度導(dǎo)彈下發(fā):60萬大軍等候戰(zhàn)斗令!

聚峰軍評
2026-05-03 10:01:10
高崗自殺后,彭德懷、林彪的表現(xiàn)令人感慨

高崗自殺后,彭德懷、林彪的表現(xiàn)令人感慨

深度報
2026-04-25 22:55:42
全球首家AI妓院,革了成人行業(yè)的命

全球首家AI妓院,革了成人行業(yè)的命

廣告案例精選
2026-04-02 14:49:22
他是原福建省委書記,臨危受命扛重擔(dān),廉潔又“摳門”,享年61歲

他是原福建省委書記,臨危受命扛重擔(dān),廉潔又“摳門”,享年61歲

驚視
2026-05-03 07:23:43
第一集就得打碼!這部黃暴美劇,終于開播了

第一集就得打碼!這部黃暴美劇,終于開播了

來看美劇
2026-04-08 17:02:19
五一返程順風(fēng)車大單爆了!搶單大廳全是大單車主卻不想接單了!

五一返程順風(fēng)車大單爆了!搶單大廳全是大單車主卻不想接單了!

網(wǎng)約車觀察室
2026-05-03 09:52:39
聯(lián)合國副秘書長:美對伊戰(zhàn)爭耗資可為8700萬人提供救助

聯(lián)合國副秘書長:美對伊戰(zhàn)爭耗資可為8700萬人提供救助

新京報
2026-05-02 13:03:59
一腳剎車震碎“亞洲心臟”夢:中亞避開阿富汗,中國新疆成新樞紐

一腳剎車震碎“亞洲心臟”夢:中亞避開阿富汗,中國新疆成新樞紐

民間胡扯老哥
2026-05-02 08:14:39
比導(dǎo)彈便宜萬倍!中國 LW30 一出場,無人機當(dāng)場變廢鐵

比導(dǎo)彈便宜萬倍!中國 LW30 一出場,無人機當(dāng)場變廢鐵

小蘭聊歷史
2026-04-18 14:25:14
和李晨分手6年后嫁普通人,整個人都變樣了,如今活成了人生贏家

和李晨分手6年后嫁普通人,整個人都變樣了,如今活成了人生贏家

農(nóng)村黃煮任
2026-05-02 15:21:36
瘋狂!種馬男星沃倫睡過12775名女友,性欲成癮纏著女友不讓下床

瘋狂!種馬男星沃倫睡過12775名女友,性欲成癮纏著女友不讓下床

錢小刀娛樂
2026-04-14 10:39:13
美專家曾語出驚人:美軍一旦把核彈扔向京滬,中國并不會還手

美專家曾語出驚人:美軍一旦把核彈扔向京滬,中國并不會還手

小蔑談事
2026-04-30 14:56:15
武亮公開談?wù)摴蓹?quán)問題,請求不要去談?wù)搹堁┓寮沂拢?>
    </a>
        <h3>
      <a href=螃蟹記錄站
2026-05-03 12:42:40
離婚后你二婚了嗎?看少婦們的講述是既無奈又現(xiàn)實又尷尬

離婚后你二婚了嗎?看少婦們的講述是既無奈又現(xiàn)實又尷尬

侃神評故事
2026-04-26 10:52:01
神速!合肥工大開除抄襲作品學(xué)生,評論沸騰,網(wǎng)友追問西北大學(xué)呢

神速!合肥工大開除抄襲作品學(xué)生,評論沸騰,網(wǎng)友追問西北大學(xué)呢

火山詩話
2026-05-03 06:25:30
醪糟再次被關(guān)注!醫(yī)生發(fā)現(xiàn):高血脂患者喝醪糟,不用多久4大變化

醪糟再次被關(guān)注!醫(yī)生發(fā)現(xiàn):高血脂患者喝醪糟,不用多久4大變化

芹姐說生活
2026-04-19 15:52:53
菲律賓挑釁升級,有5名人員強行登上鐵線礁,登礁過程曝出

菲律賓挑釁升級,有5名人員強行登上鐵線礁,登礁過程曝出

胡侃社會百態(tài)
2026-05-03 12:40:03
舒淇早期拍攝寫真時的留影,慵懶風(fēng)情,自成風(fēng)月

舒淇早期拍攝寫真時的留影,慵懶風(fēng)情,自成風(fēng)月

娛你同歡
2026-05-01 21:31:11
2026-05-03 14:03:00
Ai時代前沿
Ai時代前沿
人工智能新聞動態(tài)及應(yīng)用案例。
1726文章數(shù) 512關(guān)注度
往期回顧 全部

科技要聞

庫克罕見"拒答"!蘋果正被AI供應(yīng)鏈卡脖子

頭條要聞

牛彈琴:比網(wǎng)紅還網(wǎng)紅 快80歲的特朗普一晚上發(fā)8張圖

頭條要聞

牛彈琴:比網(wǎng)紅還網(wǎng)紅 快80歲的特朗普一晚上發(fā)8張圖

體育要聞

裁判準(zhǔn)備下班,結(jié)果吳宜澤進了決賽

娛樂要聞

蔡卓妍婚后首現(xiàn)身 戴結(jié)婚戒指笑容不斷

財經(jīng)要聞

后巴菲特時代,首場股東會透露了啥

汽車要聞

同比大漲190% 方程豹4月銷量29138臺

態(tài)度原創(chuàng)

本地
親子
時尚
數(shù)碼
公開課

本地新聞

用青花瓷的方式,打開西溪濕地

親子要聞

勞動小能手節(jié)日快樂

春天別總傻傻穿一身黑,看看這些日常穿搭,高級舒適又優(yōu)雅

數(shù)碼要聞

Perplexity稱贊Mac mini是其Personal Computer的最佳本地部署平臺

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版