国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

人類基準(zhǔn)測(cè)試大翻車:樣本不足、方法不透明,AI性能結(jié)論可信嗎?

0
分享至

我們經(jīng)常在一些對(duì)比 AI 性能的測(cè)試中,看到宣稱基礎(chǔ)模型在自然語(yǔ)言理解、推理或編程任務(wù)等性能超人類的相關(guān)報(bào)道。

但你有沒有想過,這些結(jié)果真的可信嗎?

在近期的一項(xiàng)研究中,美國(guó)哈佛大學(xué)研究員魏來(Kevin Wei)與合作者指出,目前人類基準(zhǔn)測(cè)試(Human Baselines)的嚴(yán)謹(jǐn)性和透明度存在一系列嚴(yán)重問題,這直接關(guān)系著相關(guān)測(cè)試中關(guān)于 AI 性能的結(jié)論是否“立得住”的問題。

為此,研究人員對(duì)基礎(chǔ)模型評(píng)估中人類基線方法提出了相關(guān)的改進(jìn)建議。與此同時(shí),為全面梳理當(dāng)前評(píng)估方法的短板,他們還系統(tǒng)回顧了 115 項(xiàng)人類基線研究。

相關(guān)論文以《立場(chǎng):模型評(píng)估中的人類基線需要嚴(yán)謹(jǐn)性和透明性》(Position: Human Baselines in Model Evaluations Need Rigor and Transparency)為題發(fā)表在 ICML 2025(The Forty-Second International Conference on Machine Learning)[1]。

圖丨相關(guān)論文(來源:ICML)



長(zhǎng)期以來,人類基準(zhǔn)測(cè)試作為 AI 領(lǐng)域評(píng)估模型性能的重要工具,直接影響著對(duì) AI 基礎(chǔ)模型表現(xiàn)的判斷,尤其是為 AI 達(dá)到超人類的水平相關(guān)結(jié)論是否可靠提供關(guān)鍵參考。

魏來目前的主要研究方向是 AI 評(píng)估測(cè)試,致力于將安全測(cè)試的系統(tǒng)做得更安全,以及將相關(guān)機(jī)制做得更好。他對(duì) DeepTech 表示:“我們?cè)谘芯窟^程中發(fā)現(xiàn),當(dāng)下很多聲稱模型達(dá)到超人類性能的研究,其人類基線評(píng)估方法不僅嚴(yán)謹(jǐn)性不夠,透明度也不足。這會(huì)導(dǎo)致人類和 AI 性能的比較缺乏可信性?!?/p>


圖丨魏來(來源:魏來)

人類基準(zhǔn)測(cè)試結(jié)果是否可信關(guān)系著對(duì)系統(tǒng)層級(jí)的理解,以及對(duì)人類的層級(jí)準(zhǔn)確比較。相關(guān)結(jié)論不僅影響著機(jī)器學(xué)習(xí)社區(qū)、相關(guān)用戶和政策制定者,還與 AI 是否能代替、如何替代人類工作等社會(huì)和經(jīng)濟(jì)問題密切相關(guān)。


表丨基線設(shè)計(jì)與實(shí)施項(xiàng)目(含數(shù)據(jù)填補(bǔ))的匯總統(tǒng)計(jì)(來源:ICML)

研究人員發(fā)現(xiàn),在以往研究中最大的問題是所選取作為基線缺乏代表性,或在進(jìn)行基線測(cè)試時(shí),為基線測(cè)試人員和網(wǎng)絡(luò)系統(tǒng)提供的信息存在差異:要么對(duì)二者所提出的問題不同,要么在某些方面存在差異,使得二者之間難以進(jìn)行有效比較。

讓人意外的是,只有 59% 的基線使用與 AI 相同的測(cè)試集。舉例來說,某個(gè)數(shù)據(jù)中有 1,000 個(gè)樣本,然后研究人員可能僅從中選 50 個(gè)樣本作為基線,再將這 50 個(gè)人類的層級(jí)與 1,000 個(gè) AI 系統(tǒng)的場(chǎng)景做對(duì)比。

除此之外,人類基線的樣本量普遍不足也是極為重要的問題,這會(huì)導(dǎo)致無(wú)法據(jù)此判斷這一結(jié)果是否能夠代表更廣泛人群。其中,以單個(gè)測(cè)試題目計(jì)算,人類基線的回應(yīng)者人數(shù)中位數(shù)僅有 8 人,遠(yuǎn)低于科學(xué)研究的可靠性要求。

另一方面,倫理審查報(bào)告方面,只有 14% 的論文報(bào)告了倫理審查,其中大部分研究并沒有公開測(cè)試方法、參與者信息和數(shù)據(jù)分析代碼。在統(tǒng)計(jì)檢驗(yàn)使用方面的問題同樣嚴(yán)重,進(jìn)行統(tǒng)計(jì)檢驗(yàn)的基線只有 8%。

“我們發(fā)現(xiàn),這種在人類基準(zhǔn)測(cè)試過程中普遍存在信息不透明的做法,在影響結(jié)果可重復(fù)性的同時(shí),也很有可能存在潛在的偏差?!蔽簛肀硎?。


(來源:ICML)

基于對(duì)測(cè)量理論和 AI 評(píng)估文獻(xiàn)的分析,該團(tuán)隊(duì)提出了一個(gè)新的框架來改進(jìn)相關(guān)問題,其涵蓋五個(gè)階段并在每個(gè)階段給出了相關(guān)建議。

具體而言:

·設(shè)計(jì)與實(shí)施(Design&Implementation):選擇一致且具有代表性的測(cè)試集,迭代基線工具,收集足夠大小的樣本和滿足倫理要求;

·招募(Recruitment):指定感興趣的人群,選擇適當(dāng)?shù)某闃硬呗?,在招募過程中采用質(zhì)量控制;

·執(zhí)行(Execution):在執(zhí)行過程中采用質(zhì)量控制,控制方法效應(yīng),控制人類和 AI 的努力程度,收集定性基線數(shù)據(jù)(例如解釋);

·分析(Analysis):量化人類和 AI 表現(xiàn)之間的不確定性,確保評(píng)估指標(biāo)、評(píng)分標(biāo)準(zhǔn)和評(píng)分方法的一致性;

·文檔化(Documentation):報(bào)告方法和基線樣本的詳細(xì)信息,采用開放科學(xué)和可重復(fù)性標(biāo)準(zhǔn)。

根據(jù)相關(guān)建議,在設(shè)計(jì)人類基線時(shí),可采用更科學(xué)的方法來確保公平性和準(zhǔn)確性。例如,研究人員借鑒了包括心理學(xué)、經(jīng)濟(jì)學(xué)、政治學(xué)等在內(nèi)的多學(xué)科知識(shí),為 AI 和人類性能的比較提供了新的視角。研究還強(qiáng)調(diào)了透明度的重要性,指出基于詳細(xì)的記錄和報(bào)告,可促進(jìn)研究結(jié)果更可信。

研究人員將這些建議整合成一份清單,并在此基礎(chǔ)上系統(tǒng)性地回顧了 115 項(xiàng)基礎(chǔ)模型評(píng)估中的人類基線研究。這項(xiàng)研究不僅梳理出當(dāng)下人類基準(zhǔn)測(cè)試方法中存在的不足,同時(shí)也為未來研究特別是數(shù)學(xué)領(lǐng)域 AI 技術(shù)的評(píng)估指出了改進(jìn)方向。

參考資料:

1.https://openreview.net/forum?id=gwhPvu97Gm

運(yùn)營(yíng)/排版:何晨龍

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
從24勝1負(fù)到6勝6負(fù),從聯(lián)盟寵兒到聯(lián)盟棄子,NBA西部格局徹底變了

從24勝1負(fù)到6勝6負(fù),從聯(lián)盟寵兒到聯(lián)盟棄子,NBA西部格局徹底變了

毒舌NBA
2026-01-06 21:59:15
武漢大學(xué)女教授獻(xiàn)血事件,它們的行為不翻車都難

武漢大學(xué)女教授獻(xiàn)血事件,它們的行為不翻車都難

吳女士
2026-01-07 12:44:51
馬杜羅為啥寧愿被凍結(jié),把錢存瑞士,也不存在自己國(guó)家?

馬杜羅為啥寧愿被凍結(jié),把錢存瑞士,也不存在自己國(guó)家?

走讀新生
2026-01-07 12:06:41
川普認(rèn)為伊朗和美國(guó)之間的帳該算算了;美以將在72小時(shí)內(nèi)打擊伊朗

川普認(rèn)為伊朗和美國(guó)之間的帳該算算了;美以將在72小時(shí)內(nèi)打擊伊朗

跟著老李看世界
2026-01-07 00:00:24
50歲安吉麗娜·朱莉出售洛杉磯2450萬(wàn)美元豪宅,被曝計(jì)劃移居,“或?yàn)閿[脫與前夫布拉德·皮特的糾葛”

50歲安吉麗娜·朱莉出售洛杉磯2450萬(wàn)美元豪宅,被曝計(jì)劃移居,“或?yàn)閿[脫與前夫布拉德·皮特的糾葛”

魯中晨報(bào)
2026-01-07 15:57:25
四川省煤炭產(chǎn)業(yè)集團(tuán)原副總經(jīng)理張萬(wàn)松被開除黨籍

四川省煤炭產(chǎn)業(yè)集團(tuán)原副總經(jīng)理張萬(wàn)松被開除黨籍

界面新聞
2026-01-07 17:34:46
中方發(fā)布2號(hào)公告,斷高市光刻膠后路,日媒:當(dāng)眾問中國(guó)一個(gè)問題

中方發(fā)布2號(hào)公告,斷高市光刻膠后路,日媒:當(dāng)眾問中國(guó)一個(gè)問題

知法而形
2026-01-07 16:52:08
凌晨1點(diǎn),老黃又扔“核彈”!英偉達(dá) Vera Rubin 芯片問世,算力暴漲5倍,我看傻了...

凌晨1點(diǎn),老黃又扔“核彈”!英偉達(dá) Vera Rubin 芯片問世,算力暴漲5倍,我看傻了...

AI范兒
2026-01-06 07:59:53
20歲女大學(xué)生治療精神病出院5天后墜亡,被認(rèn)定一級(jí)甲等醫(yī)療事故,醫(yī)院承擔(dān)次要責(zé)任,家屬申請(qǐng)刑事立案監(jiān)督

20歲女大學(xué)生治療精神病出院5天后墜亡,被認(rèn)定一級(jí)甲等醫(yī)療事故,醫(yī)院承擔(dān)次要責(zé)任,家屬申請(qǐng)刑事立案監(jiān)督

大風(fēng)新聞
2026-01-07 17:26:05
太棒了!蘋果推出 iPhone 換電池半價(jià)活動(dòng)

太棒了!蘋果推出 iPhone 換電池半價(jià)活動(dòng)

XCiOS俱樂部
2026-01-07 15:03:15
別墅搜出23件國(guó)寶,全家集體失聯(lián)!徐湖平案落幕,17年舉報(bào)有結(jié)果

別墅搜出23件國(guó)寶,全家集體失聯(lián)!徐湖平案落幕,17年舉報(bào)有結(jié)果

詩(shī)意世界
2026-01-03 15:19:25
馬來西亞今年將全面查封電子煙,衛(wèi)生部長(zhǎng):吸電子煙會(huì)造成爆米花肺

馬來西亞今年將全面查封電子煙,衛(wèi)生部長(zhǎng):吸電子煙會(huì)造成爆米花肺

爆角追蹤
2026-01-06 22:18:53
伊朗安全部隊(duì)放下武器加入抗議,哈梅內(nèi)伊倒計(jì)時(shí)開始

伊朗安全部隊(duì)放下武器加入抗議,哈梅內(nèi)伊倒計(jì)時(shí)開始

移光幻影
2026-01-07 15:18:07
中方是否計(jì)劃采取行動(dòng)幫助馬杜羅夫婦獲釋?外交部回應(yīng)

中方是否計(jì)劃采取行動(dòng)幫助馬杜羅夫婦獲釋?外交部回應(yīng)

新京報(bào)政事兒
2026-01-07 15:41:25
華為Mate80突然官降:1月7日,驚喜大反轉(zhuǎn)

華為Mate80突然官降:1月7日,驚喜大反轉(zhuǎn)

科技堡壘
2026-01-07 12:46:59
阿森納女足新援因外表出眾引來低俗評(píng)論,俱樂部關(guān)閉評(píng)論區(qū)

阿森納女足新援因外表出眾引來低俗評(píng)論,俱樂部關(guān)閉評(píng)論區(qū)

懂球帝
2026-01-07 12:56:05
韓國(guó)總統(tǒng)李在明結(jié)束訪華

韓國(guó)總統(tǒng)李在明結(jié)束訪華

界面新聞
2026-01-07 18:57:00
“遇到交警不灑,遇到行人正常灑”,浙江溫州一灑水車被指雙標(biāo);鎮(zhèn)政府:由外包的第三方公司管理,會(huì)批評(píng)教育,累犯將罰款

“遇到交警不灑,遇到行人正常灑”,浙江溫州一灑水車被指雙標(biāo);鎮(zhèn)政府:由外包的第三方公司管理,會(huì)批評(píng)教育,累犯將罰款

揚(yáng)子晚報(bào)
2026-01-07 12:28:44
首都航空一客機(jī)在空中盤旋近20圈,系大霧所致

首都航空一客機(jī)在空中盤旋近20圈,系大霧所致

現(xiàn)代快報(bào)
2026-01-06 17:21:04
四川一對(duì)夫妻同時(shí)失業(yè),剛貸款買房4個(gè)月:人算不如天算啊

四川一對(duì)夫妻同時(shí)失業(yè),剛貸款買房4個(gè)月:人算不如天算啊

唐小糖說情感
2026-01-07 16:28:02
2026-01-07 19:44:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評(píng)論獨(dú)家合作
16089文章數(shù) 514457關(guān)注度
往期回顧 全部

科技要聞

精華!黃仁勛CES記者會(huì):揭秘新款大殺器

頭條要聞

三亞一游客被司機(jī)誘導(dǎo)就餐 點(diǎn)了4道海鮮花1868元

頭條要聞

三亞一游客被司機(jī)誘導(dǎo)就餐 點(diǎn)了4道海鮮花1868元

體育要聞

賣水果、搬磚的小伙,與哈蘭德爭(zhēng)英超金靴

娛樂要聞

2026年央視春晚彩排:沈騰確定回歸

財(cái)經(jīng)要聞

農(nóng)大教授科普:無(wú)需過度擔(dān)憂蔬菜農(nóng)殘

汽車要聞

燃油駕趣+智能電感雙Buff 試駕全新奧迪Q5L

態(tài)度原創(chuàng)

時(shí)尚
數(shù)碼
藝術(shù)
健康
旅游

看起來很好親的唇,能養(yǎng)出來?

數(shù)碼要聞

AYANEO發(fā)布AM03迷你主機(jī),性能與設(shè)計(jì)兼具

藝術(shù)要聞

David Grossmann:不一樣的風(fēng)景畫

這些新療法,讓化療不再那么痛苦

旅游要聞

冬日限定!伏羲大峽谷冰掛進(jìn)行時(shí)!

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版