国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

ByteDance推出XpertBench:AI智能體的"專業(yè)資格證考試"正式開(kāi)啟

0
分享至


這項(xiàng)由ByteDance Seed團(tuán)隊(duì)領(lǐng)導(dǎo)的研究發(fā)表于2026年4月6日的arXiv預(yù)印本平臺(tái),論文編號(hào)為arXiv:2604.02368v2,有興趣深入了解的讀者可以通過(guò)該編號(hào)查詢完整論文。研究團(tuán)隊(duì)在人工智能評(píng)測(cè)領(lǐng)域推出了一個(gè)全新的評(píng)測(cè)框架XpertBench,這就好比為AI系統(tǒng)設(shè)計(jì)了一套真正的"專業(yè)資格證考試"。

當(dāng)前的人工智能系統(tǒng)就像是剛從學(xué)校畢業(yè)的學(xué)生,在考試中表現(xiàn)出色,但一旦進(jìn)入真實(shí)的工作環(huán)境,往往會(huì)暴露出各種問(wèn)題。傳統(tǒng)的AI評(píng)測(cè)就像是標(biāo)準(zhǔn)化考試,題目固定,答案標(biāo)準(zhǔn),但現(xiàn)實(shí)中的專業(yè)工作卻充滿了不確定性和復(fù)雜性。正如一個(gè)會(huì)背誦所有醫(yī)學(xué)教科書(shū)的學(xué)生,不一定能成為一個(gè)優(yōu)秀的醫(yī)生一樣,在傳統(tǒng)基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)秀的AI系統(tǒng),在處理真實(shí)專業(yè)任務(wù)時(shí)可能會(huì)遇到重重困難。

研究團(tuán)隊(duì)意識(shí)到,隨著AI系統(tǒng)從簡(jiǎn)單的問(wèn)答工具發(fā)展為專業(yè)助手,我們需要一套全新的評(píng)測(cè)標(biāo)準(zhǔn)。傳統(tǒng)的評(píng)測(cè)方法就像是用駕照筆試來(lái)評(píng)判一個(gè)人的實(shí)際駕駛技能,雖然有一定參考價(jià)值,但無(wú)法反映真實(shí)的駕駛能力。因此,他們決定創(chuàng)建一個(gè)更接近真實(shí)專業(yè)工作的評(píng)測(cè)平臺(tái)。

XpertBench的設(shè)計(jì)理念就像是為AI系統(tǒng)設(shè)計(jì)一套專業(yè)執(zhí)業(yè)考試。不同于傳統(tǒng)考試的標(biāo)準(zhǔn)化題目,這套考試完全模擬真實(shí)的專業(yè)工作場(chǎng)景。研究團(tuán)隊(duì)招募了超過(guò)1000名真正的專業(yè)人士,包括來(lái)自985和211高校的研究者、持有CFA和CPA資格的金融專家、具有醫(yī)師執(zhí)照的醫(yī)生、擁有法律資格的律師等等。這些專家就像是考試的命題委員會(huì),他們不是坐在辦公室里憑空想象考題,而是將自己在實(shí)際工作中遇到的真實(shí)挑戰(zhàn)轉(zhuǎn)化為測(cè)試任務(wù)。

整個(gè)評(píng)測(cè)系統(tǒng)涵蓋了七個(gè)重要的專業(yè)領(lǐng)域,就像是為AI系統(tǒng)設(shè)置了七個(gè)不同的專業(yè)科目考試。教育領(lǐng)域占據(jù)了最大比重,達(dá)到24.4%,這反映了教育在社會(huì)中的重要地位。工程與應(yīng)用科學(xué)緊隨其后,占20.4%,體現(xiàn)了技術(shù)類工作的復(fù)雜性。金融領(lǐng)域占18.1%,法律領(lǐng)域占16.0%,而人文社科、計(jì)算機(jī)科學(xué)和醫(yī)療健康也都有相應(yīng)的比重。這種分配就像是在考察一個(gè)全才型專業(yè)人士的綜合能力。

在任務(wù)設(shè)計(jì)上,XpertBench完全顛覆了傳統(tǒng)的考試模式。傳統(tǒng)AI評(píng)測(cè)就像是選擇題考試,問(wèn)題明確,答案標(biāo)準(zhǔn),而XpertBench更像是讓考生完成一個(gè)完整的項(xiàng)目。舉個(gè)例子,在金融領(lǐng)域,傳統(tǒng)測(cè)試可能會(huì)問(wèn)"什么是市盈率",而XpertBench會(huì)要求AI系統(tǒng)像真正的金融分析師一樣,分析兩家防務(wù)公司的財(cái)務(wù)狀況,計(jì)算各種財(cái)務(wù)比率,并給出專業(yè)的投資建議。這種差異就像是紙上談兵與實(shí)戰(zhàn)演練的區(qū)別。

為了確保評(píng)測(cè)的專業(yè)性,研究團(tuán)隊(duì)開(kāi)發(fā)了一套精密的評(píng)分系統(tǒng)。每個(gè)任務(wù)都有15到40個(gè)具體的評(píng)分點(diǎn),就像是專業(yè)考試中的詳細(xì)評(píng)分標(biāo)準(zhǔn)。這些評(píng)分點(diǎn)不是簡(jiǎn)單的對(duì)錯(cuò)判斷,而是從多個(gè)維度評(píng)估AI的表現(xiàn),包括事實(shí)準(zhǔn)確性、邏輯連貫性、專業(yè)深度等等。每個(gè)評(píng)分點(diǎn)還有不同的權(quán)重,就像是重要的考點(diǎn)分值更高一樣。

更有趣的是,研究團(tuán)隊(duì)還創(chuàng)新性地開(kāi)發(fā)了ShotJudge評(píng)測(cè)方法。傳統(tǒng)的AI評(píng)測(cè)往往依賴人工判分,成本高昂且效率低下,而完全自動(dòng)化的評(píng)測(cè)又可能出現(xiàn)"自我評(píng)價(jià)"的偏差,就像是讓學(xué)生給自己的作業(yè)打分一樣不夠客觀。ShotJudge就像是培訓(xùn)了一位專業(yè)的評(píng)卷老師,先讓真正的專家對(duì)一些樣本進(jìn)行評(píng)分,然后讓AI評(píng)測(cè)系統(tǒng)學(xué)習(xí)專家的評(píng)分邏輯,從而實(shí)現(xiàn)既高效又準(zhǔn)確的自動(dòng)化評(píng)測(cè)。

當(dāng)研究團(tuán)隊(duì)將當(dāng)前最先進(jìn)的AI系統(tǒng)放到這套專業(yè)考試中時(shí),結(jié)果令人深思。即使是表現(xiàn)最好的Claude-Opus-4.6-thinking模型,也只取得了66.2%的成績(jī),而大多數(shù)模型的成績(jī)都在50%左右徘徊。這就好比讓一群在模擬考試中表現(xiàn)優(yōu)異的學(xué)生參加真正的專業(yè)執(zhí)業(yè)考試,結(jié)果發(fā)現(xiàn)通過(guò)率并不理想。

更有趣的發(fā)現(xiàn)是,不同的AI系統(tǒng)展現(xiàn)出了明顯的專業(yè)偏好,就像人類專業(yè)人士一樣有自己的強(qiáng)項(xiàng)和弱項(xiàng)。GPT-5.4-high在金融領(lǐng)域表現(xiàn)突出,達(dá)到了84.65%的高分,但在STEM領(lǐng)域卻只有42.84%的成績(jī)。相反,Claude-Opus-4.6-thinking在人文社科領(lǐng)域表現(xiàn)出色,達(dá)到83.02%,但在其他領(lǐng)域的優(yōu)勢(shì)就沒(méi)那么明顯了。這種現(xiàn)象就像是一個(gè)優(yōu)秀的外科醫(yī)生未必是一個(gè)出色的心理醫(yī)生一樣,專業(yè)化分工在AI系統(tǒng)中也開(kāi)始顯現(xiàn)。

研究團(tuán)隊(duì)還發(fā)現(xiàn)了AI系統(tǒng)在處理復(fù)雜任務(wù)時(shí)的一些典型問(wèn)題。比如,一些系統(tǒng)在搜索信息時(shí)容易被無(wú)關(guān)信息干擾,就像是一個(gè)研究者在圖書(shū)館查資料時(shí)總是被其他有趣但不相關(guān)的書(shū)籍吸引,最終偏離了原本的研究方向。另一個(gè)常見(jiàn)問(wèn)題是"原則性錯(cuò)誤",即在處理問(wèn)題的基礎(chǔ)概念上出現(xiàn)偏差,導(dǎo)致后續(xù)的所有推理都建立在錯(cuò)誤的基礎(chǔ)上,就像是建房子時(shí)地基不穩(wěn),整棟建筑都會(huì)有問(wèn)題。

這項(xiàng)研究的意義遠(yuǎn)不止于創(chuàng)建了一個(gè)新的評(píng)測(cè)工具。它實(shí)際上為AI系統(tǒng)的發(fā)展指明了方向:從通用助手向?qū)I(yè)合作伙伴的轉(zhuǎn)變。就像人類社會(huì)中的專業(yè)化分工一樣,未來(lái)的AI系統(tǒng)可能也需要在特定領(lǐng)域進(jìn)行深度專業(yè)化,而不是追求在所有領(lǐng)域都表現(xiàn)平均。

XpertBench的出現(xiàn)也為普通用戶選擇AI工具提供了新的參考標(biāo)準(zhǔn)。過(guò)去我們可能只關(guān)心AI系統(tǒng)的總體表現(xiàn),現(xiàn)在我們可以根據(jù)具體需求選擇在特定領(lǐng)域表現(xiàn)優(yōu)異的系統(tǒng)。這就像是選擇醫(yī)生時(shí)會(huì)根據(jù)??苼?lái)選擇一樣,選擇AI助手也需要考慮專業(yè)對(duì)口性。

對(duì)于AI研發(fā)團(tuán)隊(duì)來(lái)說(shuō),XpertBench提供了一面真實(shí)的鏡子,讓他們看到自己系統(tǒng)在真實(shí)專業(yè)場(chǎng)景中的表現(xiàn)。這種反饋將有助于開(kāi)發(fā)更加實(shí)用和可靠的AI系統(tǒng),推動(dòng)整個(gè)行業(yè)從追求基準(zhǔn)測(cè)試高分轉(zhuǎn)向解決實(shí)際問(wèn)題的能力提升。

研究團(tuán)隊(duì)還建立了Xpert平臺(tái),這個(gè)平臺(tái)匯聚了約3000名經(jīng)過(guò)嚴(yán)格篩選的專家,為AI評(píng)測(cè)和改進(jìn)提供持續(xù)的專業(yè)支持。這就像是建立了一個(gè)專業(yè)顧問(wèn)團(tuán),為AI系統(tǒng)的發(fā)展提供源源不斷的專業(yè)指導(dǎo)。

說(shuō)到底,XpertBench的出現(xiàn)標(biāo)志著AI評(píng)測(cè)進(jìn)入了一個(gè)新的階段。我們不再滿足于AI系統(tǒng)能夠回答標(biāo)準(zhǔn)化問(wèn)題,而是期望它們能夠真正勝任專業(yè)工作。這種轉(zhuǎn)變反映了人們對(duì)AI技術(shù)期望的提升,也預(yù)示著AI系統(tǒng)將在更多專業(yè)領(lǐng)域發(fā)揮重要作用。當(dāng)然,目前的結(jié)果也提醒我們,AI系統(tǒng)距離真正的專業(yè)水準(zhǔn)還有相當(dāng)?shù)木嚯x,這為未來(lái)的技術(shù)發(fā)展提出了明確的目標(biāo)和方向。

Q&A

Q1:XpertBench評(píng)測(cè)系統(tǒng)和傳統(tǒng)AI基準(zhǔn)測(cè)試有什么不同?

A:XpertBench就像真正的職業(yè)資格考試,而傳統(tǒng)測(cè)試更像學(xué)??荚嚒鹘y(tǒng)測(cè)試通常是標(biāo)準(zhǔn)化的選擇題或簡(jiǎn)單問(wèn)答,而XpertBench讓AI系統(tǒng)處理來(lái)自真實(shí)工作場(chǎng)景的復(fù)雜任務(wù),比如讓AI像金融分析師一樣分析公司財(cái)務(wù)報(bào)告,或像律師一樣處理法律文件,更能反映AI在實(shí)際工作中的表現(xiàn)。

Q2:為什么最先進(jìn)的AI系統(tǒng)在XpertBench上成績(jī)不理想?

A:這說(shuō)明當(dāng)前AI系統(tǒng)在應(yīng)對(duì)真實(shí)專業(yè)工作時(shí)還存在明顯不足。就像一個(gè)會(huì)背誦教科書(shū)的學(xué)生不一定能勝任實(shí)際工作一樣,AI系統(tǒng)雖然在標(biāo)準(zhǔn)化測(cè)試中表現(xiàn)優(yōu)秀,但面對(duì)復(fù)雜多變的專業(yè)任務(wù)時(shí),往往會(huì)出現(xiàn)信息干擾、邏輯錯(cuò)誤等問(wèn)題,這反映了從理論知識(shí)到實(shí)踐應(yīng)用之間的巨大鴻溝。

Q3:普通人如何利用XpertBench的評(píng)測(cè)結(jié)果選擇AI工具?

A:XpertBench揭示了不同AI系統(tǒng)的專業(yè)強(qiáng)項(xiàng),普通人可以根據(jù)自己的需求選擇相應(yīng)的AI助手。比如需要金融分析幫助時(shí)選擇在金融領(lǐng)域表現(xiàn)出色的GPT-5.4-high,需要人文寫(xiě)作支持時(shí)選擇在人文社科領(lǐng)域優(yōu)秀的Claude-Opus-4.6-thinking,這樣可以獲得更專業(yè)、更可靠的AI服務(wù)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
能做到這3個(gè)動(dòng)作,說(shuō)明你的身體壯得像頭牛!!!

能做到這3個(gè)動(dòng)作,說(shuō)明你的身體壯得像頭牛?。?!

中國(guó)反邪教
2026-03-28 20:20:47
王志文安排好后事僅4月,擔(dān)心事發(fā)生,私生活被扒,王寶強(qiáng)拒和解

王志文安排好后事僅4月,擔(dān)心事發(fā)生,私生活被扒,王寶強(qiáng)拒和解

白面書(shū)誏
2026-04-16 18:04:33
斯諾克最新消息!傳來(lái)3大主力好消息,丁俊暉、趙心童、吳宜澤

斯諾克最新消息!傳來(lái)3大主力好消息,丁俊暉、趙心童、吳宜澤

曹說(shuō)體育
2026-04-17 16:10:23
重大轉(zhuǎn)折!蕭敬嚴(yán)宣布退出國(guó)民黨議員提名:希望一切回歸平靜

重大轉(zhuǎn)折!蕭敬嚴(yán)宣布退出國(guó)民黨議員提名:希望一切回歸平靜

海峽導(dǎo)報(bào)社
2026-04-17 16:44:03
年報(bào)唯一一家,社保基金新進(jìn)重倉(cāng)光纖股,兩年大跌70%又橫盤(pán)一年

年報(bào)唯一一家,社保基金新進(jìn)重倉(cāng)光纖股,兩年大跌70%又橫盤(pán)一年

長(zhǎng)風(fēng)價(jià)值掘金
2026-04-17 16:05:12
反轉(zhuǎn)!基金會(huì)再次硬剛蕭旭岑,又有藍(lán)營(yíng)大佬下場(chǎng),希望馬英九閉嘴

反轉(zhuǎn)!基金會(huì)再次硬剛蕭旭岑,又有藍(lán)營(yíng)大佬下場(chǎng),希望馬英九閉嘴

放開(kāi)他讓wo來(lái)
2026-04-17 09:36:16
中國(guó)移動(dòng):4月30日起全國(guó)統(tǒng)一執(zhí)行!話費(fèi)、流量將迎來(lái)重大變化

中國(guó)移動(dòng):4月30日起全國(guó)統(tǒng)一執(zhí)行!話費(fèi)、流量將迎來(lái)重大變化

Thurman在昆明
2026-04-15 19:05:34
錢賺夠了,名聲沒(méi)了,謝娜開(kāi)演唱會(huì)迎來(lái)全網(wǎng)罵潮,劉燁當(dāng)初沒(méi)說(shuō)謊

錢賺夠了,名聲沒(méi)了,謝娜開(kāi)演唱會(huì)迎來(lái)全網(wǎng)罵潮,劉燁當(dāng)初沒(méi)說(shuō)謊

洲洲影視娛評(píng)
2026-04-15 23:09:10
昆明三部門約談“松果出行”:責(zé)令限期清理回收違規(guī)投放車輛

昆明三部門約談“松果出行”:責(zé)令限期清理回收違規(guī)投放車輛

澎湃新聞
2026-04-17 16:28:26
中越聯(lián)合聲明:加快推進(jìn)兩國(guó)鐵路、公路、口岸基礎(chǔ)設(shè)施互聯(lián)互通 將鐵路合作作為兩國(guó)戰(zhàn)略合作新亮點(diǎn)

中越聯(lián)合聲明:加快推進(jìn)兩國(guó)鐵路、公路、口岸基礎(chǔ)設(shè)施互聯(lián)互通 將鐵路合作作為兩國(guó)戰(zhàn)略合作新亮點(diǎn)

財(cái)聯(lián)社
2026-04-17 10:42:13
打破越南歷史慣例,蘇林時(shí)代權(quán)力格局已定,對(duì)中國(guó)意味著什么?

打破越南歷史慣例,蘇林時(shí)代權(quán)力格局已定,對(duì)中國(guó)意味著什么?

湘評(píng)中外
2026-04-10 17:16:52
俄稱將用戰(zhàn)爭(zhēng)作為談判新方式,德烏強(qiáng)強(qiáng)聯(lián)手,軍事機(jī)器火力全開(kāi)

俄稱將用戰(zhàn)爭(zhēng)作為談判新方式,德烏強(qiáng)強(qiáng)聯(lián)手,軍事機(jī)器火力全開(kāi)

史政先鋒
2026-04-15 17:57:21
原來(lái)她是李嘉誠(chéng)大兒媳,57歲打扮樸素認(rèn)不出,和老公同框像兩代人

原來(lái)她是李嘉誠(chéng)大兒媳,57歲打扮樸素認(rèn)不出,和老公同框像兩代人

以茶帶書(shū)
2026-04-17 16:13:14
解放后損失最大俘虜逃跑事件,劫走一架飛機(jī)帶走3名我軍中層干部

解放后損失最大俘虜逃跑事件,劫走一架飛機(jī)帶走3名我軍中層干部

鶴羽說(shuō)個(gè)事
2026-04-16 22:07:31
許家印結(jié)局已定,恒大歌舞團(tuán)長(zhǎng)白珊珊,被曝居然嫁給了這個(gè)男人

許家印結(jié)局已定,恒大歌舞團(tuán)長(zhǎng)白珊珊,被曝居然嫁給了這個(gè)男人

探索新高度
2026-04-17 12:09:03
為何越來(lái)越多女高管染上艾滋病?2位35歲的女高管,公開(kāi)講述經(jīng)歷

為何越來(lái)越多女高管染上艾滋???2位35歲的女高管,公開(kāi)講述經(jīng)歷

千秋文化
2026-04-16 20:18:37
Gemini桌面客戶端終于上線:直接讀取屏幕上下文,幫你解讀一切!

Gemini桌面客戶端終于上線:直接讀取屏幕上下文,幫你解讀一切!

新智元
2026-04-17 00:26:41
中國(guó)移動(dòng)洪小勤被查,涉嫌嚴(yán)重違紀(jì)違法

中國(guó)移動(dòng)洪小勤被查,涉嫌嚴(yán)重違紀(jì)違法

最通信
2026-04-17 09:35:03
長(zhǎng)期被冤枉的5個(gè)好東西,以為有害,其實(shí)超健康,別再被騙了!

長(zhǎng)期被冤枉的5個(gè)好東西,以為有害,其實(shí)超健康,別再被騙了!

Home范
2026-04-14 11:14:17
140年來(lái)最強(qiáng)厄爾尼諾正在醞釀?國(guó)家氣候中心:預(yù)計(jì)今春后期或進(jìn)入厄爾尼諾狀態(tài),尚無(wú)法準(zhǔn)確預(yù)測(cè)形成時(shí)間和總體強(qiáng)度

140年來(lái)最強(qiáng)厄爾尼諾正在醞釀?國(guó)家氣候中心:預(yù)計(jì)今春后期或進(jìn)入厄爾尼諾狀態(tài),尚無(wú)法準(zhǔn)確預(yù)測(cè)形成時(shí)間和總體強(qiáng)度

魯中晨報(bào)
2026-04-17 10:16:03
2026-04-17 20:51:00
至頂AI實(shí)驗(yàn)室 incentive-icons
至頂AI實(shí)驗(yàn)室
一個(gè)專注于探索生成式AI前沿技術(shù)及其應(yīng)用的實(shí)驗(yàn)室。
3306文章數(shù) 170關(guān)注度
往期回顧 全部

科技要聞

7家頭部平臺(tái)被罰沒(méi)35.97億元

頭條要聞

與被告同名同姓 女子稱被異地法院錯(cuò)判存款遭司法扣劃

頭條要聞

與被告同名同姓 女子稱被異地法院錯(cuò)判存款遭司法扣劃

體育要聞

遭網(wǎng)暴后,22歲大滿貫冠軍反擊:我的頭發(fā)足夠好

娛樂(lè)要聞

劉德華摯友潘宏彬離世 曾一起租房住

財(cái)經(jīng)要聞

"影子萬(wàn)科"2.0:管理層如何吸血萬(wàn)物云?

汽車要聞

又快又穩(wěn)的開(kāi)掛動(dòng)力! 阿維塔06T全系搭分布式電驅(qū)

態(tài)度原創(chuàng)

房產(chǎn)
數(shù)碼
游戲
旅游
公開(kāi)課

房產(chǎn)要聞

重磅利好!2500個(gè)學(xué)位,海口濱江片區(qū),要建九年一貫制學(xué)校!

數(shù)碼要聞

實(shí)測(cè)AirPods Max 2:H2芯片有驚喜,但沉是真的沉

游民攻略組圖文攻略全新升級(jí)!可視化路書(shū)系統(tǒng)上線

旅游要聞

從山川湖泊到人間煙火,淄博,不止一面~“沿著黃河遇見(jiàn)海”全國(guó)旅行商山東行——“相約文旅盛會(huì) 發(fā)現(xiàn)寶藏山東”采風(fēng)活動(dòng)帶你解鎖寶藏淄博~

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版