国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

誰(shuí)是AI之王?聊聊備受爭(zhēng)議的AI評(píng)測(cè)與崛起的LMArena

0
分享至

撰稿 |張珺玥

編輯 |陳茜

在大模型激戰(zhàn)的當(dāng)下,究竟誰(shuí)更強(qiáng)?是OpenAI的GPT,還是Anthropic的Claude?是谷歌的Gemini,還是中國(guó)的DeepSeek?

當(dāng)AI模型排行榜開始被各種刷分作弊之后,誰(shuí)家大模型最牛這個(gè)問題就變得非常主觀,直到一家線上排行榜誕生,它叫:LMArena。

在文字、視覺、搜索、文生圖、文生視頻等不同的AI大模型細(xì)分領(lǐng)域,LMArena上每天都有上千場(chǎng)的實(shí)時(shí)對(duì)戰(zhàn),由普通用戶來匿名投票選出哪一方的回答更好。最近以來,很多AI研究者都紛紛發(fā)聲,認(rèn)為大模型競(jìng)賽的下半場(chǎng),最重要的事情之一就是重新思考模型評(píng)估。

因?yàn)楫?dāng)技術(shù)創(chuàng)新趨于飽和,真正拉開差距的,可能將不再是誰(shuí)的參數(shù)更多、推理更快,而是誰(shuí)能更準(zhǔn)確地衡量、理解模型的智能邊界。

在大模型評(píng)測(cè)上,傳統(tǒng)的Benchmark(基準(zhǔn)測(cè)試)究竟存在什么問題,是已經(jīng)過時(shí)了嗎?LMArena的競(jìng)技場(chǎng)模式為什么會(huì)被視為一種新的標(biāo)準(zhǔn)?它的技術(shù)機(jī)制、公平性和商業(yè)化隱藏著怎樣的挑戰(zhàn)?而下一代的大模型評(píng)測(cè),又可能會(huì)走向哪里?

(本文為視頻改寫,歡迎大家收看以下視頻)

01

題庫(kù)泄露、數(shù)據(jù)污染傳統(tǒng)Benchmark為何失靈?

在LMArena之前,AI大模型是怎么被評(píng)估的呢?方式其實(shí)非?!皞鹘y(tǒng)”。研究者們通常會(huì)準(zhǔn)備一組固定的題庫(kù),比如MMLU、BIG-Bench、HellaSwag等等。這些名字普通人看起來很陌生,但在AI學(xué)術(shù)界幾乎家喻戶曉。

這些題庫(kù)涵蓋學(xué)科、語(yǔ)言、常識(shí)推理等多個(gè)維度,通過讓不同模型作答,再根據(jù)答對(duì)率或得分來對(duì)模型進(jìn)行比較。


比如MMLU,全稱是“Massive Multitask Language Understanding”,它涵蓋了從高中到博士級(jí)別的57個(gè)知識(shí)領(lǐng)域,包括歷史、醫(yī)學(xué)、法律、數(shù)學(xué)、哲學(xué)等等,模型既需要回答像“神經(jīng)網(wǎng)絡(luò)中的梯度消失問題如何解決”的技術(shù)問題,也需要回答“美國(guó)憲法第十四修正案的核心內(nèi)容是什么”的社會(huì)科學(xué)問題,學(xué)科跨度很大。

BIG-Bench更偏向推理和創(chuàng)造力,比如讓模型解釋冷笑話、續(xù)寫詩(shī)歌或完成邏輯填空。HellaSwag則專門用來測(cè)試模型對(duì)日常情境的理解能力,比如“一個(gè)人正在打開冰箱,接下來最可能發(fā)生什么?”等等。


這些Benchmark在過去二十年幾乎主導(dǎo)了整個(gè) AI 研究領(lǐng)域。它們的優(yōu)點(diǎn)顯而易見:標(biāo)準(zhǔn)統(tǒng)一、結(jié)果可復(fù)現(xiàn)。學(xué)術(shù)論文只要能在相關(guān)公開數(shù)據(jù)集上刷新分?jǐn)?shù),就意味著“性能更強(qiáng)”。而AI的上半場(chǎng)也正是在這種“比成績(jī)”的節(jié)奏下高速發(fā)展起來的。

但這些早期的Benchmark是靜態(tài)的,多以單輪問答、選擇題形式為主,題目結(jié)構(gòu)簡(jiǎn)單、評(píng)測(cè)維度明確,便于統(tǒng)一打分和橫向比較。

然而,當(dāng)模型的能力越來越強(qiáng)、訓(xùn)練數(shù)據(jù)越來越龐大時(shí),這些Benchmark的局限開始顯現(xiàn)。


首先是“題庫(kù)泄漏”,很多測(cè)試題早就出現(xiàn)在模型的訓(xùn)練語(yǔ)料里。于是,一個(gè)模型在這些測(cè)試上得分再高,也不代表它真的“理解”了問題,只能說明它“記住”了答案。

其次,Benchmark永遠(yuǎn)測(cè)不出模型在真實(shí)交互中的表現(xiàn),它更像是一場(chǎng)封閉的考試,而不是一次開放的對(duì)話。


華盛頓大學(xué)助理教授、英偉達(dá)首席研究科學(xué)家,同時(shí)也是LMArena早期框架搭建參與者朱邦華在采訪中表示,正是因?yàn)閭鹘y(tǒng)的靜態(tài)Benchmark所存在的過擬合、數(shù)據(jù)污染等問題,才催生出了Arena這種新的模型測(cè)評(píng)方式的出現(xiàn)。

朱邦華 華盛頓大學(xué)助理教授 英偉達(dá)首席研究科學(xué)家: 當(dāng)時(shí)比較流行的幾個(gè)Benchmark,比如Math500、MMLU,有幾個(gè)問題。
大家非常容易o(hù)verfit(過擬合),比如一共就有幾百個(gè)問題,我如果都有g(shù)round truth(標(biāo)準(zhǔn)答案),而且我都有訓(xùn)練在ground truth(標(biāo)準(zhǔn)答案)上,雖然有一些所謂的contamination detection method(污染檢測(cè)方式),但其實(shí)這個(gè)是比較難真的百分之百做到detection(檢測(cè))。所以這種static benchmark(靜態(tài)基準(zhǔn)),一是數(shù)量很少,二是大家可能覆蓋面不太夠,它可能就有最簡(jiǎn)單的數(shù)學(xué),最簡(jiǎn)單的一些基礎(chǔ)知識(shí),然后最簡(jiǎn)單的一些代碼生成,像HumanEval這種。
當(dāng)時(shí)的Benchmark數(shù)量少,同時(shí)coverage(覆蓋面)也不太好的情況下,Arena就作為一個(gè)非常獨(dú)特的Benchmark出現(xiàn)了,因?yàn)樗恳粋€(gè)問題都是unique(獨(dú)特的),它可能是世界各地的人問, 可能是俄羅斯或者越南的人在問你這樣一個(gè)問題,同時(shí)他問的問題真的就是隨時(shí)隨地、當(dāng)時(shí)當(dāng)?shù)厝ハ氲囊粋€(gè)問題,所以這個(gè)事就很難去在當(dāng)時(shí)overfit(過擬合),尤其是在當(dāng)時(shí)大家都沒有Arena數(shù)據(jù)的時(shí)候。


02

從伯克利實(shí)驗(yàn)室到全球擂臺(tái)賽LMArena如何運(yùn)作?

2023年5月,LMArena的雛形誕生于由全球頂尖學(xué)府組成的非營(yíng)利性開放研究組織LMSYS。核心成員包括Lianmin Zheng、Ying Sheng、Wei-Lin Chiang等人。

當(dāng)時(shí)他們剛剛發(fā)布了開源模型Vicuna,而斯坦福大學(xué)在此之前也推出了另一個(gè)類似的,叫Alpaca。因?yàn)檫@兩個(gè)模型都是基于大型語(yǔ)言模型進(jìn)行微調(diào)的開源項(xiàng)目,于是LMSYS的團(tuán)隊(duì)想知道,從性能和表現(xiàn)上來看,究竟誰(shuí)更勝一籌?


當(dāng)時(shí)并沒有合適的評(píng)測(cè)方法能回答這個(gè)問題。LMSYS團(tuán)隊(duì)嘗試了兩種方法:

一是嘗試讓GPT-3.5作為評(píng)委,對(duì)不同模型生成的答案打0到10分,這種方法后來演化成MT-Bench(Model-Test Benchmark)。

另一種方式是采用人類比較(Pairwise Comparison),即隨機(jī)挑選兩個(gè)模型,針對(duì)同一個(gè)問題分別生成回答,再讓人類評(píng)審選擇哪一個(gè)更好。

最終,第二種方式被證明更可靠,并由此誕生了Arena的核心機(jī)制。


基于此,他們首先搭建了一個(gè)實(shí)驗(yàn)性網(wǎng)站Chatbot Arena,也就是今天的 LMArena的前身。在傳統(tǒng)的基準(zhǔn)測(cè)試?yán)?,模型是在預(yù)設(shè)題庫(kù)中答題,而在Chatbot Arena上,它們則要“上場(chǎng)打擂臺(tái)”。

當(dāng)用戶輸入一個(gè)問題后,系統(tǒng)會(huì)隨機(jī)分配兩個(gè)模型,比如GPT-4和Claude,但用戶并不知道自己面對(duì)的是誰(shuí)。兩邊模型幾乎同時(shí)生成回答,用戶只需投票:左邊好,還是右邊好?等投票完成后,系統(tǒng)才會(huì)揭示它們的真實(shí)身份。這個(gè)過程被稱作 “匿名對(duì)戰(zhàn)”。


投票結(jié)束后,系統(tǒng)基于Bradley–Terry模型實(shí)現(xiàn)Elo式評(píng)分機(jī)制,分?jǐn)?shù)會(huì)根據(jù)勝負(fù)實(shí)時(shí)變化,從而形成一個(gè)動(dòng)態(tài)排行榜。

Elo排名機(jī)制最早來自國(guó)際象棋。 每個(gè)模型都有一個(gè)初始分?jǐn)?shù),每次贏一場(chǎng)就漲分,輸一場(chǎng)就扣分。隨著對(duì)戰(zhàn)次數(shù)增加,分?jǐn)?shù)會(huì)逐漸收斂最終形成一個(gè)動(dòng)態(tài)的模型排行榜。


這種機(jī)制的妙處在于,它讓評(píng)測(cè)變成了一場(chǎng)“真實(shí)世界的動(dòng)態(tài)實(shí)驗(yàn)”,而不再是一次性的閉卷考試。除此之外,LMArena不僅僅只是“讓模型打架”,它背后還有一個(gè)獨(dú)特的“人機(jī)協(xié)同評(píng)估框架”。

這個(gè)框架的邏輯是用人類投票去捕捉“真實(shí)偏好”,再通過算法去保證“統(tǒng)計(jì)公平”。平臺(tái)會(huì)自動(dòng)平衡模型的出場(chǎng)頻率、任務(wù)類型和樣本分布,防止某個(gè)模型因?yàn)槠毓饬看蠖弧案吖馈薄?換句話說,它讓評(píng)測(cè)既開放又可控。更重要的是,Chatbot Arena的所有數(shù)據(jù)和算法都是開源的,任何人都可以復(fù)現(xiàn)或分析結(jié)果。


作為L(zhǎng)MArena早期搭建的核心參與者,朱邦華告訴我們,LMArena的技術(shù)本身并不是新算法,更多的是經(jīng)典統(tǒng)計(jì)方法的工程化實(shí)現(xiàn)。它的創(chuàng)新點(diǎn)不在于模型本身,而在于系統(tǒng)架構(gòu)與調(diào)度機(jī)制。

朱邦華 華盛頓大學(xué)助理教授 英偉達(dá)首席研究科學(xué)家: 一方面,雖然這個(gè)Bradley–Terry Model本身沒有什么太多技術(shù)上的新的東西,但是你怎么選模型這個(gè)事是比較新的,是大家摸索出來的。
現(xiàn)在假設(shè)有100個(gè)模型,我想了解到底哪個(gè)更好,你其實(shí)需要一些active learning(主動(dòng)學(xué)習(xí))。假設(shè)我選了一些模型出來,已經(jīng)知道它們大概怎么樣了,那接下來選模型就應(yīng)該選一些更不確定的模型,然后去做比較。怎么去dynamically(動(dòng)態(tài))選出更適合來對(duì)比的模型,是我們當(dāng)時(shí)探索比較多的事兒。當(dāng)時(shí)我們做了一些相關(guān)的系列研究,又去做了一些實(shí)驗(yàn)性研究,去比較一下怎么去調(diào)這些不同的參數(shù),能讓更好的模型被選出來,這是LMArena成功的一個(gè)因素。
我個(gè)人覺得這種項(xiàng)目可能還有一些時(shí)機(jī)和運(yùn)氣的成分在里面。因?yàn)楫?dāng)時(shí)大家都需要很好的評(píng)估基準(zhǔn),這時(shí)人類偏好又完全沒有被saturated(飽和)。那時(shí)的人類偏好確實(shí)比較真實(shí)地反應(yīng)模型本身的能力,所以在那個(gè)時(shí)候,我覺得Arena作為這個(gè)行業(yè)的gold benchmark(黃金基準(zhǔn))是非常合理的。


圖片來源:LMArena

LMArena這種“匿名對(duì)戰(zhàn) + 動(dòng)態(tài)評(píng)分”的方式,被認(rèn)為是從靜態(tài)Benchmark向動(dòng)態(tài)評(píng)測(cè)的一次躍遷。它不再追求一個(gè)最終分?jǐn)?shù),而是讓評(píng)測(cè)變成一場(chǎng)持續(xù)發(fā)生的“真實(shí)世界實(shí)驗(yàn)”。

它就像是一個(gè)實(shí)時(shí)運(yùn)行的AI智能觀測(cè)站。在這里,模型的優(yōu)劣不再由研究者定義,而是由成千上萬用戶的選擇來共同決定。

2023年12月底,前特斯拉AI總監(jiān)、OpenAI早期成員Andrej Karpathy在X(推特)上發(fā)了一條關(guān)于LMArena 的推文,稱“目前他只信任兩個(gè) LLM 評(píng)測(cè)方式:Chatbot Arena和r/LocalLlama”,給Chatbot ArenaI社區(qū)中收獲到了第一批“流量”。


2023年底到2024年初, 隨著GPT-4、Claude、Gemini、Mistral、DeepSeek等模型的陸續(xù)接入Chatbot Arena,平臺(tái)的訪問量迅速增長(zhǎng)。研究者、開發(fā)者、甚至普通用戶,都在這里觀察模型的“真實(shí)表現(xiàn)”。

到了2024年底,平臺(tái)的功能和評(píng)測(cè)任務(wù)開始擴(kuò)展,除了語(yǔ)言模型的對(duì)話任務(wù),團(tuán)隊(duì)還逐漸涉及到了大模型的“細(xì)分賽道”,陸續(xù)上線了專注代碼生成的Code Arena、專注搜索評(píng)估的Search Arena、專注多模態(tài)圖像理解的Image Arena等子平臺(tái)。


圖片來源:LMArena

為了體現(xiàn)評(píng)測(cè)范圍的擴(kuò)展,平臺(tái)也在2025年1月正式從Chatbot Arena更名為L(zhǎng)MArena(Large Model Arena)。幾個(gè)月前,谷歌Nano Bnana的爆火也是讓更多普通用戶關(guān)注到了LMArena。至此,LMArena從一個(gè)研究者間的小眾項(xiàng)目,徹底成為AI圈乃至公眾視野中的“大模型競(jìng)技舞臺(tái)”。

不久前爆火的谷歌最新文生圖模型Nano Banana,它其實(shí)最早以神秘代號(hào)出現(xiàn)、并引發(fā)“破圈式”關(guān)注的地方就是LMArena。

最近網(wǎng)友們發(fā)現(xiàn)谷歌又故技重施,傳聞已久的Gemini 3.0被發(fā)現(xiàn)已經(jīng)出現(xiàn)在了LMArena上。 根據(jù)網(wǎng)友們的測(cè)試反饋,Gemini3.0 Pro的代號(hào)應(yīng)該是lithiumflow,而Gemini 3.0 Flash是orionmist。據(jù)說能“讀表”、能作曲和演奏,能力再一次全方位飛升。


不難看出,在正式發(fā)布新模型前,讓它們?cè)贚MArena上跑一跑,似乎已經(jīng)成為了谷歌的慣例操作。而實(shí)際上,各家模型其實(shí)早就已經(jīng)把LMArena當(dāng)作了“常規(guī)賽場(chǎng)“,用來測(cè)試普通用戶最真實(shí)的反饋。

除了Google,OpenAI、Anthropic、Llama、DeepSeek、混元、千問……幾乎所有的頭部模型都在LMArena“打擂臺(tái)”。

03

刷榜、偏見與資本

LMArena光環(huán)之下的“公平性”危機(jī)

LMArena 的火爆,讓它幾乎成了大模型評(píng)測(cè)的“非官方標(biāo)準(zhǔn)”,但和所有新的實(shí)驗(yàn)一樣,隨著光環(huán)越來越大,它也受到了越來越多的質(zhì)疑。

首先是公平性問題。在 LMArena 的匿名對(duì)戰(zhàn)機(jī)制中,用戶的投票結(jié)果直接決定模型的Elo排名,然而,這種“人類評(píng)判”的方式,并不總是中立的。

不同語(yǔ)言背景、文化偏好甚至個(gè)人使用習(xí)慣,都會(huì)影響投票結(jié)果。 一些研究發(fā)現(xiàn),用戶更傾向于選擇“語(yǔ)氣自然”“回答冗長(zhǎng)”的模型,而不一定是邏輯最嚴(yán)謹(jǐn)、信息最準(zhǔn)確的那一個(gè)。這意味著,模型可能因?yàn)椤坝懭讼矚g”而獲勝,而非真的更聰明。


2025年初,來自Cohere、斯坦福大學(xué)以及多家研究機(jī)構(gòu)的團(tuán)隊(duì)聯(lián)合發(fā)布了一篇研究論文,系統(tǒng)分析了LMArena的投票機(jī)制與數(shù)據(jù)分布。研究指出,Arena的結(jié)果與傳統(tǒng)benchmark分?jǐn)?shù)之間并非強(qiáng)相關(guān),而且存在“話題偏差”與“地區(qū)偏差”,也就是說不同類型的問題、或不同用戶群體的投票,可能顯著改變模型的排名。

此外,還有 “游戲化” 與“過擬合” 的問題。當(dāng)LMArena的排名被廣泛引用、甚至被媒體視為模型能力的“權(quán)威榜單”時(shí),一些公司開始為“上榜”專門優(yōu)化模型的回答風(fēng)格。比如更積極地使用模糊語(yǔ)氣、提升字?jǐn)?shù)密度、或在提示工程上精細(xì)調(diào)教,以希望“贏得投票”。

Cohere的那篇研究論文就明確指出,大型供應(yīng)商在獲取用戶數(shù)據(jù)方面擁有顯著優(yōu)勢(shì)。通過API接口,它們能夠收集到大量的用戶與模型交互的數(shù)據(jù),包括提示和偏好設(shè)置。

然而,這些數(shù)據(jù)并未被公平地共享,62.8%的所有數(shù)據(jù)都流向了特定的模型提供商。比如Google和OpenAI的模型分別獲得了Arena上約19.1%和20.2%的全部用戶對(duì)戰(zhàn)數(shù)據(jù),而其他83個(gè)開源模型的總數(shù)據(jù)占比僅為29.7%。


這使得專用模型供應(yīng)商能夠利用更多的數(shù)據(jù)進(jìn)行優(yōu)化,甚至可能針對(duì)LMArena平臺(tái)進(jìn)行專門優(yōu)化,導(dǎo)致過度擬合特定指標(biāo),從而提升排名。

一個(gè)典型例子是 Meta 的“刷榜事件”。今年4月,Meta在LMArena上提交的Llama 4 Maverick模型版本,表現(xiàn)超越GPT-4o與Claude,躍居榜單第二。但隨著Llama 4大模型開源版上線,開發(fā)者們發(fā)現(xiàn)其真實(shí)效果的表現(xiàn)并不好,因此質(zhì)疑Meta疑似給LMArena提供了經(jīng)過專門針對(duì)投票機(jī)制的優(yōu)化的“專供版”模型,導(dǎo)致Llama 4的口碑急轉(zhuǎn)直下。


輿論爆發(fā)后,LMArena官方更新了排行榜政策,要求廠商披露模型版本與配置,以確保未來評(píng)估的公平性和可重復(fù)性,并將把公開的Hugging Face版本的Llama 4 Maverick加入排行榜進(jìn)行重新評(píng)估,但事件仍然在當(dāng)時(shí)引發(fā)了業(yè)內(nèi)關(guān)于“評(píng)測(cè)公正性”的激烈討論。

除了系統(tǒng)和技術(shù)上的挑戰(zhàn),LMArena的商業(yè)化也讓它的中立性受到質(zhì)疑

2025年5月,LMArena背后的團(tuán)隊(duì)正式注冊(cè)公司“Arena Intelligence Inc.”,并宣布完成1億美元種子輪融資,投資方包括a16z、UC Investments和 Lightspeed等。


這也意味著,LMArena正式從一個(gè)開源研究項(xiàng)目,轉(zhuǎn)變?yōu)榫邆渖虡I(yè)化運(yùn)營(yíng)能力的企業(yè)。公司化后,平臺(tái)可能開始探索數(shù)據(jù)分析、定制化評(píng)測(cè)和企業(yè)級(jí)報(bào)告等商業(yè)服務(wù)。

這一轉(zhuǎn)變,也讓業(yè)界開始擔(dān)憂,當(dāng)資本介入、客戶需求與市場(chǎng)壓力疊加時(shí),LMArena是否還能保持最初“開放”與“中立” ?它的角色是否會(huì)從“裁判”變成“利益相關(guān)方”?

在LMArena之后,大模型評(píng)測(cè)似乎進(jìn)入了一個(gè)新的拐點(diǎn)。它解決了過去Benchmark靜態(tài)、封閉的問題,卻也暴露出新的矛盾。那就是當(dāng)評(píng)測(cè)數(shù)據(jù)、用戶偏好、甚至投票機(jī)制,都可能成為商業(yè)競(jìng)爭(zhēng)的一部分,我們?cè)撊绾谓缍ā肮健??究竟什么樣的模型評(píng)估方式,才是當(dāng)前所需要的呢?

04

從“實(shí)戰(zhàn)”到“動(dòng)靜結(jié)合”

未來評(píng)測(cè)走向何方?

實(shí)際上,LMArena的出現(xiàn),并不意味著傳統(tǒng)的Benchmark已經(jīng)過時(shí)。在它之外,靜態(tài)的Benchmark仍然在持續(xù)演化。

近幾年來,基于傳統(tǒng)的Benchmark,研究者陸續(xù)推出了難度更高的版本,比如MMLU Pro、BIG-Bench-Hard等。 此外,一些全新的、聚焦于細(xì)分領(lǐng)域的Benchmark也在被不斷創(chuàng)造出來,比如數(shù)學(xué)與邏輯領(lǐng)域的AIME 2025、編程領(lǐng)域的SWE-Bench、多智能體領(lǐng)域的AgentBench等等。


這些新的Benchmark,不再只是“考知識(shí)”,而是在模擬模型在真實(shí)世界中的工作方式。從過去單一的考試題集,演化為了一個(gè)龐大而多層次的體系:有的評(píng)推理,有的測(cè)代碼,有的考記憶與交互。

與此同時(shí),評(píng)測(cè)也正在進(jìn)一步走向“真實(shí)世界”。比如最近一家名為Alpha Arena的新平臺(tái)就引發(fā)了大量關(guān)注。它由創(chuàng)業(yè)公司nof1.ai推出,在首輪活動(dòng)中,平臺(tái)選取了Deepseek、Genimi、GPT、Claud、Gork和千問等六大模型在真實(shí)的加密貨幣交易市場(chǎng)中進(jìn)行對(duì)戰(zhàn)。

它給了每個(gè)模型相同的資金和Prompt,讓它們獨(dú)立決策和交易,最終以實(shí)際收益和策略穩(wěn)定性作為評(píng)測(cè)依據(jù)。結(jié)果是:DeepSeek竟然贏了!不愧是量化基金母公司下面做出來的AI模型。


雖然這個(gè)對(duì)戰(zhàn)更多是“噱頭”為主,大語(yǔ)言模型去預(yù)測(cè)股市現(xiàn)在還是非常不靠譜的,但Alpha Arena的這種“實(shí)戰(zhàn)式評(píng)測(cè)”再一次跳出了傳統(tǒng)的題庫(kù)和問答框架,讓模型在動(dòng)態(tài)、對(duì)抗的環(huán)境中被檢驗(yàn),被視為是繼LMArena之后,又一次嘗試讓AI在開放世界中接受考驗(yàn)的實(shí)驗(yàn)。

不過,Alpha Arena更偏向特定任務(wù)領(lǐng)域的真實(shí)驗(yàn)證, 其結(jié)果也更難復(fù)現(xiàn)與量化。

實(shí)際上,這些Arena出現(xiàn)的意義,也并非是要取代靜態(tài)Benchmark,而是為這個(gè)體系提供一面鏡子,試圖把靜態(tài)測(cè)試中難以衡量的人類偏好與語(yǔ)義細(xì)節(jié),重新引入到評(píng)測(cè)系統(tǒng)中。


也就是說,未來的模型評(píng)估,不再是靜態(tài)Benchmark和Arena之間的二選一,而更可能是一種融合式的評(píng)測(cè)框架。靜態(tài)benchmark負(fù)責(zé)提供可復(fù)現(xiàn)、可量化的標(biāo)準(zhǔn);而Arena負(fù)責(zé)提供動(dòng)態(tài)、開放、面向真實(shí)交互的驗(yàn)證。兩者結(jié)合,進(jìn)而構(gòu)成衡量智能的完整坐標(biāo)系。

在這個(gè)評(píng)估體系中,目前最重要、也具挑戰(zhàn)的部分是什么呢?朱邦華認(rèn)為,隨著大模型能力提升,原有測(cè)試集“太簡(jiǎn)單”的問題愈發(fā)突出,Arena的自動(dòng)難度過濾提出了階段性解決方案,但真正的方向是由人類專家與強(qiáng)化學(xué)習(xí)環(huán)境共同推動(dòng)的高難度數(shù)據(jù)建設(shè)。


朱邦華 華盛頓大學(xué)助理教授 英偉達(dá)首席研究科學(xué)家: 之前包括Arena在內(nèi),大家會(huì)抱怨一個(gè)問題:簡(jiǎn)單的問題太多了。隨著模型變得越來越強(qiáng),“簡(jiǎn)單”的定義也會(huì)變得越來越大,可能越來越多的prompt都屬于是easy prompt。
所以當(dāng)時(shí)Arena出了一個(gè)Hard Filter Version(難度過濾版),它直接問模型說哪一個(gè)更難,然后去篩選一些hard prompt出來?,F(xiàn)在隨著thinking model(具備顯式思維鏈的模型)的引入,也隨著大家接著用RL(強(qiáng)化學(xué)習(xí))訓(xùn)練各種各樣的模型,這個(gè)原來難的問題、原來難的prompt現(xiàn)在也不是特別難了。
所以這個(gè)時(shí)候可能就更需要人類專家,去標(biāo)各種各樣更難的數(shù)據(jù)作為Benchmark(基準(zhǔn)測(cè)試),這也是我們作為模型開發(fā)者正在做的事兒。如果你看的Grok 4,它們可能做Pretraining-scale RL(預(yù)訓(xùn)練規(guī)模強(qiáng)化學(xué)習(xí))。一方面你的RL數(shù)據(jù)就得非常多,另一方面,如果你RL數(shù)據(jù)都是用非常簡(jiǎn)單的數(shù)據(jù),那其實(shí)對(duì)模型不會(huì)有任何提升,所以你需要大量的、非常困難的數(shù)據(jù)。
包括我現(xiàn)在在英偉達(dá)做的一個(gè)事,也是想做一個(gè)RL Environment Hub(強(qiáng)化學(xué)習(xí)環(huán)境平臺(tái)),讓大家去創(chuàng)造更多更難的這種環(huán)境進(jìn)來,能讓更多人來用RL去訓(xùn)練它。

朱邦華談到,大模型評(píng)估的未來,不會(huì)是線性的改進(jìn),而是螺旋式的共演一邊是不斷變強(qiáng)的模型,另一邊是不斷變難的評(píng)測(cè)。模型的突破,迫使評(píng)測(cè)體系升級(jí);而新的評(píng)測(cè),又反過來定義了模型的能力邊界。而高質(zhì)量的數(shù)據(jù)成為了連接兩者的中軸。


圖片來源:mercor

朱邦華 華盛頓大學(xué)助理教授 英偉達(dá)首席研究科學(xué)家: RL和Evaluation(評(píng)測(cè)),或者說Training(訓(xùn)練)和Evaluation(評(píng)測(cè))就像是雙螺旋的感覺,一方面Training訓(xùn)練)不斷地讓模型變強(qiáng),然后你就會(huì)有更難的基準(zhǔn)測(cè)試出來說:你現(xiàn)在的這個(gè)模型還不行。然后,你就會(huì)提升你的訓(xùn)練,比如說環(huán)境的難度,或者是你找更好的model architecture(模型架構(gòu))、更好的算法,然后把模型能力再提升,你可能就需要更難的評(píng)測(cè)?,F(xiàn)在似乎就已經(jīng)到了,大家這兩步都得慢慢不斷地找人類專家來去標(biāo)的程度。
現(xiàn)在大部分RL Environment Labeling(強(qiáng)化學(xué)習(xí)環(huán)境標(biāo)注)的工作他們都會(huì)去找博士級(jí)別的人,比如頂尖的Math PhD(數(shù)學(xué)博士)、頂尖的CS PhD(計(jì)算機(jī)科學(xué)博士)去標(biāo)math coding data(數(shù)學(xué)代碼數(shù)據(jù)),然后這個(gè)數(shù)據(jù)賣的也非常貴,一條可能就是幾千美元的水平。所以現(xiàn)在大家慢慢的都偏向找這種expert data(專家數(shù)據(jù)),能夠讓GPT-5或者是其他頂尖模型都沒有辦法回答或者回答錯(cuò)的數(shù)據(jù),通過這種方式來構(gòu)造更難的Training data(訓(xùn)練數(shù)據(jù))和Evaluation data(評(píng)估數(shù)據(jù))。

除了數(shù)據(jù)質(zhì)量至關(guān)重要之外,朱邦華還認(rèn)為,研究者不僅要“造benchmark”,更要學(xué)會(huì)“選benchmark”。如何在成百上千個(gè)數(shù)據(jù)集中進(jìn)行篩選、組合與聚合,建立一個(gè)兼顧統(tǒng)計(jì)有效性與人類偏好的聚合框架,也將是接下來幾年重要的工作方向。


正如OpenAI的研究員姚順雨在他的博客《The Second Half》中寫道:AI 的上半場(chǎng),是關(guān)于“如何訓(xùn)練模型”;而下半場(chǎng),則是“如何定義與衡量智能”。如今,評(píng)測(cè)不再只是AI模型性能的終點(diǎn),而正在成為 AI 向前發(fā)展的“核心科學(xué)”。

究竟什么樣的評(píng)估方法才是最優(yōu)的,或許我們目前還無法下定論。但能夠預(yù)見的是,這將是一場(chǎng)持續(xù)進(jìn)行的實(shí)驗(yàn):我們需要在成百上千個(gè)benchmark中找到那些真正有價(jià)值的任務(wù),然后在類似于LMArena這樣的“競(jìng)技場(chǎng)”中去捕捉人類偏好的信號(hào),最后再將它們結(jié)合成一個(gè)動(dòng)態(tài)、開放、可信的智能測(cè)量體系。

也許在那一天,我們不再需要問“哪個(gè)模型最強(qiáng)?”而是去真正探索 “智能,究竟是什么?” 歡迎大家給我們留言,你們覺得LMArena的方式是否是衡量模型的最好標(biāo)準(zhǔn)?

視頻有視覺和音樂的加持,更能呈現(xiàn)出這些精彩的故事細(xì)節(jié)。 請(qǐng)?zhí)D(zhuǎn)至硅谷101【視頻號(hào)】收看完整版

注:部分圖片來源于網(wǎng)絡(luò)

【本期節(jié)目不構(gòu)成任何投資建議】

【視頻播放渠道】

國(guó)內(nèi):B站|騰訊|視頻號(hào)|西瓜|頭條|百家號(hào)|36kr|微博|虎嗅

海外:Youtube

聯(lián)系我們:video@sv101.net

【創(chuàng)作團(tuán)隊(duì)】

監(jiān)制|泓君 陳茜

撰稿 |張珺玥

主持|陳茜

剪輯|Frentee 橘子

動(dòng)效|踹

運(yùn)營(yíng)|王梓沁 孫澤平 何源清

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
中國(guó)六代機(jī)的第1個(gè)戰(zhàn)果,已經(jīng)出來了:美國(guó)有可能隨時(shí)放棄F-35

中國(guó)六代機(jī)的第1個(gè)戰(zhàn)果,已經(jīng)出來了:美國(guó)有可能隨時(shí)放棄F-35

Ck的蜜糖
2026-03-27 16:55:42
《浪姐7》首播:闞清子李小冉曬人脈,唯獨(dú)她的朋友不大給面子

《浪姐7》首播:闞清子李小冉曬人脈,唯獨(dú)她的朋友不大給面子

椰黃娛樂
2026-03-28 16:07:25
嫁到中國(guó)一年的德國(guó)姑娘,回德國(guó)2天后直言:中國(guó)的快了“有毒”

嫁到中國(guó)一年的德國(guó)姑娘,回德國(guó)2天后直言:中國(guó)的快了“有毒”

番外行
2026-03-29 00:05:03
美以的飛行員估計(jì)都飛懵了

美以的飛行員估計(jì)都飛懵了

荷蘭豆愛健康
2026-03-28 20:58:48
師徒?jīng)Q裂!奧運(yùn)冠軍發(fā)文炮轟76歲恩師:披著羊皮的狼,逼我吃藥!

師徒?jīng)Q裂!奧運(yùn)冠軍發(fā)文炮轟76歲恩師:披著羊皮的狼,逼我吃藥!

拳擊時(shí)空
2026-03-29 05:01:30
抱緊美日大腿,停飛中國(guó)航班、拒絕中國(guó)游客的小國(guó),如今怎樣了?

抱緊美日大腿,停飛中國(guó)航班、拒絕中國(guó)游客的小國(guó),如今怎樣了?

興史興談
2026-03-28 12:37:56
喬-科爾:我認(rèn)為C羅可能每晚都在遺憾,渴望能像梅西一樣出色

喬-科爾:我認(rèn)為C羅可能每晚都在遺憾,渴望能像梅西一樣出色

懂球帝
2026-03-28 21:40:23
布澤爾:當(dāng)年只跟新秀詹姆斯合練過一次,全隊(duì)就知道他最強(qiáng)!

布澤爾:當(dāng)年只跟新秀詹姆斯合練過一次,全隊(duì)就知道他最強(qiáng)!

歷史第一人梅西
2026-03-29 11:05:27
寧波政府帶頭加價(jià)收舊房,寧波二手房成交大漲132%

寧波政府帶頭加價(jià)收舊房,寧波二手房成交大漲132%

新浪財(cái)經(jīng)
2026-03-29 10:08:19
俄羅斯突然“關(guān)閘”!40%的貿(mào)易流說斷就斷,全球買家慌了

俄羅斯突然“關(guān)閘”!40%的貿(mào)易流說斷就斷,全球買家慌了

國(guó)際阿嘗
2026-03-29 05:51:45
大連一企業(yè)董事長(zhǎng)行賄法官120萬內(nèi)幕:“被告打點(diǎn)法官竟要原告買單”

大連一企業(yè)董事長(zhǎng)行賄法官120萬內(nèi)幕:“被告打點(diǎn)法官竟要原告買單”

白鹿新聞
2026-03-28 17:30:32
伊朗突襲成功!美國(guó)被打懵,遭開戰(zhàn)最大重創(chuàng)!

伊朗突襲成功!美國(guó)被打懵,遭開戰(zhàn)最大重創(chuàng)!

大嘴說天下
2026-03-28 19:30:43
原來她是張雪峰前妻,90后歷史學(xué)博士?,兩人離婚后曾一起上節(jié)目

原來她是張雪峰前妻,90后歷史學(xué)博士?,兩人離婚后曾一起上節(jié)目

大鐵貓娛樂
2026-03-25 13:03:57
快訊!伊朗會(huì)成為第二個(gè)伊拉克?

快訊!伊朗會(huì)成為第二個(gè)伊拉克?

達(dá)文西看世界
2026-03-29 14:12:42
美國(guó)打伊朗到底圖什么?八成中國(guó)人以為是搶石油……

美國(guó)打伊朗到底圖什么?八成中國(guó)人以為是搶石油……

基本常識(shí)
2026-03-02 23:53:16
賴清德收到“參會(huì)通知”,身份一欄的標(biāo)注讓其直接破防:不去了!

賴清德收到“參會(huì)通知”,身份一欄的標(biāo)注讓其直接破防:不去了!

翡翠清泉
2026-03-28 11:43:42
千萬不要小看F-35,雖然打不過殲-20,卻是東風(fēng)快遞、紅旗導(dǎo)彈的巨大威脅

千萬不要小看F-35,雖然打不過殲-20,卻是東風(fēng)快遞、紅旗導(dǎo)彈的巨大威脅

利刃號(hào)
2026-02-02 19:07:20
重磅:烏克蘭“火烈鳥”導(dǎo)彈摧毀俄羅斯薩馬拉導(dǎo)彈工廠!

重磅:烏克蘭“火烈鳥”導(dǎo)彈摧毀俄羅斯薩馬拉導(dǎo)彈工廠!

項(xiàng)鵬飛
2026-03-28 20:22:28
美媒:對(duì)不起殲-20和殲-35,“新款”F-22戰(zhàn)斗機(jī)已經(jīng)揭開神秘面紗

美媒:對(duì)不起殲-20和殲-35,“新款”F-22戰(zhàn)斗機(jī)已經(jīng)揭開神秘面紗

零度Military
2026-03-26 22:20:35
歷時(shí)三年打磨!淮海中路這個(gè)地下空間“華麗轉(zhuǎn)身”

歷時(shí)三年打磨!淮海中路這個(gè)地下空間“華麗轉(zhuǎn)身”

上海黃浦
2026-03-29 13:12:18
2026-03-29 15:03:00
硅谷101 incentive-icons
硅谷101
從這里駛向未來
162文章數(shù) 105關(guān)注度
往期回顧 全部

科技要聞

馬斯克承認(rèn)xAI"建錯(cuò)了",11位創(chuàng)始人均離職

頭條要聞

網(wǎng)約車司機(jī)被騙網(wǎng)貸后車內(nèi)輕生:我不想死 但扛不住了

頭條要聞

網(wǎng)約車司機(jī)被騙網(wǎng)貸后車內(nèi)輕生:我不想死 但扛不住了

體育要聞

絕殺衛(wèi)冕冠軍后,他單手指天把勝利獻(xiàn)給父親

娛樂要聞

張凌赫事件持續(xù)升級(jí)!官方點(diǎn)名怒批

財(cái)經(jīng)要聞

Kimi、Minimax 們的算力荒

汽車要聞

嵐圖泰山X8配置曝光 四激光雷達(dá)/華為新一代座艙

態(tài)度原創(chuàng)

家居
手機(jī)
數(shù)碼
公開課
軍事航空

家居要聞

曲線華爾茲 現(xiàn)代簡(jiǎn)約

手機(jī)要聞

OPPO K15 Pro全系標(biāo)配12GB內(nèi)存 產(chǎn)品經(jīng)理:用16GB上天了 太貴了

數(shù)碼要聞

TCL空調(diào)廣州工廠投產(chǎn) 年內(nèi)預(yù)計(jì)實(shí)現(xiàn)30億元產(chǎn)值

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美兩棲攻擊艦載3500名增援到達(dá)

無障礙瀏覽 進(jìn)入關(guān)懷版