国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

給大模型排名!兩個博士一年干出17億美金AI獨角獸

0
分享至


AI模型能力爭議從2025吵到2026,一家靠“給模型打分”的公司率先跑成了獨角獸。

本月,隨著一筆1.5億美元融資的落定,AI大模型評測機構(gòu)LMArena,估值沖至17億美元。

這個起源于伯克利校園的項目,看似偶然,實則精準命中了AI時代一個日益尖銳的痛點:當傳統(tǒng)的考試框架被模型反復“刷題”、逐漸失靈,我們該如何判斷一個模型是否真正有用

LMArena的答案簡潔而顛覆:把裁決權(quán)交給用戶,讓每一次點擊成為投票。日均上千場對戰(zhàn)、數(shù)萬次匿名比拼在此上演,也成為所有大廠不敢缺席的“試金石”。

在爭議與流量齊飛中,LMArena在2025年9月完成了關鍵一躍:將數(shù)千萬次人類偏好數(shù)據(jù),封裝成B端評估服務。產(chǎn)品僅上線4個月,其年化經(jīng)常性收入突破3000萬美元,OpenAI、Google、xAI等頭部AI企業(yè)均成為其核心付費客戶。

LMArena或許并非完美的答案,其眾包模式也始終伴隨著“不夠?qū)I(yè)”、“易被操縱”的批評。

然而,它的迅速商業(yè)化與估值飆升,如同一面刺眼的鏡子,尖銳地揭示了舊有評估體系的失效,并將選擇權(quán)部分交還給了用戶。

當刷榜不再可信,用千萬次匿名對決選出“好用”的AI

從2025 年開始,AI 行業(yè)出現(xiàn)了一種微妙卻普遍的情緒變化。

模型還在發(fā)布,榜單還在刷新,但興奮感正在快速衰減。一次次參數(shù)升級、一次次排行榜登頂,越來越像一場成本高昂卻回報有限的表演。

產(chǎn)品落地節(jié)奏跟不上模型宣傳節(jié)奏,甚至連微軟內(nèi)部的研究人員,也公開談到自己正在經(jīng)歷“AI 疲勞”。

更深層的問題在于,榜單正在塑造一種并不健康的激勵機制。

當模型能力被壓縮進有限的基準測試中,優(yōu)化目標就會迅速收斂。

面對開放式問題,不同模型的回答在結(jié)構(gòu)、措辭、推理路徑上高度相似,看似穩(wěn)健,實則趨同。創(chuàng)造力下降并不是因為模型不夠強,而是因為它們被訓練成了“會考試的學生”。

華盛頓大學教授朱邦華曾指出,這正是當前評測體系的核心缺陷。

基準測試數(shù)量有限、覆蓋場景狹窄,模型極易產(chǎn)生過擬合。它們學會的并非理解與推理,而是如何針對題庫進行“應試準備”。靜態(tài)測試的存在,本身就在引導模型向固定解法靠攏。

在這一背景下,行業(yè)開始重新討論一個更現(xiàn)實的問題:如何評估模型的真實能力?

答案正在從排行榜遷移。比起分數(shù)高低,人們開始關心更具體的維度:模型是否容易集成進真實系統(tǒng)?在專業(yè)場景中是否穩(wěn)定可靠?能否在長期使用中保持一致表現(xiàn)?以及,它是否真的理解業(yè)務語境,而不是給出看似正確的通用答案。

也正是在這種集體焦慮中,一個“匿名選手”的走紅,提供了另一種可能性。

2025 年 8 月,一個名為 nano-banana 的模型,悄然出現(xiàn)在 LMArena 的圖像編輯競技場。沒有發(fā)布會,沒有技術(shù)白皮書,甚至連模型名稱都是匿名的。平臺采用完全盲測機制,用戶只能看到結(jié)果,通過對比投票來判斷優(yōu)劣。

短短兩周,這個模型累計獲得超過500 萬次社區(qū)投票,其中直接勝出票達到 250 萬張,以明顯優(yōu)勢登頂榜首。

流量隨之涌入。LMArena 的整體訪問量在當月增長了 10 倍,月活用戶突破 300 萬。隨后,谷歌正式認領了這位“匿名選手”,其真實身份是 Gemini 2.5 Flash Image。

回頭看,這并非一次偶然事件。

最早的擴散來自Andrej Karpathy 的轉(zhuǎn)發(fā),隨后 OpenAI、Anthropic 等頭部廠商的模型陸續(xù)接入。原本只是一個對比工具的平臺,逐漸演變?yōu)橐粓鰢@真實用戶體驗展開的“模型對決”。

連思維鏈CoT 的提出者 Jason Wei 也參與了討論。他指出,好的評估體系應當聚焦智能的核心能力,比如語言理解、數(shù)學推理和問題解決,并且需要足夠大的樣本規(guī)模與清晰的判斷標準,而不是不斷疊加復雜但脫離實際的指標。

某種程度上,LMArena 恰好踩中了這一共識。

它的核心設計并不復雜,用戶每次提問,系統(tǒng)隨機抽取兩個匿名模型同時作答,結(jié)果并排展示為“回答 1”和“回答 2”。用戶從有用性、準確性、貼合度、安全性等角度投票,也可以選擇平局或都不滿意。甚至連用戶的提問本身,也會被納入評估數(shù)據(jù)。

這種機制天然貼近真實使用場景。編程、寫作、邏輯分析、法律解讀、多輪對話、多模態(tài)生成,都不是被拆分成單項能力測試,而是在完整任務中直接對比。

例如,在測試代碼能力時,用戶可能要求編寫一個函數(shù),用于提取網(wǎng)頁中的h1 到 h3 標簽。一個模型給出結(jié)構(gòu)完整、包含異常處理、可直接運行的代碼,另一個卻遺漏依賴或存在邏輯錯誤。投票結(jié)果不需要解釋,勝負自然分明。

當類似對比累積到數(shù)萬、數(shù)十萬次,模型在特定能力維度上的穩(wěn)定差異,開始顯現(xiàn)。

排名并非主觀印象,而是通過類似國際象棋排位賽的Elo 評級系統(tǒng)計算得出。每一次勝負都會影響評分,長期來看,只有在大量用戶偏好對比中持續(xù)占優(yōu)的模型,才能保持高位。

LMArena 甚至會主動拉開差距。

在Arena-Expert 模塊中,平臺刻意篩選出約 5.5% 的“專家級”提示,作為難度更高的測試樣本。這些問題往往更復雜、更偏邊緣場景,用來觀察模型在高壓情況下的表現(xiàn)分化。不同難度區(qū)間下的勝率變化,也成為分析模型能力上限的重要依據(jù)。

圍繞具體需求,平臺還衍生出多個專項競技場,包括Code Arena、Search Arena、Image Arena 等,將提問、生成、比較、投票整合為一個連續(xù)流程。用戶不是來“看榜單”的,而是在完成自己任務的過程中,順便完成評測。

這種評測方式的意義,在中文場景中體現(xiàn)得尤為明顯。

在2025 年 11 月發(fā)布的中文榜單中,國產(chǎn)大模型首次實現(xiàn)對國際模型的系統(tǒng)性反超。前十名中,國產(chǎn)模型占據(jù)八席,阿里巴巴的 Qwen3、智譜 AI 的 GLM-4.6 等模型,在真實中文任務中的勝率顯著領先。

可以說,LMArena 用一種新的方式,構(gòu)建了評估模型真實能力的新基準。

從免費榜單到B端服務,模型評測市場加速商業(yè)化

在LMArena 出現(xiàn)之前,AI 評測并不是一個商業(yè)意味濃厚的賽道。

過去十多年里,這項工作主要由學術(shù)機構(gòu)或開源社區(qū)維護。它們更像一種行業(yè)公共產(chǎn)品,不直接變現(xiàn),而是通過提供統(tǒng)一、可復現(xiàn)的評估框架,建立學術(shù)影響力與話語權(quán)。榜單存在,但目的不是競爭,而是共識。

真正的變化,發(fā)生在大模型產(chǎn)業(yè)化之后。

隨著模型數(shù)量激增、應用場景外溢,評測不再只是研究工具,而成為支撐整個市場運行的基礎設施之一。模型要進入企業(yè)系統(tǒng)、要被采購、要被對比,評測開始承擔“決策前置”的角色,其市場空間也隨之被迅速放大。

很少有人想到,這條商業(yè)化路徑的起點,其實是一場極其樸素的學術(shù)實驗。

LMArena 最早由卡內(nèi)基梅隆大學、加州大學伯克利分校以及 LMSYS 相關成員共同發(fā)起。

2023年,在加州大學伯克利分校電子工程與計算機科學系攻讀博士學位的Anastasios N. Angelopoulos和Wei?Lin Chiang創(chuàng)立了Chatbot Arena,這即為LMArena的前身。

項目最初的目標非常簡單:對比Vicuna 和 Alpaca 兩個模型,看看用戶更喜歡哪一個。

但這個“隨手做的對比實驗”,最終演化成了一個被行業(yè)默認采信的公共競技場。

截至目前,LMArena 的月活躍用戶已達到 500 萬,覆蓋超過 150 個國家;平臺每月產(chǎn)生的模型對話超過 6000 萬次,日均進行上千場實時匿名對戰(zhàn)。幾乎所有頭部模型廠商都已入場——從 OpenAI、Anthropic、Google、Meta,到 DeepSeek、混元、千問、xAI、Microsoft,無一缺席。

更值得注意的是,頭部公司已不再只是“參與評測”,而是主動將其作為新品試驗場。Google、OpenAI 等廠商,曾將尚未公開發(fā)布的 Nano Banana、Gemini 3.0 悄然接入 Arena 進行內(nèi)測。這種行為本身,意味著 LMArena 已成為行業(yè)默認的“試金石”。

模型集中,自然也帶來注意力的集中。

根據(jù)Cohere 等機構(gòu)對 2024 至 2025 年間超過2800萬條模型比較記錄的分析,在用戶投票與交互數(shù)據(jù)中,Google 與 OpenAI 兩家合計占比約 40%;而其余 83 個開源模型加在一起,僅占 29.7%。Arena 看似開放,但頭部效應依舊顯著。

隨著榜單影響力外溢,LMArena 的定位也開始發(fā)生變化。

2025 年 9 月,在完成大額種子輪融資后,團隊推出首個商業(yè)化產(chǎn)品“AI Evaluations”,正式進入B端市場。

該產(chǎn)品主打定制化評測,核心賣點在于可在企業(yè)私有、脫敏數(shù)據(jù)環(huán)境中完成測試,繞開“敏感數(shù)據(jù)無法在公開平臺評測”的長期痛點。

在具體設計上,“AI Evaluations”已能結(jié)合企業(yè)脫敏后的業(yè)務數(shù)據(jù),在“聽不聽話、說不說胡話、合不合規(guī)、多步任務能不能一次跑通”這四項上給模型打分,最終會輸出模型在特定場景的勝率、短板、答案差距,輸出場景化勝率分析與能力短板報告。

更長遠的計劃,則指向平臺積累的核心資產(chǎn)——人類偏好數(shù)據(jù)

LMArena 正嘗試利用數(shù)千萬條社區(qū)投票數(shù)據(jù),訓練自己的 RLHF 模型,讓評測結(jié)果反向參與模型優(yōu)化。這一步的意義在于,它開始走出“量尺”的定位,逐漸嵌入模型研發(fā)鏈條,成為訓練流程中的一部分。

不過,LMArena 也并非沒有隱患。

在行業(yè)內(nèi)部,人們通常將LMArena 描述為一種“基于氛圍的基準”,或一個眾包評測平臺。匿名對戰(zhàn)、集體投票、動態(tài)排名,這種解釋直觀,也基本符合平臺自身的敘述方式。

但正是眾包機制,讓它始終站在方法論爭議的中心。

質(zhì)疑主要集中在兩點:投票結(jié)果的可靠性,以及用戶偏好的傾向性。Andrej Karpathy 曾提醒,外界很容易過度迷信排行榜,把排名直接等同為模型真實能力。

Cohere 與斯坦福研究人員的進一步質(zhì)疑更為尖銳:成對評估的問題在于,你并不清楚用戶究竟在比較什么——是正確性、風格,還是回答長度?不同因素在投票中的權(quán)重并不透明。

意思是,模型可能因為回答得更“啰嗦”、“討喜”而勝出,而不是因為答案更準確、更有用。

真的有人用數(shù)據(jù)佐證了這一點。Surge AI的一項抽查發(fā)現(xiàn),在500組投票中,52%的獲勝回答包含事實錯誤,39%的投票結(jié)果與事實嚴重不符。用戶確實顯示出對更長、帶有emoji、格式精美回答的偏好,即使這些答案在正確性上并不占優(yōu)。

更極端且諷刺的案例來自Meta。

其提交的Llama 4系列實驗性對話模型,曾憑借充滿emoji和諂媚語氣的大段回答沖至總榜第二,但公開發(fā)布版僅排32。

扎克伯格承認針對Arena投票偏好優(yōu)化。后續(xù)研究披露,Meta在Llama 4發(fā)布前共提交36個私有變體反復測試“刷分”。

這意味著,歷史再次上演了。

當評測標準被固化,資源充足的科技巨頭就能像備考一樣反復刷題;而初創(chuàng)團隊,則被迫在有限資源中分流精力,應對“標準考試”。這恰恰是行業(yè)此前試圖擺脫的問題。

作為回應,LMArena已更新規(guī)則,所有提交模型必須可公開復現(xiàn),否則下架。

但爭議并未就此消失,反而催生了新的競爭形態(tài)。

例如,Scale AI 在 2025 年 9 月推出 Seal Showdown,強調(diào)付費專家評估,由律師、教授、醫(yī)生等專業(yè)人士直接打分,試圖以“低噪聲、高專業(yè)度”與眾包模式形成區(qū)隔。

與此同時,評測范式本身也在繼續(xù)外擴。

越來越多平臺開始強調(diào)垂直化與實戰(zhàn)化:更深度的專家標注、更接近真實世界的挑戰(zhàn)任務,甚至出現(xiàn)像nano1.ai 推出的 Alpha Arena 這類產(chǎn)品,讓不同模型在同一模擬或真實的加密市場環(huán)境中,使用相同資金與提示進行交易,以收益和策略穩(wěn)定性定勝負。

這類評測難以復現(xiàn),卻極度貼近商業(yè)落地。

總而言之,LMArena已從一個有趣的學術(shù)實驗,成長為影響AI研發(fā)風向的基礎設施。它的興起、爭議與進化,也映射出整個行業(yè)對模型評估的理解正走向更深入、更多維的階段。

文/朗朗

PS:如果你對AI大模型領域有獨特的看法,歡迎掃碼加入我們的大模型交流群。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
美股納指收跌2.4% 較歷史高點累計下跌逾10%

美股納指收跌2.4% 較歷史高點累計下跌逾10%

財聯(lián)社
2026-03-27 04:02:09
霸王條款?克洛普執(zhí)教提離譜要求,足協(xié)徹底懵了

霸王條款?克洛普執(zhí)教提離譜要求,足協(xié)徹底懵了

瀾歸序
2026-03-27 06:10:37
《跑男》錄制:陳哲遠給大家發(fā)紅包,孟子義當面打開,白鹿情商高

《跑男》錄制:陳哲遠給大家發(fā)紅包,孟子義當面打開,白鹿情商高

潮鹿逐夢
2026-03-26 15:43:25
炸屏跑圈!51歲林志玲跑馬拉松,生圖狀態(tài)封神,網(wǎng)友:滿50減30!

炸屏跑圈!51歲林志玲跑馬拉松,生圖狀態(tài)封神,網(wǎng)友:滿50減30!

馬拉松跑步健身
2026-03-26 22:09:16
美媒稱美考慮將援助烏克蘭的武器轉(zhuǎn)至中東

美媒稱美考慮將援助烏克蘭的武器轉(zhuǎn)至中東

每日經(jīng)濟新聞
2026-03-27 00:02:30
安徽人直接把滬蘇浙包圓了!這才是真正的長三角霸主

安徽人直接把滬蘇浙包圓了!這才是真正的長三角霸主

魔都姐姐雜談
2026-03-23 12:43:27
轟23+21+19創(chuàng)八紀錄!約基奇背僅差32助達成場均三雙 1點中鋒第一

轟23+21+19創(chuàng)八紀錄!約基奇背僅差32助達成場均三雙 1點中鋒第一

顏小白的籃球夢
2026-03-26 12:45:33
伊朗總統(tǒng):伊朗致力于結(jié)束戰(zhàn)爭 從未尋求擁有核武器

伊朗總統(tǒng):伊朗致力于結(jié)束戰(zhàn)爭 從未尋求擁有核武器

財聯(lián)社
2026-03-27 02:02:29
NBA西部榜首大戰(zhàn)白熱化!SGA:很享受文班亞馬帶來的爭奪氛圍

NBA西部榜首大戰(zhàn)白熱化!SGA:很享受文班亞馬帶來的爭奪氛圍

夜白侃球
2026-03-27 09:43:05
肝最喜歡的一種水果,春分后堅持喝,大補肝血,整個春天肝都舒服

肝最喜歡的一種水果,春分后堅持喝,大補肝血,整個春天肝都舒服

江江食研社
2026-03-27 03:30:03
高中孩子內(nèi)驅(qū)力匱乏時,我做了3件事,激活了主動學習與自我負責

高中孩子內(nèi)驅(qū)力匱乏時,我做了3件事,激活了主動學習與自我負責

百合家庭教育
2026-03-26 10:16:20
張雪峰離世僅48小時,前女友發(fā)聲,追悼會內(nèi)幕曝光,女兒讓人擔心

張雪峰離世僅48小時,前女友發(fā)聲,追悼會內(nèi)幕曝光,女兒讓人擔心

阿訊說天下
2026-03-27 10:12:35
日本公布中國游客免稅店2月份消費數(shù)據(jù),真的是打臉了!

日本公布中國游客免稅店2月份消費數(shù)據(jù),真的是打臉了!

消失的電波
2026-03-26 15:20:44
中方警戒艦目前正處于霍爾木茲海峽附近?國防部:假消息

中方警戒艦目前正處于霍爾木茲海峽附近?國防部:假消息

環(huán)球網(wǎng)資訊
2026-03-26 16:20:07
《火遮眼》北美定檔,近10年最強動作片,沒人能擋住謝苗成為巨星

《火遮眼》北美定檔,近10年最強動作片,沒人能擋住謝苗成為巨星

阿纂看事
2026-03-26 16:03:34
辛芷蕾沒遮副乳,全網(wǎng)吵翻天,到底在吵什么?

辛芷蕾沒遮副乳,全網(wǎng)吵翻天,到底在吵什么?

動物奇奇怪怪
2026-03-27 01:23:39
事關停火!剛剛,特朗普最新發(fā)聲!伊朗,大消息!

事關?;穑倓?,特朗普最新發(fā)聲!伊朗,大消息!

證券時報
2026-03-27 00:56:03
67歲老人闖紅燈遭三車連撞多處骨折 家屬:確實有錯 沒想訛人 希望涉事各方共同擔責

67歲老人闖紅燈遭三車連撞多處骨折 家屬:確實有錯 沒想訛人 希望涉事各方共同擔責

快科技
2026-03-27 09:20:11
不得不說,中國太不簡單

不得不說,中國太不簡單

牛彈琴
2026-03-27 06:59:08
中原消費金融為催收“買”借款人手機號碼 三大運營商均中標 或涉買賣個人信息惹爭議

中原消費金融為催收“買”借款人手機號碼 三大運營商均中標 或涉買賣個人信息惹爭議

信網(wǎng)
2026-03-26 19:12:37
2026-03-27 10:56:49
硅基觀察Pro incentive-icons
硅基觀察Pro
人工智能新時代的商業(yè)智庫和價值燈塔
868文章數(shù) 65關注度
往期回顧 全部

科技要聞

OpenAI果斷砍掉"成人模式",死磕生產(chǎn)力

頭條要聞

媒體:內(nèi)塔尼亞胡夫人為兩個兒子訴苦 加沙兒童怎么看

頭條要聞

媒體:內(nèi)塔尼亞胡夫人為兩個兒子訴苦 加沙兒童怎么看

體育要聞

近29戰(zhàn)23勝!這支黃蜂有多強?

娛樂要聞

劉曉慶妹妹發(fā)聲!稱姐姐受身邊人挑撥

財經(jīng)要聞

很反常!油價向上,黃金向下

汽車要聞

線控底盤+千問上車 智己LS8預售權(quán)益價25.98萬起

態(tài)度原創(chuàng)

親子
房產(chǎn)
數(shù)碼
公開課
軍事航空

親子要聞

原生家庭真的是會傷害子女嗎?

房產(chǎn)要聞

勁銷64億后,??谶@座改善標桿盤,又要引爆樓市!

數(shù)碼要聞

新款Meta雷朋聯(lián)名智能眼鏡現(xiàn)身美國FCC認證文件,提供雙版本

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

擔心特朗普突然停戰(zhàn) 以總理下令48小時盡力摧毀伊設施

無障礙瀏覽 進入關懷版