国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請入駐

OpenDataArena升級版正式上線,四大核心模塊重構(gòu)數(shù)據(jù)價(jià)值評估

0
分享至



為破解長期以來學(xué)界與業(yè)界難以對數(shù)據(jù)進(jìn)行價(jià)值量化的困局,上海人工智能實(shí)驗(yàn)室(上海 AI 實(shí)驗(yàn)室)OpenDataLab 團(tuán)隊(duì)在今年 8 月正式開源了首個(gè)全面、公正的后訓(xùn)練數(shù)據(jù)價(jià)值評測平臺(tái) ——OpenDataArena (ODA)。該項(xiàng)目致力于將數(shù)據(jù)選擇從「盲目試錯(cuò)」的煉丹術(shù),轉(zhuǎn)變?yōu)橐婚T可復(fù)現(xiàn)、可分析、可累積的嚴(yán)謹(jǐn)科學(xué)。

在初版系統(tǒng)發(fā)布后的數(shù)月間,項(xiàng)目通過團(tuán)隊(duì)內(nèi)部及小范圍社區(qū)用戶的深度使用,完成了高強(qiáng)度的技術(shù)驗(yàn)證與功能打磨。伴隨著評測規(guī)模、工具鏈和分析能力的持續(xù)擴(kuò)展,近期,我們終于迎來了ODA 的全面升級 —— 一個(gè)結(jié)論更系統(tǒng)、功能更完整、視角更多元的正式版本,該項(xiàng)目正式面向全體開發(fā)者開放。



  • 項(xiàng)目主頁: https://opendataarena.github.io/
  • 開源工具: https://github.com/OpenDataArena/OpenDataArena-Tool
  • 數(shù)據(jù)集: https://huggingface.co/OpenDataArena/datasets
  • 報(bào)告鏈接:https://arxiv.org/pdf/2512.14051

ODA 的核心理念非常明確:數(shù)據(jù)價(jià)值必須通過真實(shí)的訓(xùn)練來檢驗(yàn),而非主觀的臆測。為此,我們立足于全新發(fā)布的正式版本,對平臺(tái)進(jìn)行了體系化的深度重構(gòu),由四個(gè)相互支撐的核心模塊組成了這套完整的數(shù)據(jù)評測基礎(chǔ)設(shè)施。這標(biāo)志著 ODA 已經(jīng)從最初的功能驗(yàn)證階段,發(fā)展成為可以對數(shù)據(jù)價(jià)值進(jìn)行系統(tǒng)化評測的重要平臺(tái)。



一、數(shù)據(jù)價(jià)值排行榜


首先,ODA 項(xiàng)目打造了數(shù)據(jù)價(jià)值排行榜。通過構(gòu)建一套統(tǒng)一的訓(xùn)練與評測流程,讓數(shù)據(jù)在固定的模型規(guī)模(如 Llama3、Qwen2/3 7-8B)和訓(xùn)練配置下,對來自不同領(lǐng)域的文本及多模態(tài)數(shù)據(jù)進(jìn)行橫向評測。

評測覆蓋通用、數(shù)學(xué)、代碼、科學(xué)與長鏈推理等能力維度,這使得數(shù)據(jù)價(jià)值能直接通過下游任務(wù)(如數(shù)學(xué)、代碼、推理等)的實(shí)際表現(xiàn)來量化,而非主觀判斷。目前,ODA 平臺(tái)已經(jīng)從初版僅僅只有文本數(shù)據(jù)的評測,擴(kuò)展到了多模態(tài)數(shù)據(jù)集的質(zhì)量評測,并以最先進(jìn)的 Qwen3-VL 作為真實(shí)訓(xùn)練的基準(zhǔn)模型。



二、數(shù)據(jù)血緣探索器


其次,針對數(shù)據(jù)界常見的「近親繁殖」問題,ODA 全新發(fā)布「數(shù)據(jù)血緣探索器」。它像繪制族譜一樣,清晰地刻畫出數(shù)據(jù)集之間的繼承、混合與蒸餾關(guān)系。通過結(jié)構(gòu)化建模與可視化展示,研究者可以直觀地看到不同數(shù)據(jù)集之間的高度重疊與依賴關(guān)系,看到社區(qū)中被反復(fù)復(fù)用的核心數(shù)據(jù)源,以及更清晰的發(fā)現(xiàn)潛在的訓(xùn)練–測試污染與「近親繁殖」問題。這一能力讓「為什么某些數(shù)據(jù)集長期霸榜」不再是經(jīng)驗(yàn)結(jié)論,而是可以被結(jié)構(gòu)性解釋的現(xiàn)象。



三、多維數(shù)據(jù)評分器


除了看模型結(jié)果,ODA 還從數(shù)據(jù)本體出發(fā),對數(shù)據(jù)質(zhì)量進(jìn)行細(xì)粒度刻畫。ODA 提供了一個(gè)細(xì)粒度的評分框架,基于模型評估、LLM-as-a-Judge 與啟發(fā)式指標(biāo)等多種方法,從指令復(fù)雜度、響應(yīng)質(zhì)量、多樣性等維度對數(shù)據(jù)進(jìn)行深度剖析,生成每份數(shù)據(jù)的專屬「體檢報(bào)告」,并已對千萬級樣本的評分結(jié)果進(jìn)行開源。 這使得研究者不僅能判斷「哪份數(shù)據(jù)更有效」,還能進(jìn)一步分析它為什么有效。值得一提的是,在初版的基礎(chǔ)上,ODA 多維數(shù)據(jù)評分器目前已經(jīng)擴(kuò)展支持80+ 種多維度的評分器,支持用戶一鍵方便的對所需要的數(shù)據(jù)維度進(jìn)行打分。



四、全開源評測工具箱




此外,為了促進(jìn)社區(qū)共建,ODA 完全開源了其訓(xùn)練、評分和可視化工具,覆蓋從模型微調(diào)到結(jié)果復(fù)現(xiàn)的完整流程,以及上述精細(xì)化的數(shù)據(jù)評價(jià)打分器。ODA 工具支持用戶一鍵復(fù)現(xiàn)結(jié)果,或?qū)ψ约核接袛?shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化評測,實(shí)現(xiàn)真正意義上的橫向?qū)Ρ取?/p>

五、硬核發(fā)現(xiàn):那些被忽視的數(shù)據(jù)真相


在對 120 多個(gè)主流數(shù)據(jù)集進(jìn)行超過 600 次訓(xùn)練和 4000 萬條數(shù)據(jù)的深度分析后,OpenDataLab 團(tuán)隊(duì)得出了一系列具有指導(dǎo)意義的「硬核」結(jié)論,足以重塑業(yè)界對高質(zhì)量數(shù)據(jù)的認(rèn)知 :

1. 解答質(zhì)量比問題復(fù)雜度更關(guān)鍵:實(shí)驗(yàn)發(fā)現(xiàn),單純增加問題的復(fù)雜度并不能有效預(yù)測數(shù)據(jù)價(jià)值。相反,解答的長度(推理過程的充分性)與最終質(zhì)量呈強(qiáng)正相關(guān),這在數(shù)學(xué)和科學(xué)類任務(wù)中尤為突出。

2. 代碼數(shù)據(jù)的「異類」屬性:搞代碼模型不能照搬數(shù)學(xué)的邏輯。代碼講究簡潔精準(zhǔn),長篇大論反而會(huì)損害效果。這意味著通用的評分標(biāo)準(zhǔn)在代碼領(lǐng)域經(jīng)常失效,必須建立針對性的評估體系。

3. 開源數(shù)據(jù)「近親繁殖」嚴(yán)重:ODA 的數(shù)據(jù)血緣分析顯示,社區(qū)反復(fù)依賴的核心數(shù)據(jù)源比較有限(例如 GSM8K 被多次復(fù)用),由此造成了嚴(yán)重的數(shù)據(jù)同質(zhì)化。借助數(shù)據(jù)血緣分析,更極端的發(fā)現(xiàn)是,數(shù)據(jù)污染越來越嚴(yán)重:大量訓(xùn)練樣本直接與測試集發(fā)生重疊。

4.「少即是多」的局限性:盡管 LIMA 等研究曾宣稱少量精選數(shù)據(jù)即可成功,但 ODA 的實(shí)驗(yàn)證明這極度依賴模型底座的先天能力。如果底座一般,過少的數(shù)據(jù)量會(huì)導(dǎo)致性能崩塌。真正穩(wěn)健的路徑是追求「高質(zhì)量且具規(guī)模(High-Density Volume)」 的數(shù)據(jù)配方。

5. 為什么有些數(shù)據(jù)集能霸榜?以 AM-Thinking-distilled 為代表的超大規(guī)模聚集型數(shù)據(jù)集,能夠同時(shí)在數(shù)學(xué)與代碼任務(wù)上取得明顯的優(yōu)勢,關(guān)鍵原因在于其跨領(lǐng)域融合能力。它通過遞歸方式整合了435 個(gè)數(shù)據(jù)節(jié)點(diǎn),顯著提升了數(shù)據(jù)分布的多樣性與互補(bǔ)性。

6. 數(shù)據(jù)可以彌補(bǔ)底座差距:這是一個(gè)令人振奮的發(fā)現(xiàn)。即使 Llama 3.1 和 Qwen 2.5 之間存在顯著的底座分差,只要用上如 OpenThoughts3-1.2M 這樣的高質(zhì)量微調(diào)數(shù)據(jù),這個(gè)差距幾乎可以被抹平。可以說,好的數(shù)據(jù)配方真的能讓模型「逆天改命」。

未來展望


OpenDataArena 的遠(yuǎn)景,絕不不滿足于僅僅建立一個(gè)排行榜,更致力于將數(shù)據(jù)研發(fā)從「玄學(xué)」推向可復(fù)現(xiàn)、可分析的「科學(xué)」。未來,ODA 將持續(xù)進(jìn)化,探索智能體數(shù)據(jù),金融、醫(yī)療等垂直領(lǐng)域的深層價(jià)值。

在這個(gè)數(shù)據(jù)決定 AI 上限的時(shí)代,唯有手握科學(xué)的標(biāo)尺,才能精準(zhǔn)丈量每一份數(shù)據(jù)的真實(shí)「重量」。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
CBA積分榜最新排名!北京逆襲廣東排第3:遼籃苦主11連敗墊底

CBA積分榜最新排名!北京逆襲廣東排第3:遼籃苦主11連敗墊底

籃球快餐車
2026-01-07 00:17:18
網(wǎng)紅“反詐老陳”打假!深圳市監(jiān)介入

網(wǎng)紅“反詐老陳”打假!深圳市監(jiān)介入

大象新聞
2026-01-06 07:01:10
伊朗,突發(fā)!崩盤、失控!

伊朗,突發(fā)!崩盤、失控!

李榮茂
2026-01-03 09:20:03
馬杜羅有四個(gè)兒子,親兒子被起訴,是下一個(gè)目標(biāo),其他三子或幸免

馬杜羅有四個(gè)兒子,親兒子被起訴,是下一個(gè)目標(biāo),其他三子或幸免

悅心知足
2026-01-04 10:04:50
今夜無顯卡!老黃引爆Rubin時(shí)代,6顆芯狂飆5倍算力

今夜無顯卡!老黃引爆Rubin時(shí)代,6顆芯狂飆5倍算力

新智元
2026-01-06 09:49:15
TA:在周二會(huì)談后,索爾斯克亞成為曼聯(lián)臨時(shí)主帥熱門人選

TA:在周二會(huì)談后,索爾斯克亞成為曼聯(lián)臨時(shí)主帥熱門人選

懂球帝
2026-01-07 01:32:07
這些無恥新聞,都引起公憤了!

這些無恥新聞,都引起公憤了!

胖胖說他不胖
2026-01-06 10:00:08
金正恩的神經(jīng)繃得很緊,特朗普一動(dòng)手,朝鮮立馬發(fā)射高超音速導(dǎo)彈

金正恩的神經(jīng)繃得很緊,特朗普一動(dòng)手,朝鮮立馬發(fā)射高超音速導(dǎo)彈

科普100克克
2026-01-05 16:51:23
面相變了!退出春晚解散公司,賈玲近況曝光,如今下場并不意外

面相變了!退出春晚解散公司,賈玲近況曝光,如今下場并不意外

漫婷侃娛樂
2026-01-04 18:36:36
正式確定!北京首鋼引進(jìn)麥基,張?jiān)扑沙鍪郑瑒χ窩BA總冠軍

正式確定!北京首鋼引進(jìn)麥基,張?jiān)扑沙鍪郑瑒χ窩BA總冠軍

體壇瞎白話
2026-01-06 22:44:21
林高遠(yuǎn)和劉詩雯做代表,受表彰,他們的賽場越來越遠(yuǎn)了嗎?

林高遠(yuǎn)和劉詩雯做代表,受表彰,他們的賽場越來越遠(yuǎn)了嗎?

阿嚼影視評論
2026-01-06 23:46:34
川普認(rèn)為伊朗和美國之間的帳該算算了;美以將在72小時(shí)內(nèi)打擊伊朗

川普認(rèn)為伊朗和美國之間的帳該算算了;美以將在72小時(shí)內(nèi)打擊伊朗

跟著老李看世界
2026-01-07 00:00:24
從7人到年產(chǎn)值40億!閔行誕生“隱形冠軍”,特斯拉、蔚來、大眾都是它的客戶

從7人到年產(chǎn)值40億!閔行誕生“隱形冠軍”,特斯拉、蔚來、大眾都是它的客戶

上海閔行
2026-01-06 07:09:02
特朗普政府8日召集美石油巨頭,“推銷”委內(nèi)瑞拉石油投資計(jì)劃

特朗普政府8日召集美石油巨頭,“推銷”委內(nèi)瑞拉石油投資計(jì)劃

澎湃新聞
2026-01-06 16:00:29
美國越境抓獲馬杜羅,狠狠打了眾多“熒屏”軍事專家一記耳光

美國越境抓獲馬杜羅,狠狠打了眾多“熒屏”軍事專家一記耳光

壹家言
2026-01-05 17:25:07
海上發(fā)生激烈對峙!為攔截美軍火船入臺(tái),解放軍已做好充分準(zhǔn)備

海上發(fā)生激烈對峙!為攔截美軍火船入臺(tái),解放軍已做好充分準(zhǔn)備

霹靂炮
2026-01-02 18:28:00
均價(jià)7.69萬/㎡,成都大平層單價(jià)紀(jì)錄刷新!

均價(jià)7.69萬/㎡,成都大平層單價(jià)紀(jì)錄刷新!

成都商報(bào)房產(chǎn)發(fā)布
2026-01-06 20:04:24
央視直播1月7日多哈冠軍賽,林詩棟對科頓,蒯曼戰(zhàn)薩馬拉

央視直播1月7日多哈冠軍賽,林詩棟對科頓,蒯曼戰(zhàn)薩馬拉

乒乓球球
2026-01-06 21:06:29
美綁架總統(tǒng)違規(guī),高市48小時(shí)內(nèi)求中方緩關(guān)系

美綁架總統(tǒng)違規(guī),高市48小時(shí)內(nèi)求中方緩關(guān)系

清歡百味
2026-01-07 03:48:46
家中有變?杜鋒深夜發(fā)聲,正式道歉,原因找到,還剩1年合同

家中有變?杜鋒深夜發(fā)聲,正式道歉,原因找到,還剩1年合同

樂聊球
2026-01-06 10:59:51
2026-01-07 05:07:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12066文章數(shù) 142530關(guān)注度
往期回顧 全部

科技要聞

速看!黃仁勛萬字實(shí)錄:甩出"物理AI"王牌

頭條要聞

俄羅斯發(fā)表關(guān)于委內(nèi)瑞拉局勢的聲明

頭條要聞

俄羅斯發(fā)表關(guān)于委內(nèi)瑞拉局勢的聲明

體育要聞

從NBA最菜首發(fā)控衛(wèi),到NBA最強(qiáng)喬治

娛樂要聞

2026年央視春晚彩排照曝光!

財(cái)經(jīng)要聞

50萬億存款"洪流"將至 四大去向引關(guān)注

汽車要聞

摩登出街潮品 實(shí)拍奇瑞QQ冰淇淋女王版

態(tài)度原創(chuàng)

教育
時(shí)尚
本地
藝術(shù)
數(shù)碼

教育要聞

剛剛,0.5+3集團(tuán)直升拋出三個(gè)“王炸”!

冬天,“大衣”是中年女人的穿搭剛需,這樣搭配時(shí)髦提氣質(zhì)

本地新聞

云游內(nèi)蒙|初見呼和浩特,古今交融的北疆都會(huì)

藝術(shù)要聞

2026馬年趙孟頫高清集字春聯(lián)大放送,收藏備用!

數(shù)碼要聞

一口氣看完科沃斯 CES2026 新品:地面、窗面、草坪、泳池全覆蓋

無障礙瀏覽 進(jìn)入關(guān)懷版