国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

10K數(shù)據打敗1M,北大開源LLM數(shù)據準備系統(tǒng)DataFlow

0
分享至

“數(shù)據量越大,模型越好”這條鐵律,正在悄悄失效。

當 GPT-4 把 1.2 T token 啃到吐、當 MoE 模型把 20 萬億參數(shù)卷到飛起,大家突然發(fā)現(xiàn):真正卡脖子的不是算力,也不是參數(shù),而是——高質量數(shù)據從哪兒來?

近期,北大聯(lián)合多個團隊給出一套新答案:DataFlow —— 一個把 LLM“數(shù)據準備”做成流水線的系統(tǒng)



論文標題: DataFlow: An LLM-Driven Framework for Unified Data Preparation and Workflow Automation in the Era of Data-Centric AI 論文鏈接:( of the Hugging Face daily paper) https://arxiv.org/abs/2512.16676 倉庫鏈接:(2k star) https://github.com/OpenDCAI/DataFlow/
一、研究動機:數(shù)據準備的“三宗罪”
  1. 繁瑣腳本:做預訓練要寫 20 個去重腳本,做 SFT 再寫 15 個清洗腳本,每條管線都要“重造輪子”。

  2. 復現(xiàn)黑洞:論文里一句“我們采用公開數(shù)據”背后,可能是 100 行未公開預處理代碼,別人永遠跑不出那條曲線。

  3. 人力天花板:指令微調、思維鏈、工具調用……任務越精,越依賴昂貴的人類標注。一旦場景冷門(如罕見病問診、多跳法律推理),直接“無標可用”。

行業(yè)急需一套“像 PyTorch 搭模型一樣搭數(shù)據”的工業(yè)級框架——DataFlow 因此誕生。

二、方法:把“數(shù)據工程”拆成 200 塊積木 2.1 核心抽象:存儲 / 算子 / 模板 / 管線 四層 API

層級

類比 PyTorch

DataFlow 對應

作用

存儲

tensor

DataFlowStorage

統(tǒng)一表格視圖,屏蔽 JSON/Parquet/SQL 差異

算子

nn.Module

BaseOperator

單步變換,支持 LLM 驅動或規(guī)則驅動

模板

nn.Parameter

PromptTemplate

把 prompt 做成可復用、可插拔的“零件”

管線

nn.Sequential

PipelineABC

用 PyTorch 風格 forward() 組裝算子

任何數(shù)據準備流程,都能被拆成“讀→transform→寫”三段,然后像搭積木一樣重新組合。

2.2 算子分類:近 200 個官方算子

功能

命名后綴

例子

典型用途

生成

Generator

MathProblemGenerator

從 0 到 1 合成新樣本

評估

Evaluator

CodeExecutionEvaluator

給樣本打質量分

過濾

Filter

ToxicityFilter

按分數(shù)/規(guī)則剪枝

精煉

Refiner

CoTRefiner

不改樣本數(shù),只改字段內容

所有算子共享同一套“鍵值契約”,無需改代碼,就能把數(shù)學算子直接復用到代碼領域,只需換 prompt 模板。

2.3 DataFlow-Agent

不想寫代碼?直接甩給 Agent 一句話:

“我有一份 CSV 包含股票新聞,幫我生成 5 K 條 Text-to-SQL 樣本,要帶 CoT 推理,難度分三級。”

Agent 內部基于 LangGraph 多智能體協(xié)作:

① 意圖拆解 → ② 算子檢索 → ③ 缺失算子合成 → ④ 拓撲排序 → ⑤ 沙箱驗證 → ⑥ 輸出可執(zhí)行 Python 文件。

平均 80 s 產出一條可用管線,人類只需做最后 5% 的微調。

三、實驗:10 K 如何打贏 1 M?

DataFlow 在 文本、數(shù)學推理、代碼、Text-to-SQL、Agentic RAG、知識抽取 等關鍵場景中進行了系統(tǒng)實驗,結果一致表明:用 DataFlow 生成的數(shù)據訓練模型,性能全面超越現(xiàn)有主流基線,包括人工標注數(shù)據和大規(guī)模合成數(shù)據集。

3.1 數(shù)學推理:+3 分輕松拿捏

  • 在 MATH、GSM8K、AIME 等高難度數(shù)學基準上,DataFlow 合成的 10K 數(shù)據,比 Open-R1、Synthetic-1 等 SOTA 合成數(shù)據高出 1–3 個百分點。

  • 僅用 10K 樣本 fine-tune Qwen2.5-32B,2 個 epoch 就達到 55.7 平均分,超越所有對比方法。

3.2 代碼生成:平均提升 +7%
  • 在 HumanEval、LiveCodeBench 等四大代碼評測中,DataFlow 生成的指令數(shù)據帶來 7% 以上的平均性能提升。

  • 即使只用 1K 樣本,也已優(yōu)于 Code Alpaca 和帶執(zhí)行過濾的 Self-OSS 數(shù)據集。

3.3 Text-to-SQL:小數(shù)據,大勝出
  • 用 不到 9 萬條 DataFlow 生成的 Text-to-SQL 數(shù)據訓練 Qwen2.5-Coder-7B,在 EHRSQL 上執(zhí)行準確率暴漲 31.8%(24.3 → 56.1)!

  • 僅用 5 萬條,就超越 SynSQL(50K);9 萬條性能媲美 SynSQL 的 250 萬條,數(shù)據效率提升近 30 倍!

3.4 多跳問答(Agentic RAG):合成數(shù)據干翻人工標注
  • 在 HotpotQA、Musique 等多跳 QA 任務上,完全由 LLM 合成的 DataFlow-AgenticRAG-10K,在跨數(shù)據集泛化(OOD)上 全面匹敵甚至超越人工構建的數(shù)據集。

  • 在 2Wiki 和 Musique 排除本域測試后,分別高出 2.6 和 1.2 個百分點。

3.5 醫(yī)療知識抽?。篠FT > RAG + CoT
  • 在 PubMedQA、Covert 等醫(yī)療 QA 任務中,用 DataFlow 清洗+合成的醫(yī)學 QA 對訓練模型,比零樣本 CoT 提升 15–20 個點,比 RAG 提升 10–50 個點。

  • 證明:結構化高質量合成數(shù)據 > 復雜推理提示 + 外部檢索。

四、結語:DataFlow 給社區(qū)留下了什么? 4.1 三大貢獻
  • 系統(tǒng)層面——首個把“數(shù)據準備”抽象為可復用、可組合、可調試的通用框架,像搭模型一樣搭管線。

  • 算法層面——提出“生成-評估-過濾-精煉”四段式范式,讓合成數(shù)據從‘能用’走向‘好用’。

  • 社區(qū)層面——開源 200 算子 + 10 K 高質量多域數(shù)據集 + CLI 腳手架,把“數(shù)據黑箱”變成人人可 PR 的玩具積木。

4.2 未來展望
  • 模態(tài)擴充:DataFlow-Agent、DataFlex、DataFlow-MM等系列工具已在路上,下一站把表格、圖結構、圖文混排一起“流水線”。

  • 領域深耕:DataFlow-AI4S(科學計算)、DataFlow-Industry(工業(yè)制造)預研啟動,讓合成數(shù)據走進反應堆、走進晶圓廠。

如果說過去三年,大模型的“摩爾定律”發(fā)生在參數(shù)維度;那么接下來的三年,“數(shù)據摩爾定律”將由 DataFlow 這樣的框架來書寫—— 更少的數(shù)據、更高的質量、更快的迭代、人人可復現(xiàn)。

歡迎大家關注使用DCAI的開源項目并與我們進行技術交流,如果覺得好用也請幫GitHub倉庫點一個star~ 論文鏈接: https://arxiv.org/abs/2512.16676 ( of the Hugging Face daily paper) 倉庫鏈接: https://github.com/OpenDCAI/DataFlow/ (2k star)

llustration From IconScout By IconScout Store

-The End-

本周上新!

掃碼觀看!

“AI技術流”原創(chuàng)投稿計劃


TechBeat是由將門創(chuàng)投建立的AI學習社區(qū)(www.techbeat.net)。社區(qū)上線700+期talk視頻,3000+篇技術干貨文章,方向覆蓋CV/NLP/ML/Robotis等;每月定期舉辦頂會及其他線上交流活動,不定期舉辦技術人線下聚會交流活動。我們正在努力成為AI人才喜愛的高質量、知識型交流平臺,希望為AI人才打造更專業(yè)的服務和體驗,加速并陪伴其成長。


投稿內容

// 最新技術解讀/系統(tǒng)性知識分享 //

// 前沿資訊解說/心得經歷講述 //

投稿須知

稿件需要為原創(chuàng)文章,并標明作者信息。

我們會選擇部分在深度技術解析及科研心得方向,對用戶啟發(fā)更大的文章,做原創(chuàng)性內容獎勵

投稿方式

發(fā)送郵件到

michellechang@thejiangmen.com

或添加工作人員微信(michelle333_投稿,溝通投稿詳情

關于我“門”

將門是一家以專注于數(shù)智核心科技領域新型創(chuàng)投機構,也是北京市標桿型孵化器。 公司致力于通過連接技術與商業(yè),發(fā)掘和培育具有全球影響力的科技創(chuàng)新企業(yè),推動企業(yè)創(chuàng)新發(fā)展與產業(yè)升級。

將門成立于2015年底,創(chuàng)始團隊由微軟創(chuàng)投在中國的創(chuàng)始團隊原班人馬構建而成,曾為微軟優(yōu)選和深度孵化了126家創(chuàng)新的技術型創(chuàng)業(yè)公司。

如果您是技術領域的初創(chuàng)企業(yè),不僅想獲得投資,還希望獲得一系列持續(xù)性、有價值的投后服務,歡迎發(fā)送或者推薦項目給我“門”:

bp@thejiangmen.com


點擊右上角,把文章分享到朋友圈

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
人還沒到北京,特朗普一道命令下來,盟友全傻眼,中國卻很淡定

人還沒到北京,特朗普一道命令下來,盟友全傻眼,中國卻很淡定

鐵錘簡科
2026-03-13 14:03:58
收藏!國家衛(wèi)健委主任給出的5個“防癌處方”,尤其最后一條關乎全家

收藏!國家衛(wèi)健委主任給出的5個“防癌處方”,尤其最后一條關乎全家

人民日報健康客戶端
2026-03-10 21:42:01
列寧曾派特工來到中國,專門暗殺一個人:腦袋至今保存在俄博物館

列寧曾派特工來到中國,專門暗殺一個人:腦袋至今保存在俄博物館

老范談史
2026-03-06 07:28:20
央視直播有變化!新加坡大滿貫2月25日完整版賽程

央視直播有變化!新加坡大滿貫2月25日完整版賽程

好乒乓
2026-02-25 11:39:46
中國女籃半場領先南蘇丹10分:張子宇8分 李月汝2分3犯規(guī)低迷

中國女籃半場領先南蘇丹10分:張子宇8分 李月汝2分3犯規(guī)低迷

醉臥浮生
2026-03-14 20:15:51
快船119-108擊敗公牛!倫納德創(chuàng)51年紀錄,此戰(zhàn)誕生3個事實:快船新援真厲害

快船119-108擊敗公牛!倫納德創(chuàng)51年紀錄,此戰(zhàn)誕生3個事實:快船新援真厲害

生活新鮮市
2026-03-14 19:55:33
72萬個充電樁,年入40億,常州夫婦邊賺錢邊收割,如今要上市了

72萬個充電樁,年入40億,常州夫婦邊賺錢邊收割,如今要上市了

毒sir財經
2026-02-22 10:38:14
吃蘭州拉面的人為什么越來越少了?網友:進店小心翼翼的怕說錯話

吃蘭州拉面的人為什么越來越少了?網友:進店小心翼翼的怕說錯話

另子維愛讀史
2026-02-27 20:31:34
小楊阿姨松口了,若真回不去臺北,聽老板安排,反正她不喜歡做飯

小楊阿姨松口了,若真回不去臺北,聽老板安排,反正她不喜歡做飯

削桐作琴
2026-03-13 18:18:23
騎士擁有東部最輕松的剩余賽程,東西部前四對手僅剩湖人

騎士擁有東部最輕松的剩余賽程,東西部前四對手僅剩湖人

林子說事
2026-03-14 12:41:56
記住作惡者的名字,是對罪惡的一種震懾

記住作惡者的名字,是對罪惡的一種震懾

寄居在世
2026-01-15 19:15:07
問界主播“40歲開豐田就跳樓”言論引爆輿論:營銷底線何在?品牌緊急切割

問界主播“40歲開豐田就跳樓”言論引爆輿論:營銷底線何在?品牌緊急切割

驅動中國
2026-03-12 10:58:04
凍干草莓測出二十幾種農藥,多家公司主動收購問題凍干草莓,“農殘超標的話我們一般銷售國內”,超標、過期無所謂,可當合格品賣或打粉加工冰淇淋等食品

凍干草莓測出二十幾種農藥,多家公司主動收購問題凍干草莓,“農殘超標的話我們一般銷售國內”,超標、過期無所謂,可當合格品賣或打粉加工冰淇淋等食品

觀威海
2026-03-13 18:19:09
3-1,橫掃日本張本美和,重慶冠軍賽:石洵瑤欲復制2年前神跡

3-1,橫掃日本張本美和,重慶冠軍賽:石洵瑤欲復制2年前神跡

劉哥談體育
2026-03-14 15:52:12
他接受紀律審查和監(jiān)察調查

他接受紀律審查和監(jiān)察調查

錫望
2026-03-13 16:18:29
俄羅斯對委內瑞拉高層很滿意,就算馬杜羅越獄殺出美國也無力回天

俄羅斯對委內瑞拉高層很滿意,就算馬杜羅越獄殺出美國也無力回天

緊跟時代脈搏
2026-03-14 20:53:31
7500枚炸彈,以色列滅國大轟炸,油庫爆炸,9000萬伊朗人存亡時刻

7500枚炸彈,以色列滅國大轟炸,油庫爆炸,9000萬伊朗人存亡時刻

古事尋蹤記
2026-03-13 07:10:47
太突然!北京一4S店即將暫停營業(yè)!

太突然!北京一4S店即將暫停營業(yè)!

大北京早知道
2026-03-13 16:03:54
WTT再爆大冷!3大世界冠軍被淘汰,日本大潰敗,國乒新星2-3出局

WTT再爆大冷!3大世界冠軍被淘汰,日本大潰敗,國乒新星2-3出局

籃球看比賽
2026-02-24 15:15:56
4天8將退賽!趙心童抵達玉山備戰(zhàn),與GOAT聚餐,火箭今日撈金!

4天8將退賽!趙心童抵達玉山備戰(zhàn),與GOAT聚餐,火箭今日撈金!

劉姚堯的文字城堡
2026-03-14 09:25:44
2026-03-14 21:39:00
將門創(chuàng)投 incentive-icons
將門創(chuàng)投
加速及投資技術驅動型初創(chuàng)企業(yè)
2310文章數(shù) 596關注度
往期回顧 全部

科技要聞

xAI創(chuàng)始伙伴只剩兩人!馬斯克“痛改前非”

頭條要聞

胖東來給店長每人2000萬普通員工人均20萬 于東來回應

頭條要聞

胖東來給店長每人2000萬普通員工人均20萬 于東來回應

體育要聞

NBA唯一巴西球員,增重20KG頂內線

娛樂要聞

九成美曝田栩寧孕期出軌 AI反轉引熱議

財經要聞

3·15影子暗訪|神秘的“特供酒”

汽車要聞

吉利銀河M7技術首秀 實力重構主流電混SUV

態(tài)度原創(chuàng)

房產
本地
旅游
教育
軍事航空

房產要聞

不容易?。『?诮K于又要賣地了!

本地新聞

坐標北京,過敏季反向遷徒

旅游要聞

從賞花海到吃春菜 中國“春日經濟”升溫

教育要聞

3月12日,山東,寶媽分享:如何正確教育孩子

軍事要聞

特朗普宣布空襲伊石油出口樞紐哈爾克島

無障礙瀏覽 進入關懷版