国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

會「進化」的合成數(shù)據(jù)!無需上傳隱私,也能生成高質量垂域數(shù)據(jù)

0
分享至



張劍清是一名上海交通大學在讀博士生,獲中國人工智能學會「青托」、吳文俊人工智能榮譽博士及國家獎學金。在代碼大模型、合成數(shù)據(jù)集進化生成、聯(lián)邦學習與推薦系統(tǒng)方向取得系列成果,主要關注其中的垂域自適應、模型融合、模型個性化主題,于JMLR、NeurIPS、ICML、CVPR、KDD、ICCV、AAAI等發(fā)表9篇CCF-A一作論文,主導并開源了PFLlib、HtFLlib、EvolveGen等項目,曾在字節(jié)跳動、清華AIR、KAUST、騰訊等機構實習交流。

數(shù)據(jù)短缺問題隨著大模型的高速發(fā)展,日益加劇。已經有不少 Nature 論文指出,預計到 2028 年,公共數(shù)據(jù)的產生速度將因趕不上大模型訓練的消耗速度而被耗盡。而在某些特殊領域,比如醫(yī)療、工業(yè)制造等,原本可用數(shù)據(jù)就非常少,數(shù)據(jù)短缺的問題更嚴重。

為了解決這一困境,我們提出了合成數(shù)據(jù)自主進化框架 PCEvolve:只需提供少量標注樣本,就可在保護隱私同時進化出一整個數(shù)據(jù)集。PCEvolve 的進化過程類似 DeepMind 提出的 FunSearch 和 AlphaEvolve。



  • 論文標題:PCEvolve: Private Contrastive Evolution for Synthetic Dataset Generation via Few-Shot Private Data and Generative APIs
  • 論文鏈接:https://www.arxiv.org/abs/2506.05407
  • 開源代碼:https://github.com/TsingZ0/PCEvolve
  • 進化生成開源平臺:https://github.com/TsingZ0/EvolveGen

現(xiàn)有大模型 API 并不能拿來直接合成垂域數(shù)據(jù)

垂直領域的中小企業(yè)普遍不具備訓練私有大模型的能力,而傾向于使用現(xiàn)成的大模型 API(下文簡稱「大模型」)。人造合成數(shù)據(jù)是目前解決數(shù)據(jù)短缺問題所采用的主流方法:讓已有大模型生成數(shù)據(jù),再進行篩選、標注、清洗等步驟,得到高質量訓練數(shù)據(jù)。

然而,當應用到垂直領域,如醫(yī)療、工業(yè)制造等領域,大模型雖然能夠根據(jù) prompt 生成對應的數(shù)據(jù),但滿足「語義匹配」的數(shù)據(jù),并不能直接拿來作為垂直領域數(shù)據(jù)使用。這是因為:垂直領域的數(shù)據(jù)還有各種其他特性信息,比如光照、數(shù)據(jù)采樣設備型號、隱私信息、上下文等。

舉例來說,皮革在不同環(huán)境、材質、磨損程度等方面,都具備太多細節(jié)信息,而提供給大模型的 prompt 很難完整描述;即便完整描述,大模型也不能完全生成符合 prompt 的數(shù)據(jù),因為大模型本身還無法完全模擬世界。

如下圖所示,大模型生成的數(shù)據(jù),和垂域攝像機拍攝的數(shù)據(jù),具有巨大的差距,雖然標簽都是「帶有膠水殘留的皮革」。同樣的,在文本領域,讓現(xiàn)成的大模型生成的 code snippet 數(shù)據(jù),也無法與某公司內部開發(fā)人員的代碼習慣和代碼規(guī)范相匹配。而且,這一垂域數(shù)據(jù)特征分布差異的問題,在任意模態(tài)都存在。



【圖 1】左邊為大模型生成,右邊為實際采集。在工業(yè)制造皮革領域,大模型生成圖片和實際采集圖片的對比

同時,因為垂域數(shù)據(jù)可能因為知識產權、隱私保護、行業(yè)規(guī)范等原因,本地數(shù)據(jù)不允許上傳給大模型作 context,極大地增加了 prompt 工程的難度、降低了合成數(shù)據(jù)的質量。比如,公司內部的代碼不能上傳、醫(yī)院的病人數(shù)據(jù)不能上傳、企業(yè)的次品樣品數(shù)據(jù)不能上傳等等。

PCEvolve:保護隱私的合成數(shù)據(jù)進化框架

垂域數(shù)據(jù)除了不能上傳之外,還具有本身就稀少的特性,導致帶標注的垂域樣本原本就少。這使得其他要求提供大量標注樣本的方法(如 PE 等),不再可用。因為 PE 等方法在垂域情況下,為了保護隱私所加的噪聲過大,使其方法退化為一種隨機方法。而我們的 PCEvolve 在進化過程中設計了一種基于「指數(shù)機制」(Exponential Mechanism)的新的隱私保護方法,適配垂域場景的少樣本情況。

下圖是 PCEvolve 的架構圖,左邊是迭代進化框架:類似達爾文進化論,先讓大模型 API 生成較大數(shù)量的候選合成數(shù)據(jù)(種群),再經過【選擇器】(自然選擇)進行淘汰,最后將不帶隱私信息的優(yōu)質合成數(shù)據(jù)返回給大模型進行下一輪進化。右邊則是進化框架的「引擎」【選擇器】的詳細設計:以隱私數(shù)據(jù)作為參考(verifier)給合成數(shù)據(jù)打分(reward),最后根據(jù)分數(shù)優(yōu)勝劣汰;其中打分過程,因為用到了隱私數(shù)據(jù),需要作隱私保護。



【圖 2】PCEvolve 架構圖

PCEvolve 選擇器詳細設計

首先我們先聲明:下面所有的操作都需要考慮隱私保護,我們采用的是差分隱私(Differential Privacy, DP),并通過指數(shù)機制來實現(xiàn) DP,其中指數(shù)機制定義為:



















  • 執(zhí)行指數(shù)機制選擇存活樣本因為在我們的精心設計下,使得指數(shù)機制得以滿足,DP 得以保證。所以這一步變得簡單:我們只需要執(zhí)行指數(shù)機制定義的概率采樣,即可得到帶有隱私保護的高質量合成數(shù)據(jù)選擇結果。

在醫(yī)療場景和工業(yè)制造場景的實驗結果

我們主要通過兩種方式驗證 PCEvolve 的效果:a) 合成的數(shù)據(jù)對于下游模型訓練的增幅,b) 合成數(shù)據(jù)本身的質量。

a) 合成的數(shù)據(jù)對于下游模型訓練的增幅

我們評估了 PCEvolve 在COVIDx(COVID-19 胸部 X 線圖像)、Came17(乳腺癌轉移的腫瘤組織切片)、KVASIR-f(用于胃腸道異常檢測的內鏡圖像)、MVAD-l(用于異常檢測的皮革表面)上的表現(xiàn),這里大模型方面我們只需提供 API 即可。



【表 1】在四個特殊領域數(shù)據(jù)集上的精度(%)

b) 合成數(shù)據(jù)本身的質量

下圖是我們采樣的皮革表面數(shù)據(jù),這三行分別代表正常皮革、有切割缺陷的皮革、有膠水殘留缺陷的皮革。「Initial」表示大模型 API 合成的圖像(進化之前);「Private」表示垂域場景真實采集的隱私皮革表面數(shù)據(jù)。



【圖 3】皮革表面圖像數(shù)據(jù)。

其他更多實驗詳見論文。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
他用藥7年換來肌肉,卻失去了X欲!完美肌肉背后的秘密:98%都在上科技...

他用藥7年換來肌肉,卻失去了X欲!完美肌肉背后的秘密:98%都在上科技...

健身迷
2025-12-22 10:19:04
新領導上任就遇“文物失蹤”大案,南京博物院的水有多深?

新領導上任就遇“文物失蹤”大案,南京博物院的水有多深?

詩意世界
2025-12-22 21:00:58
巴薩核心對著隊友怒吼!西媒:他才是巴薩的真領袖

巴薩核心對著隊友怒吼!西媒:他才是巴薩的真領袖

星耀國際足壇
2025-12-23 11:20:19
比糖和鹽還傷血管,已被世衛(wèi)組織拉入“黑名單”,勸你早日忌口

比糖和鹽還傷血管,已被世衛(wèi)組織拉入“黑名單”,勸你早日忌口

39健康網(wǎng)
2025-12-20 20:16:48
古今最豪放的詩詞,我只服這十首,全是巔峰之作!

古今最豪放的詩詞,我只服這十首,全是巔峰之作!

長風文史
2025-12-12 09:02:41
2025最慘大撤退:18萬家快遞驛站,快把所有人得罪光了

2025最慘大撤退:18萬家快遞驛站,快把所有人得罪光了

金錯刀
2025-12-14 15:34:35
好消息!泰山俱樂部迎來新主教練,曾執(zhí)教國家女足,是韓鵬的恩師

好消息!泰山俱樂部迎來新主教練,曾執(zhí)教國家女足,是韓鵬的恩師

體壇鑒春秋
2025-12-23 13:56:08
深夜淪陷!全站黃播瘋漲2小時,快手這波“服務器繁忙”糊弄誰?

深夜淪陷!全站黃播瘋漲2小時,快手這波“服務器繁忙”糊弄誰?

鋭娛之樂
2025-12-23 08:29:00
史上最強起義軍登場,四天就滅掉了一個王朝,只犧牲一百多人

史上最強起義軍登場,四天就滅掉了一個王朝,只犧牲一百多人

珺瑤婉史
2025-12-23 19:35:06
紫牛頭條∣口罩車內突發(fā)“自燃”,新能源車主懵了!專家:口罩金屬條進入無線充電磁場范圍被加熱

紫牛頭條∣口罩車內突發(fā)“自燃”,新能源車主懵了!專家:口罩金屬條進入無線充電磁場范圍被加熱

揚子晚報
2025-12-23 20:13:52
92歲母親熬走了大哥二哥,才明白!老人超過85歲一定守住三個原則

92歲母親熬走了大哥二哥,才明白!老人超過85歲一定守住三個原則

風起見你
2025-12-13 10:07:47
憋尿看完阿凡達3,我連連感慨:留給好萊塢的時間,真的不多了

憋尿看完阿凡達3,我連連感慨:留給好萊塢的時間,真的不多了

糊咖娛樂
2025-12-22 17:14:59
有人要整垮快手?深夜突變色情站!網(wǎng)友直呼:10個直播7個黃……

有人要整垮快手?深夜突變色情站!網(wǎng)友直呼:10個直播7個黃……

柴狗夫斯基
2025-12-23 09:10:02
賽輪輪胎:公司目前出口到歐盟的訂單基本都已轉移到公司位于海外的工廠生產及發(fā)貨

賽輪輪胎:公司目前出口到歐盟的訂單基本都已轉移到公司位于海外的工廠生產及發(fā)貨

每日經濟新聞
2025-12-23 18:06:11
去上海才發(fā)現(xiàn):包包沒人背LV、Chanel!滿街都是這3大品牌,特潮

去上海才發(fā)現(xiàn):包包沒人背LV、Chanel!滿街都是這3大品牌,特潮

白宸侃片
2025-12-22 12:15:24
中共中央:分類推進高校改革

中共中央:分類推進高校改革

麥可思研究
2025-12-23 18:50:53
李湘前夫李厚霖被刑拘,被抓原因曝光,與秦海璐多個女星談過戀愛

李湘前夫李厚霖被刑拘,被抓原因曝光,與秦海璐多個女星談過戀愛

寒士之言本尊
2025-12-22 13:22:18
博涅克:萊萬應以尊嚴的方式老去,加盟米蘭踢意甲難度太大

博涅克:萊萬應以尊嚴的方式老去,加盟米蘭踢意甲難度太大

懂球帝
2025-12-23 20:22:17
建議停用這5種保健品,吃得越多,身體負擔或越重?一文講清

建議停用這5種保健品,吃得越多,身體負擔或越重?一文講清

橘子約定
2025-12-22 22:15:56
不準踏入中國市場一步?我國下達“逐客令”,三星絕望:放過我們

不準踏入中國市場一步?我國下達“逐客令”,三星絕望:放過我們

法老不說教
2025-12-10 22:27:14
2025-12-23 22:44:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
11980文章數(shù) 142518關注度
往期回顧 全部

科技要聞

慘烈90分鐘!快手驚魂:遭遇最強黑產攻擊

頭條要聞

特朗普稱出于國家安全"必須拿下格陵蘭島" 又扯上中俄

頭條要聞

特朗普稱出于國家安全"必須拿下格陵蘭島" 又扯上中俄

體育要聞

楊瀚森連續(xù)5場DNP!開拓者遭活塞雙殺

娛樂要聞

朱孝天回應阿信感謝,自曝沒再收到邀約

財經要聞

祥源系百億產品爆雷 浙金中心18人被拘

汽車要聞

四款新車集中發(fā)布 星途正式走進3.0時代

態(tài)度原創(chuàng)

教育
本地
手機
數(shù)碼
游戲

教育要聞

成都這所學校的課堂變樣了:AI在語文課當“辯手”,在體育課做“私教”

本地新聞

云游安徽|宣城何以動人心,百年塔影一城徽韻

手機要聞

小米17 Ultra徠卡“可樂標”放哪合適?

數(shù)碼要聞

銘凡BD895i SE主板開售:自帶AMD銳龍9 7945HX處理器,2899元

原來句句有回應!過完3.8主線,回頭看《不眠之夜》玩家萬分感慨

無障礙瀏覽 進入關懷版