国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

合成數(shù)據(jù)≠生成模型:一文讀懂合成數(shù)據(jù)的全新范式

0
分享至


新智元報(bào)道

編輯:LRST

【新智元導(dǎo)讀】最新研究提出合成數(shù)據(jù)的全新分類框架,突破「生成模型=合成數(shù)據(jù)」的傳統(tǒng)認(rèn)知,涵蓋反演、仿真與數(shù)據(jù)增強(qiáng)等方法,并按應(yīng)用層次劃分為數(shù)據(jù)中心AI、模型中心AI、可信AI和具身AI。

隨著基礎(chǔ)模型規(guī)模不斷擴(kuò)大,真實(shí)數(shù)據(jù)在成本、隱私、質(zhì)量和可控性上的限制,正逐漸成為 AI 繼續(xù)發(fā)展的關(guān)鍵瓶頸。

尤其是在醫(yī)療等高價(jià)值場(chǎng)景中,真實(shí)數(shù)據(jù)本身難以獲取,「依賴數(shù)據(jù)自然產(chǎn)生」的范式正在失效。

在這樣的背景下,合成數(shù)據(jù)正在從「真實(shí)數(shù)據(jù)的補(bǔ)充」,轉(zhuǎn)變?yōu)椤爸鲃?dòng)構(gòu)造高質(zhì)量訓(xùn)練與評(píng)估數(shù)據(jù)的核心機(jī)制”。

基于對(duì)300+篇代表性文獻(xiàn)的系統(tǒng)梳理,南洋理工大學(xué)、清華大學(xué)、四川大學(xué)、中山大學(xué)的研究人員提出了一個(gè)統(tǒng)一的How / Why / Where框架,重新定義了合成數(shù)據(jù)的方法邊界,并從應(yīng)用層面給出了更完整的發(fā)展路徑。


論文鏈接:https://www.techrxiv.org/users/1016218/articles/1378802-synthetic-data-beyond-generative-models-a-comprehensive-survey-of-how-why-and-where

論文資源庫:https://github.com/Egg-Hu/Awesome-Synthetic-Data-Generation

首先,合成數(shù)據(jù)方法該如何分類?

很多工作默認(rèn)認(rèn)為「合成數(shù)據(jù) = 生成模型」,該綜述重新定義了「數(shù)據(jù)合成」的方法邊界,跳出「合成數(shù)據(jù) = 生成模型」的單一視角。也就是說,合成數(shù)據(jù)并不等同于“用生成模型造數(shù)據(jù)”,反演、仿真、增強(qiáng)等方式也都應(yīng)被納入合成數(shù)據(jù)的范疇。

下表給出了整體分類框架:


第二,成數(shù)據(jù)應(yīng)用在哪些核心場(chǎng)景?

不同于以往按具體任務(wù)或領(lǐng)域劃分的方式,本文從更高層次出發(fā),將合成數(shù)據(jù)的應(yīng)用組織為一條逐步演進(jìn)的能力路徑。

在這一框架下,最基礎(chǔ)的是數(shù)據(jù)中心人工智能(Data-centric AI),其核心目標(biāo)是解決真實(shí)數(shù)據(jù)稀缺、獲取成本高以及隱私受限等問題,通過合成數(shù)據(jù)擴(kuò)展訓(xùn)練集并提升數(shù)據(jù)質(zhì)量,為模型訓(xùn)練提供穩(wěn)定的數(shù)據(jù)基礎(chǔ)。

在此之上,隨著數(shù)據(jù)可獲得性的提升,研究重點(diǎn)逐漸轉(zhuǎn)向模型中心人工智能(Model-centric AI),此時(shí)合成數(shù)據(jù)不僅用于補(bǔ)充數(shù)據(jù),還被用于能力注入,例如提升模型的推理、編碼與對(duì)齊能力,并構(gòu)建可控的評(píng)測(cè)基準(zhǔn)。

進(jìn)一步地,隨著模型能力的增強(qiáng),對(duì)系統(tǒng)可靠性的需求不斷提高,催生了可信人工智能(Trustworthy AI),在這一階段,合成數(shù)據(jù)被廣泛用于隱私保護(hù)、安全防護(hù)、公平性提升以及模型可解釋性分析。

最后,合成數(shù)據(jù)的應(yīng)用從數(shù)字空間走向現(xiàn)實(shí)世界,對(duì)應(yīng)的是具身智能(Embodied AI),其目標(biāo)是支持感知、交互與泛化能力,使智能體能夠在復(fù)雜物理環(huán)境中進(jìn)行決策與行動(dòng)。下表給出了整體結(jié)構(gòu)(具體細(xì)節(jié)可參考原論文):


進(jìn)一步地,文章將上述四類應(yīng)用場(chǎng)景細(xì)化到了 30+ 個(gè)具體機(jī)器學(xué)習(xí)任務(wù)層級(jí),從而構(gòu)建起從宏觀分類到具體問題的系統(tǒng)化映射。

如下圖所示,每一類場(chǎng)景都被進(jìn)一步拆解為多個(gè)典型問題:例如,在數(shù)據(jù)中心人工智能中,涵蓋了零/少樣本學(xué)習(xí)、聯(lián)邦學(xué)習(xí)、無數(shù)據(jù)學(xué)習(xí)、數(shù)據(jù)蒸餾等任務(wù);在模型中心人工智能中,則進(jìn)一步細(xì)化為模型通用能力提升,以及推理、編碼、指令對(duì)齊等特定能力的增強(qiáng),同時(shí)也包括基于合成數(shù)據(jù)的模型評(píng)測(cè)任務(wù);

在可信人工智能中,主要聚焦于隱私保護(hù)、模型攻擊、安全防護(hù)、長(zhǎng)尾學(xué)習(xí)與可解釋性等任務(wù);而在具身智能中,則進(jìn)一步延伸到感知、交互以及跨場(chǎng)景泛化等面向真實(shí)環(huán)境的任務(wù)。


最后,合成數(shù)據(jù)面臨哪些挑戰(zhàn)與機(jī)遇?

盡管在方法體系與應(yīng)用落地方面已經(jīng)取得了顯著進(jìn)展,但合成數(shù)據(jù)仍處于快速發(fā)展階段,仍然存在一系列關(guān)鍵挑戰(zhàn)有待解決。

  • 隨著模型越來越多地依賴自生成數(shù)據(jù)進(jìn)行訓(xùn)練,一個(gè)核心風(fēng)險(xiǎn)逐漸顯現(xiàn):模型坍塌(model collapse)。當(dāng)模型反復(fù)在自身生成的數(shù)據(jù)上迭代訓(xùn)練時(shí),可能導(dǎo)致分布逐漸收縮,數(shù)據(jù)多樣性下降,從而影響模型性能與泛化能力。

  • 在實(shí)際應(yīng)用中,如何在數(shù)據(jù)效用與隱私保護(hù)之間取得平衡,仍然是一個(gè)長(zhǎng)期存在的問題,即所謂的數(shù)據(jù)效用與隱私保護(hù)的權(quán)衡(utility–privacy tradeoff)。過強(qiáng)的隱私約束可能降低數(shù)據(jù)可用性,而過高的數(shù)據(jù)保真度又可能帶來潛在的隱私泄露風(fēng)險(xiǎn)。

  • 當(dāng)合成數(shù)據(jù)被用于模型評(píng)測(cè)時(shí),還可能引入新的偏差來源。例如,生成-評(píng)測(cè)偏差(generation–evaluation bias)指的是模型在由相似生成機(jī)制產(chǎn)生的測(cè)試數(shù)據(jù)上表現(xiàn)更優(yōu),從而導(dǎo)致評(píng)估結(jié)果失真,影響對(duì)模型真實(shí)能力的判斷。

  • 在方法層面,多個(gè)前沿方向也仍有待探索。例如,主動(dòng)式數(shù)據(jù)合成(active data synthesis)強(qiáng)調(diào)根據(jù)模型需求動(dòng)態(tài)生成最有價(jià)值的數(shù)據(jù),以提升數(shù)據(jù)利用效率;而多模態(tài)數(shù)據(jù)合成(multi-modal data synthesis)則關(guān)注如何生成語義一致、跨模態(tài)對(duì)齊的高質(zhì)量數(shù)據(jù),這對(duì)于多模態(tài)模型的發(fā)展尤為關(guān)鍵。

  • 最后,一個(gè)基礎(chǔ)但尚未完全解決的問題是:如何系統(tǒng)性評(píng)估合成數(shù)據(jù)的質(zhì)量。這不僅包括數(shù)據(jù)的有效性(utility)與多樣性(diversity),還涉及隱私(privacy)與安全性(security)等多個(gè)維度,目前仍缺乏統(tǒng)一且標(biāo)準(zhǔn)化的評(píng)測(cè)體系。

下圖給出了該綜述的總體整理框架,具體細(xì)節(jié)可參考原文。


這篇綜述最值得關(guān)注的地方,不只是整理了現(xiàn)有方法,更重要的是它改變了我們理解合成數(shù)據(jù)的方式: 合成數(shù)據(jù)不再只是生成模型的一個(gè)應(yīng)用方向,而正在成為連接數(shù)據(jù)、模型、評(píng)測(cè)與真實(shí)世界交互的新型基礎(chǔ)設(shè)施。

如果說過去AI的競(jìng)爭(zhēng)核心是「誰擁有更多真實(shí)數(shù)據(jù)」,那么未來很可能會(huì)變成「誰能更高效、更安全、更可控地生成高價(jià)值數(shù)據(jù)」。

參考資料:

https://www.techrxiv.org/users/1016218/articles/1378802-synthetic-data-beyond-generative-models-a-comprehensive-survey-of-how-why-and-where

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
俄羅斯無人機(jī)背后的生產(chǎn)網(wǎng)絡(luò)

俄羅斯無人機(jī)背后的生產(chǎn)網(wǎng)絡(luò)

日觀研
2026-04-20 12:15:03
首場(chǎng)下克上!魔術(shù)滅活塞總分1-0 坎寧安39+5+4班凱羅23+9

首場(chǎng)下克上!魔術(shù)滅活塞總分1-0 坎寧安39+5+4班凱羅23+9

醉臥浮生
2026-04-20 09:08:16
賣了80多座萬達(dá)廣場(chǎng),還欠6000億!萬達(dá)的債為啥永遠(yuǎn)還不完?

賣了80多座萬達(dá)廣場(chǎng),還欠6000億!萬達(dá)的債為啥永遠(yuǎn)還不完?

科學(xué)發(fā)掘
2026-04-17 00:52:53
133號(hào)艦艇編隊(duì)為何選擇從這里進(jìn)入太平洋?專家解讀

133號(hào)艦艇編隊(duì)為何選擇從這里進(jìn)入太平洋?專家解讀

環(huán)球網(wǎng)資訊
2026-04-20 12:17:06
知名男團(tuán)方:廣州演唱會(huì),將從十九涌路實(shí)行嚴(yán)格封控

知名男團(tuán)方:廣州演唱會(huì),將從十九涌路實(shí)行嚴(yán)格封控

南方都市報(bào)
2026-04-20 13:56:29
文班季后賽首秀35分:創(chuàng)歷史第一+隊(duì)史第一 屢秀暴扣三分獲盛贊

文班季后賽首秀35分:創(chuàng)歷史第一+隊(duì)史第一 屢秀暴扣三分獲盛贊

醉臥浮生
2026-04-20 11:39:09
美伊談判破裂,加拿大總理表態(tài)拒付資金,歐洲多國跟進(jìn)取消訂單

美伊談判破裂,加拿大總理表態(tài)拒付資金,歐洲多國跟進(jìn)取消訂單

一盅情懷
2026-04-19 19:34:55
這個(gè)90后女演員憑什么擊敗章子怡、馬麗,奪得金像影后桂冠

這個(gè)90后女演員憑什么擊敗章子怡、馬麗,奪得金像影后桂冠

新民周刊
2026-04-20 11:37:22
脫口秀女演員自曝在潑水節(jié)執(zhí)勤經(jīng)歷,“穿著警察制服,幾個(gè)水氣球連續(xù)正中面門,被高壓水槍滋胸和屁股,每年要扛出多個(gè)被潑蒙掉的女孩”

脫口秀女演員自曝在潑水節(jié)執(zhí)勤經(jīng)歷,“穿著警察制服,幾個(gè)水氣球連續(xù)正中面門,被高壓水槍滋胸和屁股,每年要扛出多個(gè)被潑蒙掉的女孩”

揚(yáng)子晚報(bào)
2026-04-20 12:24:51
太扎心了!上海男子年薪百萬失業(yè)引不滿,新婚3個(gè)月女子就想離婚

太扎心了!上海男子年薪百萬失業(yè)引不滿,新婚3個(gè)月女子就想離婚

火山詩話
2026-04-20 06:12:18
6歲男孩為躲母親毆打,離家出走22年,長(zhǎng)大后才得知母親悲慘人生

6歲男孩為躲母親毆打,離家出走22年,長(zhǎng)大后才得知母親悲慘人生

哄動(dòng)一時(shí)啊
2026-04-19 14:38:19
廣東省最厲害的八個(gè)醫(yī)院科室

廣東省最厲害的八個(gè)醫(yī)院科室

白宸侃片
2026-04-20 11:30:58
“劉儀偉,我們的百億去哪了?”大片投資騙局受害人聯(lián)名質(zhì)問

“劉儀偉,我們的百億去哪了?”大片投資騙局受害人聯(lián)名質(zhì)問

文娛春秋Plus
2026-04-20 09:00:08
長(zhǎng)沙被桿砸傷的大媽發(fā)聲:退休公務(wù)員,不會(huì)訛人,車主堅(jiān)決不賠償

長(zhǎng)沙被桿砸傷的大媽發(fā)聲:退休公務(wù)員,不會(huì)訛人,車主堅(jiān)決不賠償

觀察鑒娛
2026-04-19 16:10:54
1999年,69歲禹作敏獄中難耐孤寂,死前曾向李瑞環(huán)提出:我想回家

1999年,69歲禹作敏獄中難耐孤寂,死前曾向李瑞環(huán)提出:我想回家

華人星光
2026-04-20 09:59:15
男孩cos弗利薩,媽媽用乳膠漆化妝,洗不掉成“永久皮膚”

男孩cos弗利薩,媽媽用乳膠漆化妝,洗不掉成“永久皮膚”

國創(chuàng)漫話
2026-04-19 15:57:41
《我在故宮修文物》導(dǎo)演去世,享年43歲

《我在故宮修文物》導(dǎo)演去世,享年43歲

界面新聞
2026-04-20 12:37:14
大數(shù)據(jù)分析,在中國,找個(gè)身高1米7年入20萬的老公,到底有多難?

大數(shù)據(jù)分析,在中國,找個(gè)身高1米7年入20萬的老公,到底有多難?

深度報(bào)
2026-04-18 23:37:27
解讀|法國通過文物歸還法案,敦煌藏經(jīng)洞文物就能回歸嗎?

解讀|法國通過文物歸還法案,敦煌藏經(jīng)洞文物就能回歸嗎?

澎湃新聞
2026-04-20 08:08:29
放棄幻想,若中日開戰(zhàn),世界各國的立場(chǎng)如何

放棄幻想,若中日開戰(zhàn),世界各國的立場(chǎng)如何

孝沛與世界
2026-04-20 01:24:36
2026-04-20 14:40:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
15015文章數(shù) 66787關(guān)注度
往期回顧 全部

科技要聞

藍(lán)色起源一級(jí)火箭完美回收 客戶衛(wèi)星未入軌

頭條要聞

媒體:伊朗剛說不談 美國立即開打

頭條要聞

媒體:伊朗剛說不談 美國立即開打

體育要聞

阿森納已拼盡全力,但你早干嘛去了...

娛樂要聞

鹿晗生日上熱搜,被關(guān)曉彤撕下體面

財(cái)經(jīng)要聞

月之暗面IPO迷局

汽車要聞

把天門山搬進(jìn)廠?開仰望U8沖上45度坡的那刻 我腿軟了

態(tài)度原創(chuàng)

房產(chǎn)
旅游
藝術(shù)
家居
軍事航空

房產(chǎn)要聞

重磅!??诒闭緛砹?!多項(xiàng)信息曝光,過海時(shí)間將大幅縮短!

旅游要聞

北京經(jīng)開區(qū)重磅發(fā)布2026年文商旅體活動(dòng)

藝術(shù)要聞

王羲之《換鵝帖》尚在人間,驚艷無比!

家居要聞

自然慢調(diào) 慢享時(shí)光

軍事要聞

特朗普:美艦向伊朗貨船開火炸出個(gè)洞

無障礙瀏覽 進(jìn)入關(guān)懷版