国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

港大團隊發(fā)明"煉金術(shù)師"讓AI挑食變聰明

0
分享至


數(shù)據(jù)就像食材,質(zhì)量決定成品。這項由香港大學(xué)丁凱鑫領(lǐng)導(dǎo),聯(lián)合華南理工大學(xué)周陽以及快手科技Kling團隊共同完成的研究,于2024年12月發(fā)表在arXiv平臺(論文編號:2512.16905v1),首次為文本生成圖像模型訓(xùn)練帶來了革命性的數(shù)據(jù)篩選方法。

這里有個令人驚訝的發(fā)現(xiàn):就像一位挑食的廚師只選最好的食材,研究團隊開發(fā)的"煉金術(shù)師"(Alchemist)系統(tǒng)能夠從海量圖片數(shù)據(jù)中精準(zhǔn)挑選出最有價值的一半,訓(xùn)練出的AI模型不僅質(zhì)量更好,訓(xùn)練速度還快了5倍。更讓人驚喜的是,用這一半精選數(shù)據(jù)訓(xùn)練出的模型,竟然比用全部數(shù)據(jù)訓(xùn)練的模型表現(xiàn)還要出色。

想象一下,你要教一個孩子畫畫,是給他看一萬張雜亂無章的涂鴉更有效,還是精心挑選五千張優(yōu)質(zhì)作品更有效?答案顯而易見?,F(xiàn)在的AI圖像生成模型,如Stable Diffusion、FLUX等,就面臨著同樣的問題。它們需要從網(wǎng)絡(luò)上爬取的數(shù)百萬張圖片中學(xué)習(xí),但這些圖片質(zhì)量參差不齊,有些模糊不清,有些內(nèi)容重復(fù),有些甚至是廣告背景圖。

傳統(tǒng)的數(shù)據(jù)篩選方法就像用篩子篩米粒,只能按照單一標(biāo)準(zhǔn)過濾,比如只看圖片清晰度或者只看文字匹配度。而"煉金術(shù)師"更像是一位經(jīng)驗豐富的美食評委,它能同時考慮多個維度,不僅看"菜品"的賣相,還要品嘗口感,甚至考慮營養(yǎng)搭配。

研究團隊的核心創(chuàng)新在于讓AI學(xué)會"自我評判"。他們訓(xùn)練了一個專門的評分員模型,這個評分員就像是一位資深的藝術(shù)老師,能夠判斷每張圖片對整個學(xué)習(xí)過程的價值。有趣的是,這個評分員不是簡單地給圖片打分,而是通過觀察AI模型在學(xué)習(xí)過程中的"反應(yīng)"來判斷數(shù)據(jù)的價值。

具體來說,如果一張圖片能讓AI模型學(xué)到新知識并快速改進,那就是好數(shù)據(jù);如果一張圖片讓模型學(xué)了半天也沒什么進步,那就可能是無用數(shù)據(jù)。這就像觀察學(xué)生做習(xí)題時的表情和進步速度,來判斷這道題是否適合他們一樣。

更巧妙的是,研究團隊發(fā)現(xiàn)了一個違反直覺的現(xiàn)象:那些看起來最"簡單"的圖片,比如純白背景的產(chǎn)品圖,雖然能讓AI快速收斂,但實際上對提升模型能力幫助不大。相反,那些內(nèi)容豐富、稍有挑戰(zhàn)性的圖片,才是真正的"營養(yǎng)品"。這就像學(xué)習(xí)數(shù)學(xué),一直做最簡單的加法題雖然不會出錯,但對提升數(shù)學(xué)能力沒有幫助,適當(dāng)難度的題目才能真正鍛煉思維能力。

為了驗證這個發(fā)現(xiàn),研究團隊追蹤了不同評分區(qū)間圖片的訓(xùn)練動態(tài)。他們發(fā)現(xiàn),評分最高的圖片雖然訓(xùn)練損失很低,但梯度變化也很小,說明模型從中學(xué)不到太多新東西。而中等評分的圖片則展現(xiàn)出活躍的梯度動態(tài),表明模型正在積極學(xué)習(xí)。評分最低的圖片梯度幾乎不下降,說明這些數(shù)據(jù)可能過于混亂或困難。

基于這個洞察,團隊提出了"偏移高斯采樣"策略。傳統(tǒng)方法會選擇評分最高的數(shù)據(jù),但他們發(fā)現(xiàn)最有效的方法是避開評分過高的"簡單"數(shù)據(jù),重點選擇中等偏上評分的"有營養(yǎng)"數(shù)據(jù)。這就像制定健身計劃,不選擇過于輕松的運動(沒有鍛煉效果),也不選擇過于困難的運動(容易受傷),而是選擇適當(dāng)強度的運動來獲得最佳效果。

為了更好地評估數(shù)據(jù)質(zhì)量,研究團隊還設(shè)計了"多粒度感知"機制。這個機制不僅看單張圖片的質(zhì)量,還考慮整批數(shù)據(jù)的搭配。就像營養(yǎng)師不僅關(guān)注單個食材的營養(yǎng)價值,還要考慮整餐的營養(yǎng)搭配一樣。他們在評分系統(tǒng)中加入了群組感知模塊,能夠捕捉每批數(shù)據(jù)的整體特征,避免因批次差異帶來的評分偏差。

實驗結(jié)果令人印象深刻。在LAION-30M數(shù)據(jù)集上,使用"煉金術(shù)師"選擇的15M數(shù)據(jù)訓(xùn)練的模型,在圖像質(zhì)量(FID指標(biāo)從19.70降至16.20)和文本匹配度(CLIP評分從0.2220升至0.2325)方面都明顯超過了隨機選擇的15M數(shù)據(jù)。更令人驚喜的是,僅用6M精選數(shù)據(jù)就能達到與15M隨機數(shù)據(jù)相當(dāng)?shù)男Ч?,?xùn)練時間縮短了5倍。

這種方法的通用性也得到了驗證。研究團隊在不同類型的數(shù)據(jù)集上進行了測試,包括網(wǎng)絡(luò)爬取的LAION數(shù)據(jù)、高質(zhì)量合成的Flux-reason數(shù)據(jù),以及包含人類偏好標(biāo)注的HPDv3數(shù)據(jù)。無論在哪種數(shù)據(jù)類型上,"煉金術(shù)師"都能顯著提升訓(xùn)練效率和模型質(zhì)量。

更重要的是,這個系統(tǒng)展現(xiàn)出了良好的跨模型適用性。用小模型評分選出的數(shù)據(jù),能夠有效提升大模型的性能。這就像用經(jīng)驗豐富的教練選擇訓(xùn)練方法,不僅適用于業(yè)余選手,對專業(yè)選手也同樣有效。研究團隊用0.3B參數(shù)的小模型做數(shù)據(jù)篩選,成功提升了0.9B大模型和不同架構(gòu)FLUX模型的性能。

從數(shù)據(jù)分布來看,"煉金術(shù)師"選擇的結(jié)果與人類直覺高度吻合。在按評分排序的數(shù)據(jù)中,0-20%的高分區(qū)域主要是簡潔的產(chǎn)品圖和純色背景圖,雖然干凈但信息量有限;30-80%的中分區(qū)域包含了內(nèi)容豐富、主題明確的優(yōu)質(zhì)圖片;80-100%的低分區(qū)域則充斥著噪聲圖片、多對象混亂場景等低質(zhì)量內(nèi)容。"煉金術(shù)師"的策略正是專注于那個"金中間"區(qū)域,在保持學(xué)習(xí)效率的同時最大化信息獲取。

這項研究的意義遠超技術(shù)本身。在當(dāng)前數(shù)據(jù)成本日益高昂的背景下,如何高效利用數(shù)據(jù)成為了AI發(fā)展的關(guān)鍵瓶頸。"煉金術(shù)師"提供的不是簡單的數(shù)據(jù)壓縮,而是智能的數(shù)據(jù)提純。它讓我們重新思考"更多數(shù)據(jù)就是更好結(jié)果"這一傳統(tǒng)觀念,轉(zhuǎn)而追求"更好數(shù)據(jù)帶來更優(yōu)結(jié)果"的新范式。

從實際應(yīng)用角度來看,這項技術(shù)能夠顯著降低AI模型訓(xùn)練的資源消耗。對于想要訓(xùn)練定制化圖像生成模型的公司來說,不再需要準(zhǔn)備海量數(shù)據(jù),而是可以通過智能篩選獲得更高效的訓(xùn)練效果。這不僅降低了技術(shù)門檻,也為中小企業(yè)進入AI領(lǐng)域提供了新的可能。

值得注意的是,研究團隊選擇了自回歸結(jié)構(gòu)作為代理模型,而不是常見的擴散模型。原因在于自回歸模型的單步生成過程能夠提供更穩(wěn)定的梯度信號,避免了擴散模型在某些時間步可能產(chǎn)生誤導(dǎo)性優(yōu)化信號的問題。這個設(shè)計選擇體現(xiàn)了研究團隊對技術(shù)細(xì)節(jié)的深度思考。

這項研究也揭示了圖像數(shù)據(jù)與文本數(shù)據(jù)的本質(zhì)區(qū)別。在語言模型訓(xùn)練中,更干凈的文本通常意味著更高的信息價值,但在圖像領(lǐng)域恰恰相反。圖像本身包含大量視覺冗余,過于"干凈"的圖像往往信息量有限,而適度復(fù)雜的圖像才能提供豐富的學(xué)習(xí)信號。這種領(lǐng)域特異性的洞察,為未來的多模態(tài)AI研究提供了重要啟示。

研究團隊還進行了詳盡的消融實驗,驗證了系統(tǒng)各個組件的重要性。他們發(fā)現(xiàn),群組感知機制能將性能從CLIP評分0.2272提升到0.2277,看似微小的提升實際上在大規(guī)模訓(xùn)練中意義重大。偏移高斯采樣相比傳統(tǒng)的Top-K選擇,在FID指標(biāo)上有顯著優(yōu)勢,進一步證明了"適度挑戰(zhàn)"原則的有效性。

從技術(shù)實現(xiàn)角度,"煉金術(shù)師"系統(tǒng)設(shè)計精巧而高效。評分網(wǎng)絡(luò)采用輕量級設(shè)計,訓(xùn)練成本相比主模型幾乎可以忽略不計,但能夠在多個下游任務(wù)間復(fù)用。這種一次投入、多次受益的設(shè)計思路,讓該技術(shù)具備了實際部署的可行性。

展望未來,這項研究為數(shù)據(jù)中心的AI訓(xùn)練帶來了新的思路。傳統(tǒng)的做法是收集盡可能多的數(shù)據(jù),然后投入巨大的計算資源進行訓(xùn)練。而"煉金術(shù)師"展示的是另一條路徑:通過智能的數(shù)據(jù)篩選,用更少但更優(yōu)質(zhì)的數(shù)據(jù)達到更好的效果。這不僅是技術(shù)進步,更是資源利用方式的根本性改變。

這種數(shù)據(jù)篩選方法還可能影響數(shù)據(jù)收集策略。既然我們知道什么樣的數(shù)據(jù)更有價值,那么在數(shù)據(jù)收集階段就可以有針對性地尋找這類數(shù)據(jù),而不是盲目地擴大數(shù)據(jù)規(guī)模。這將推動整個行業(yè)從"量"的競爭轉(zhuǎn)向"質(zhì)"的競爭,催生更加精細(xì)化的數(shù)據(jù)工程實踐。

總而言之,"煉金術(shù)師"不僅是一個技術(shù)創(chuàng)新,更是一個理念突破。它告訴我們,在AI訓(xùn)練這道菜譜中,選對食材比增加分量更重要。通過讓AI學(xué)會自我評判和選擇,我們不僅能獲得更好的模型性能,還能以更可持續(xù)的方式推進AI技術(shù)的發(fā)展。這項研究為未來的數(shù)據(jù)驅(qū)動AI研究指明了新的方向,相信會啟發(fā)更多創(chuàng)新性的解決方案。

Q&A

Q1:煉金術(shù)師Alchemist如何判斷哪些圖片數(shù)據(jù)更有價值?

A:煉金術(shù)師通過觀察AI模型在學(xué)習(xí)過程中的"反應(yīng)"來判斷數(shù)據(jù)價值,如果一張圖片能讓模型學(xué)到新知識并快速改進就是好數(shù)據(jù),如果讓模型學(xué)了半天沒進步就是無用數(shù)據(jù),類似觀察學(xué)生做題時的表情來判斷題目是否合適。

Q2:為什么用一半數(shù)據(jù)訓(xùn)練出的模型比用全部數(shù)據(jù)還要好?

A:因為并非所有數(shù)據(jù)都有價值,就像教孩子畫畫時精選5000張優(yōu)質(zhì)作品比給他看10000張雜亂涂鴉更有效。煉金術(shù)師發(fā)現(xiàn)那些看起來最簡單的圖片雖然不會出錯但學(xué)不到東西,而內(nèi)容豐富、稍有挑戰(zhàn)的圖片才是真正的營養(yǎng)品。

Q3:煉金術(shù)師的數(shù)據(jù)篩選方法能在其他AI模型上使用嗎?

A:可以,研究顯示這種方法具有良好的通用性和跨模型適用性。無論是網(wǎng)絡(luò)數(shù)據(jù)、合成數(shù)據(jù)還是不同架構(gòu)的模型都能有效提升,就像經(jīng)驗豐富的教練選擇的訓(xùn)練方法既適合業(yè)余選手也適合專業(yè)選手。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
1956年毛主席罕見發(fā)問:東來順羊肉咋回事?陳云一查,根子不在師傅,問題出在“新規(guī)矩”

1956年毛主席罕見發(fā)問:東來順羊肉咋回事?陳云一查,根子不在師傅,問題出在“新規(guī)矩”

歷史回憶室
2025-12-23 10:19:17
志愿軍首戰(zhàn)殲滅美軍一萬五,主席卻提筆改成六千,麥克阿瑟看完戰(zhàn)報笑得合不攏嘴,結(jié)果幾十萬大軍一頭扎進死胡同,這招示弱太絕了

志愿軍首戰(zhàn)殲滅美軍一萬五,主席卻提筆改成六千,麥克阿瑟看完戰(zhàn)報笑得合不攏嘴,結(jié)果幾十萬大軍一頭扎進死胡同,這招示弱太絕了

歷史回憶室
2025-12-26 11:42:28
為啥"唐氏兒"都長著同一張臉?醫(yī)生一般不說,父母最好要知道

為啥"唐氏兒"都長著同一張臉?醫(yī)生一般不說,父母最好要知道

大果小果媽媽
2025-12-28 11:33:24
孟村殺妻案結(jié)果公布,判決前金昊母子照片曝光,兩人狀態(tài)截然不同

孟村殺妻案結(jié)果公布,判決前金昊母子照片曝光,兩人狀態(tài)截然不同

歷史偉人錄
2025-12-27 21:34:16
袁天罡農(nóng)家躲雨,主人只掃屋心,他面色驟變:三代之內(nèi)必出大人物

袁天罡農(nóng)家躲雨,主人只掃屋心,他面色驟變:三代之內(nèi)必出大人物

小豫講故事
2025-12-28 06:00:08
李瑞環(huán)說:葉選平是葉帥的兒子,但水平比我高,為什么不能當(dāng)省長

李瑞環(huán)說:葉選平是葉帥的兒子,但水平比我高,為什么不能當(dāng)省長

章荳解說體育
2025-12-11 21:56:41
柬埔寨國王,72歲了,沒錢沒權(quán),沒結(jié)婚沒孩子,和老母親相依為命

柬埔寨國王,72歲了,沒錢沒權(quán),沒結(jié)婚沒孩子,和老母親相依為命

趣文說娛
2025-12-23 17:34:34
童瑤胸貼露出來了

童瑤胸貼露出來了

手工制作阿殲
2025-12-15 12:20:21
中山一商場展車撞入手機店,車企工作人員:小孩誤觸所致,無人受傷

中山一商場展車撞入手機店,車企工作人員:小孩誤觸所致,無人受傷

極目新聞
2025-12-28 13:48:03
錢再多也沒用!向太曝馬伊琍已再婚,原來當(dāng)年文章過不了心里那關(guān)

錢再多也沒用!向太曝馬伊琍已再婚,原來當(dāng)年文章過不了心里那關(guān)

一娛三分地
2025-12-15 13:26:07
一個男人如果不正經(jīng),通過這2個模樣,一看便知!

一個男人如果不正經(jīng),通過這2個模樣,一看便知!

加油丁小文
2025-12-01 08:00:12
殲-15幾乎全部退役,淪為全球最短命艦載機!它究竟有哪些短板?

殲-15幾乎全部退役,淪為全球最短命艦載機!它究竟有哪些短板?

小莜讀史
2025-12-27 14:55:11
201米!40億!騰訊西南總部,世界“第一扭”摩天樓

201米!40億!騰訊西南總部,世界“第一扭”摩天樓

GA環(huán)球建筑
2025-12-25 23:00:32
原來他早已去世,15歲演戲44歲走紅,47歲患癌離世,哥哥是熟面孔

原來他早已去世,15歲演戲44歲走紅,47歲患癌離世,哥哥是熟面孔

故事講電影
2025-12-28 20:01:41
“后悔來清華參觀,自取其辱”,母親帶娃游清華,被食堂氣到失控

“后悔來清華參觀,自取其辱”,母親帶娃游清華,被食堂氣到失控

詩意世界
2025-11-30 11:04:47
馬卡:弗洛倫蒂諾使巴薩財務(wù)難題徹底解決,應(yīng)拿巴薩金質(zhì)勛章

馬卡:弗洛倫蒂諾使巴薩財務(wù)難題徹底解決,應(yīng)拿巴薩金質(zhì)勛章

懂球帝
2025-12-28 20:59:23
溥儀9歲仍在吃奶,給他當(dāng)乳娘有2規(guī)矩:一是喂奶,另一個毫無人性

溥儀9歲仍在吃奶,給他當(dāng)乳娘有2規(guī)矩:一是喂奶,另一個毫無人性

小豫講故事
2025-12-27 06:00:06
中國股市:炒股成功的人到底有多可怕?從窮人到富人的全過程!

中國股市:炒股成功的人到底有多可怕?從窮人到富人的全過程!

股經(jīng)縱橫談
2025-12-28 18:53:25
天氣預(yù)報丨新一輪降溫即將到來 重慶高海拔地區(qū)有雪

天氣預(yù)報丨新一輪降溫即將到來 重慶高海拔地區(qū)有雪

上游新聞
2025-12-28 17:24:02
廣東vs山西,對抗強度拉滿,胡明軒奎因表現(xiàn)糟糕,杜鋒投訴迪亞洛

廣東vs山西,對抗強度拉滿,胡明軒奎因表現(xiàn)糟糕,杜鋒投訴迪亞洛

鄒維體育
2025-12-28 20:06:15
2025-12-28 21:20:49
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
6680文章數(shù) 544關(guān)注度
往期回顧 全部

科技要聞

特斯拉將在華布局自動駕駛?記者求證→

頭條要聞

新華社發(fā)文:積蓄統(tǒng)一大勢

頭條要聞

新華社發(fā)文:積蓄統(tǒng)一大勢

體育要聞

83分鐘絕殺!曼城2-1年度收官:英超6連勝狂飆

娛樂要聞

白敬亭現(xiàn)身冰雪大世界 拍視頻還翻車了

財經(jīng)要聞

英偉達的收購史

汽車要聞

理想的2026:L9不容有失,i9再戰(zhàn)純電?

態(tài)度原創(chuàng)

健康
教育
房產(chǎn)
手機
旅游

這些新療法,讓化療不再那么痛苦

教育要聞

雅思3個月提2分,因為我們做對了這幾件事!

房產(chǎn)要聞

降維打擊!三亞CBD驚現(xiàn)“豪宅新王”,高端局要變天了!

手機要聞

HMD新機曝光:高刷LCD屏+大電池

旅游要聞

大理的櫻花之美一如杭州的桂花之香,滿城皆是,隨處可聞

無障礙瀏覽 進入關(guān)懷版