国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

ICCV 2025 | 獎(jiǎng)勵(lì)模型新突破:ICT-HP讓文生圖更懂人類審美

0
分享至

在文本到圖像生成的革命性浪潮中,我們見證了從模糊到高清,從單一到細(xì)節(jié)豐富的飛躍。

然而,一個(gè)令人困惑的挑戰(zhàn)也隨之浮現(xiàn):當(dāng)我們生成越來越精美的圖像時(shí),現(xiàn)有的評(píng)估模型,例如那些基于 CLIP 或 BLIP 的模型,似乎開始“不買賬”了。它們可能會(huì)給細(xì)節(jié)豐富的藝術(shù)大作打低分,反而青睞那些僅僅忠實(shí)于文本描述的簡(jiǎn)單圖像。

這種與人類實(shí)際審美偏好相悖的“評(píng)分悖論”,迫使我們重新審視當(dāng)前的評(píng)估框架。

為此,作者提出了一套全新的 ICT-HP 評(píng)估框架,讓獎(jiǎng)勵(lì)模型能夠更精準(zhǔn)地捕捉和理解人類的審美偏好,從而生成真正高品質(zhì)、高細(xì)節(jié)的符合人類審美標(biāo)準(zhǔn)的視覺藝術(shù)。

論文標(biāo)題: Enhancing Reward Models for High-quality Image Generation: Beyond Text-Image Alignment 論文地址: https://www.arxiv.org/abs/2507.19002 項(xiàng)目代碼地址: https://github.com/BarretBa/ICTHPPick-High

數(shù)據(jù)集鏈接: https://huggingface.co/datasets/8y/Pick-High-Dataset 公開模型權(quán)重: https://huggingface.co/8y/ICT https://huggingface.co/8y/HP

一、核心挑戰(zhàn):為何現(xiàn)有獎(jiǎng)勵(lì)模型“失靈”?

隨著先進(jìn)的文生圖模型不斷涌現(xiàn),我們對(duì)生成圖像的期待早已超越了簡(jiǎn)單的“圖文對(duì)齊”。我們渴望的是細(xì)節(jié)更豐富、美學(xué)質(zhì)量更高、更符合人類偏好的藝術(shù)作品。然而,現(xiàn)有獎(jiǎng)勵(lì)模型存在三大根本缺陷:

“對(duì)齊陷阱”:錯(cuò)誤的等價(jià)假設(shè):現(xiàn)有的獎(jiǎng)勵(lì)模型在評(píng)估文本-圖像對(duì)齊時(shí),錯(cuò)誤地假設(shè)圖像中的信息內(nèi)容與文本描述存在潛在的等價(jià)關(guān)系 。但實(shí)際上,語言的表達(dá)邊界遠(yuǎn)無法涵蓋視覺的無限可能——一幅畫中的光影變化、質(zhì)感細(xì)節(jié)、情感氛圍,往往是文字難以完全描述的。

“評(píng)分悖論”:簡(jiǎn)單勝過精美:這種對(duì)齊陷阱造成了與人類審美矛盾的結(jié)果,對(duì)于同一個(gè)提示詞,一個(gè)只包含基本描述的簡(jiǎn)單圖像往往會(huì)獲得比擁有更豐富細(xì)節(jié)和美學(xué)元素的高質(zhì)量圖像更高的分?jǐn)?shù)。

優(yōu)化困境:先進(jìn)模型被誤導(dǎo):這個(gè)現(xiàn)象不僅存在于 CLIP 和 BLIP 等基礎(chǔ)模型中,也影響了像 ImageReward 和 PickScore 這樣經(jīng)過人類偏好微調(diào)的模型 。這使得它們?cè)趦?yōu)化像 Stable Diffusion-3.5 這樣的先進(jìn)大型模型時(shí),可能會(huì)導(dǎo)致生成的圖像視覺稀疏、美學(xué)不足。

上圖直觀地展示了這種“評(píng)分悖論”,在 CLIP/BLIP 和基于此繼續(xù)微調(diào)的獎(jiǎng)勵(lì)模型,在面對(duì)經(jīng)過大型語言模型 CoT 優(yōu)化后的更豐富的提示詞生成的圖像時(shí),現(xiàn)有獎(jiǎng)勵(lì)模型會(huì)給出更低的不合理評(píng)分。

二、本文方法:ICT-HP框架如何突破局限?

為了解決這一挑戰(zhàn),作者們提出了一個(gè)超越傳統(tǒng)文本-圖像對(duì)齊的全新優(yōu)化目標(biāo),包括兩個(gè)核心組成部分:ICT 評(píng)分模型和 HP 評(píng)分模型5。

2.1 ICT 評(píng)分(Image-Contained-Text Score)

多模態(tài)模型如 CLIP 在預(yù)訓(xùn)練時(shí),旨在最大化圖像與文本之間的互信息。這種“評(píng)分悖論”的產(chǎn)生源于當(dāng)圖像信息量增加時(shí),圖像中超出文本描述的額外信息增長(zhǎng)得更快,導(dǎo)致模型傾向于給忠實(shí)反映文本內(nèi)容的簡(jiǎn)單圖像高分,卻給富含細(xì)節(jié)的高質(zhì)量圖像打低分。

ICT 不再?gòu)?qiáng)求圖像與文本的雙向等價(jià),而是專注評(píng)估“圖像包含了多少文本信息”。具體地:

  • 通過閾值機(jī)制量化圖像對(duì)文本內(nèi)容的表達(dá)程度

  • 當(dāng)圖像完美體現(xiàn)文本內(nèi)容時(shí),ICT 評(píng)分達(dá)到上限

  • 關(guān)鍵突破:不會(huì)因圖像包含超出提示詞的豐富細(xì)節(jié)而進(jìn)行“懲罰”

原文中給出關(guān)于 ICT 的詳細(xì)訓(xùn)練方法:ICT 模型通過對(duì) CLIP 模型進(jìn)行微調(diào),利用精心構(gòu)建的 Pick-High 數(shù)據(jù)集進(jìn)行訓(xùn)練。該數(shù)據(jù)集包含了由大語言模型(LLM)“思維鏈”(chain-of-thought)方法生成的,經(jīng)過精煉提示詞生成的高質(zhì)量圖像,從而解決了現(xiàn)有數(shù)據(jù)集中高質(zhì)量圖像不足的問題。

2.2 HP 評(píng)分(High-Preference Score)

當(dāng) ICT 評(píng)分達(dá)到上限,即文圖對(duì)齊任務(wù)完成后,HP 評(píng)分模型開始發(fā)揮作用。它是一個(gè)純粹基于圖像模態(tài)的評(píng)分模型,只評(píng)估圖像本身的視覺美學(xué)和細(xì)節(jié)質(zhì)量。HP 模型使用邊際排序損失(margin ranking loss)進(jìn)行微調(diào),通過比較同一提示詞生成的不同質(zhì)量圖像,來學(xué)習(xí)并量化圖像的美學(xué)偏好 12。

2.3 ICT-HP 組合模型

兩個(gè)模型的輸出通過乘積運(yùn)算形成綜合評(píng)估函數(shù),確保在保證完整文本表達(dá)的基礎(chǔ)上,持續(xù)提升圖像的美學(xué)品質(zhì)。

實(shí)驗(yàn)結(jié)果:

該研究通過多項(xiàng)實(shí)驗(yàn),有力地驗(yàn)證了 ICT-HP 框架的優(yōu)越性:

  • 評(píng)分準(zhǔn)確率:在 Pick-High 和 Pickapic_v2 測(cè)試集上,ICT-HP 模型的平均準(zhǔn)確率比現(xiàn)有最佳模型 PickScore 高出近 10% 16 。

  • 優(yōu)化效果:當(dāng)使用 ICT-HP 模型優(yōu)化 Stable Diffusion-3.5-turbo 時(shí),它在紋理細(xì)節(jié)和色彩美學(xué)上均實(shí)現(xiàn)了顯著提升。相比之下,HPS_v2 僅微調(diào)了圖像色調(diào),PickScore 增加了細(xì)節(jié)但引入了風(fēng)格和色彩失真,而 ImageReward 幾乎沒有帶來實(shí)質(zhì)性改進(jìn) 17 。

  • 用戶研究:在一項(xiàng)對(duì) 300 個(gè)隨機(jī)樣本的人類評(píng)估中,與 Base 模型 SD3.5-turbo 以及 PickScore 優(yōu)化過的 SD3.5-turbo 模型相比,ICT-HP 優(yōu)化過的生圖模型勝率更高,證實(shí)了該方法在實(shí)際人類偏好上的有效性 18 。

三、論文貢獻(xiàn)與價(jià)值:重塑AI美學(xué)標(biāo)準(zhǔn)的突破性成果

這項(xiàng)研究為圖像生成領(lǐng)域帶來了四個(gè)層面的重要突破:

  1. 發(fā)現(xiàn)了評(píng)估模型的根本缺陷:首次揭示了現(xiàn)有獎(jiǎng)勵(lì)模型的核心缺陷——錯(cuò)誤地懲罰高質(zhì)量圖像,越精美的圖像反而獲得越低的評(píng)分,從根本上阻礙了生圖模型藝術(shù)創(chuàng)作的進(jìn)步。

  2. 提出了新的雙重評(píng)估方法:提出 ICT-HP 雙重評(píng)估框架,巧妙解耦圖文包含文本程度與美學(xué)品質(zhì),讓獎(jiǎng)勵(lì)模型不再拘泥于文本的字面對(duì)齊,而是真正學(xué)會(huì)了欣賞超越文字描述的視覺美感

  3. 顯著效果提升:實(shí)驗(yàn)數(shù)據(jù)證實(shí):評(píng)估準(zhǔn)確率提升 10%,成功優(yōu)化先進(jìn)文生圖模型 Stable-Diffusion-3.5-Turbo,生成圖像在美學(xué)質(zhì)量和細(xì)節(jié)表現(xiàn)上實(shí)現(xiàn)質(zhì)的飛躍。

  4. 社區(qū)貢獻(xiàn):秉承推動(dòng) AI 技術(shù)共同進(jìn)步的理念,研究團(tuán)隊(duì)將所有核心資源完全開放:

    600GB 高質(zhì)量 Pick-High 數(shù)據(jù)集,包含 360,000 個(gè)通過大語言模型鏈?zhǔn)剿季S優(yōu)化的圖像-文本對(duì):

    https://huggingface.co/datasets/8y/Pick-High-Dataset

    開源了 ICT 和 HP 模型的完整權(quán)重:

    https://huggingface.co/8y/ICT

    https://huggingface.co/8y/HP

    提供了從訓(xùn)練到推理的全套代碼實(shí)現(xiàn):

    https://github.com/BarretBa/ICTHP

來源:公眾號(hào)【PaperWeekly】

llustration From IconScout By IconScout Store

-The End-

掃碼觀看!

本周上新!

“AI技術(shù)流”原創(chuàng)投稿計(jì)劃

TechBeat是由將門創(chuàng)投建立的AI學(xué)習(xí)社區(qū)(www.techbeat.net)。社區(qū)上線700+期talk視頻,3000+篇技術(shù)干貨文章,方向覆蓋CV/NLP/ML/Robotis等;每月定期舉辦頂會(huì)及其他線上交流活動(dòng),不定期舉辦技術(shù)人線下聚會(huì)交流活動(dòng)。我們正在努力成為AI人才喜愛的高質(zhì)量、知識(shí)型交流平臺(tái),希望為AI人才打造更專業(yè)的服務(wù)和體驗(yàn),加速并陪伴其成長(zhǎng)。

投稿內(nèi)容

// 最新技術(shù)解讀/系統(tǒng)性知識(shí)分享 //

// 前沿資訊解說/心得經(jīng)歷講述 //

投稿須知

稿件需要為原創(chuàng)文章,并標(biāo)明作者信息。

我們會(huì)選擇部分在深度技術(shù)解析及科研心得方向,對(duì)用戶啟發(fā)更大的文章,做原創(chuàng)性內(nèi)容獎(jiǎng)勵(lì)

投稿方式

發(fā)送郵件到

michellechang@thejiangmen.com

或添加工作人員微信(michelle333_)投稿,溝通投稿詳情

關(guān)于我“門”

將門是一家以專注于數(shù)智核心科技領(lǐng)域新型創(chuàng)投機(jī)構(gòu),也是北京市標(biāo)桿型孵化器。 公司致力于通過連接技術(shù)與商業(yè),發(fā)掘和培育具有全球影響力的科技創(chuàng)新企業(yè),推動(dòng)企業(yè)創(chuàng)新發(fā)展與產(chǎn)業(yè)升級(jí)。

將門成立于2015年底,創(chuàng)始團(tuán)隊(duì)由微軟創(chuàng)投在中國(guó)的創(chuàng)始團(tuán)隊(duì)原班人馬構(gòu)建而成,曾為微軟優(yōu)選和深度孵化了126家創(chuàng)新的技術(shù)型創(chuàng)業(yè)公司。

如果您是技術(shù)領(lǐng)域的初創(chuàng)企業(yè),不僅想獲得投資,還希望獲得一系列持續(xù)性、有價(jià)值的投后服務(wù),歡迎發(fā)送或者推薦項(xiàng)目給我“門”:

bp@thejiangmen.com

點(diǎn)擊右上角,把文章分享到朋友圈

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
人民日?qǐng)?bào):最高級(jí)的教育,就抓這三樣!

人民日?qǐng)?bào):最高級(jí)的教育,就抓這三樣!

諾媽家有男寶娃
2026-03-06 14:29:59
伯克希爾·哈撒韋公布巴菲特2025年薪酬

伯克希爾·哈撒韋公布巴菲特2025年薪酬

界面新聞
2026-03-14 12:06:14
特朗普剛嘗到甜頭,突遭晴天霹靂!中國(guó)真猛,暫停再進(jìn)口美國(guó)大豆

特朗普剛嘗到甜頭,突遭晴天霹靂!中國(guó)真猛,暫停再進(jìn)口美國(guó)大豆

東風(fēng)寄的千愁
2026-03-14 20:41:01
兩連勝率先上岸,山東泰山是首支將負(fù)分清零的球隊(duì)

兩連勝率先上岸,山東泰山是首支將負(fù)分清零的球隊(duì)

懂球帝
2026-03-14 17:47:02
踏板車卷瘋了,三陽也挺不住了,四款踏板都降價(jià)1000到2000元

踏板車卷瘋了,三陽也挺不住了,四款踏板都降價(jià)1000到2000元

劉哥談體育
2026-03-14 19:40:15
《雪中》第二季來了!播出平臺(tái)已開啟預(yù)約,基本上原班人馬回歸

《雪中》第二季來了!播出平臺(tái)已開啟預(yù)約,基本上原班人馬回歸

春日在捕月
2026-03-14 13:41:52
伊朗破獲超級(jí)間諜,比川島芳子狠十倍,睡高官套情報(bào)

伊朗破獲超級(jí)間諜,比川島芳子狠十倍,睡高官套情報(bào)

點(diǎn)燃好奇心
2026-03-12 15:16:00
中美罕見意見一致!遭人嫌棄的“留學(xué)生”,美國(guó)不想留中國(guó)不敢要

中美罕見意見一致!遭人嫌棄的“留學(xué)生”,美國(guó)不想留中國(guó)不敢要

戶外阿毽
2026-03-13 20:45:34
外媒:內(nèi)塔尼亞胡對(duì)伊朗新任最高領(lǐng)袖發(fā)出威脅

外媒:內(nèi)塔尼亞胡對(duì)伊朗新任最高領(lǐng)袖發(fā)出威脅

參考消息
2026-03-13 15:53:55
魯山舅舅娶亡姐后續(xù)!只手遮天勢(shì)力大,女孩被管控,更多猛料曝光

魯山舅舅娶亡姐后續(xù)!只手遮天勢(shì)力大,女孩被管控,更多猛料曝光

哄動(dòng)一時(shí)啊
2026-03-06 12:09:33
古巴公開承認(rèn)與美國(guó)進(jìn)行對(duì)話

古巴公開承認(rèn)與美國(guó)進(jìn)行對(duì)話

Nee看
2026-03-14 00:42:51
原來不是他們長(zhǎng)得丑,而是導(dǎo)演不會(huì)拍,換劇如換臉,險(xiǎn)些不敢認(rèn)!

原來不是他們長(zhǎng)得丑,而是導(dǎo)演不會(huì)拍,換劇如換臉,險(xiǎn)些不敢認(rèn)!

劇芒芒
2026-03-14 12:16:36
隱退二十年罕見現(xiàn)身!香港知名男星近況曝光,移居國(guó)外生活愜意

隱退二十年罕見現(xiàn)身!香港知名男星近況曝光,移居國(guó)外生活愜意

悅君兮君不知
2026-03-14 17:37:56
愈途:一種關(guān)于康復(fù)的悖論

愈途:一種關(guān)于康復(fù)的悖論

疾跑的小蝸牛
2026-03-14 20:39:38
他護(hù)送毛主席進(jìn)京,1958年被連降十級(jí),主席知道后:我要親自過問

他護(hù)送毛主席進(jìn)京,1958年被連降十級(jí),主席知道后:我要親自過問

浩渺青史
2026-03-12 17:27:22
日本西擴(kuò)防空圈,朝鮮撂下重話,中國(guó)一記重拳,上萬日企心驚肉跳

日本西擴(kuò)防空圈,朝鮮撂下重話,中國(guó)一記重拳,上萬日企心驚肉跳

阿芒娛樂說
2026-03-14 20:12:50
日本爭(zhēng)相曝光“高市丑聞”!一條比一條勁爆

日本爭(zhēng)相曝光“高市丑聞”!一條比一條勁爆

這里是東京
2026-03-13 17:51:55
申京缺陣,火箭四少三人爆發(fā)!近7戰(zhàn)三分22中1,1.2億續(xù)約沒戲了

申京缺陣,火箭四少三人爆發(fā)!近7戰(zhàn)三分22中1,1.2億續(xù)約沒戲了

你的籃球頻道
2026-03-14 13:38:47
有沒有人敢爆自己的瓜?網(wǎng)友:確定玩這么大嗎?

有沒有人敢爆自己的瓜?網(wǎng)友:確定玩這么大嗎?

夜深愛雜談
2026-02-18 20:55:58
上個(gè)月去了次天津,我實(shí)話實(shí)說:當(dāng)?shù)厝说乃刭|(zhì)徹底顛覆認(rèn)知!

上個(gè)月去了次天津,我實(shí)話實(shí)說:當(dāng)?shù)厝说乃刭|(zhì)徹底顛覆認(rèn)知!

呼呼歷史論
2026-03-14 18:16:30
2026-03-14 21:32:49
將門創(chuàng)投 incentive-icons
將門創(chuàng)投
加速及投資技術(shù)驅(qū)動(dòng)型初創(chuàng)企業(yè)
2310文章數(shù) 596關(guān)注度
往期回顧 全部

科技要聞

xAI創(chuàng)始伙伴只剩兩人!馬斯克“痛改前非”

頭條要聞

伊朗“命根子”遭到中東史上最大轟炸 特朗普表態(tài)

頭條要聞

伊朗“命根子”遭到中東史上最大轟炸 特朗普表態(tài)

體育要聞

NBA唯一巴西球員,增重20KG頂內(nèi)線

娛樂要聞

張藝興,犯了大忌

財(cái)經(jīng)要聞

3·15影子暗訪|神秘的“特供酒”

汽車要聞

吉利銀河M7技術(shù)首秀 實(shí)力重構(gòu)主流電混SUV

態(tài)度原創(chuàng)

時(shí)尚
數(shù)碼
家居
手機(jī)
公開課

年年都流行的帆布鞋,今年這樣穿酷極了!

數(shù)碼要聞

老外擴(kuò)容成功!蘋果MacBook Neo升級(jí)1TB 果粉調(diào)侃:全新僅大修

家居要聞

藝術(shù)之家 法式優(yōu)雅

手機(jī)要聞

華為新機(jī)三箭齊發(fā):暢享90系列、Pura X2、Pura 90,均迎大變化!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版