国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

UniPercept 統(tǒng)一圖像美學(xué)、質(zhì)量與結(jié)構(gòu)紋理感知

0
分享至



操鑠:中國科學(xué)技術(shù)大學(xué)與上海人工智能實驗室聯(lián)合培養(yǎng)博士生,專注多模態(tài)圖像理解與生成。主導(dǎo)研發(fā)了 ArtiMuse、UniPercept 等成果,多篇工作發(fā)表于 ECCV、ICCV 等國際頂級會議。

李佳陽:北京大學(xué)碩士生,專注多模態(tài)圖像理解及融合。作為核心作者參與了 ArtiMuse、UniPercept 等工作,多篇工作發(fā)表于 TIP、TPAMI 等國際頂級期刊。

盡管多模態(tài)大語言模型(MLLMs)在識別「圖中有什么」這一語義層面上取得了巨大進(jìn)步,但在理解「圖像看起來怎么樣」這一感知層面上仍顯乏力。

近日,來自上海人工智能實驗室、中科大、北大、清華等機(jī)構(gòu)的研究者聯(lián)合發(fā)布了UniPercept。這是首個統(tǒng)一了美學(xué)(Aesthetics)質(zhì)量(Quality)結(jié)構(gòu)與紋理(Structure & Texture)三個維度的感知級圖像理解框架。



項目主頁:https://thunderbolt215.github.io/Unipercept-project/

代碼倉庫:

https://github.com/thunderbolt215/UniPercept

論文地址:

https://arxiv.org/abs/2512.21675

模型權(quán)重:https://huggingface.co/collections/Thunderbolt215215/unipercept

相關(guān)工作 (ArtiMuse):

https://github.com/thunderbolt215/ArtiMuse

引言:

從「識別物體」到「感知圖像」

當(dāng)前,多模態(tài)大語言模型在目標(biāo)檢測、圖像描述和視覺推理等語義級任務(wù)中表現(xiàn)卓越。然而,人類視覺感知不僅限于物體識別,還包括對構(gòu)圖美感、畫質(zhì)損傷、材質(zhì)紋理以及結(jié)構(gòu)規(guī)律性的細(xì)膩捕捉。

語義級理解關(guān)注的是「場景中有哪些實體」,而感知級理解則需要評估精細(xì)的、低層級的視覺外觀,例如美學(xué)和諧度、降質(zhì)嚴(yán)重程度或表面肌理。這些屬性往往是微妙且主觀的,對內(nèi)容創(chuàng)作、圖像增強(qiáng)及生成模型對齊至關(guān)重要。

為了填補(bǔ)這一空白,研究團(tuán)隊提出了UniPercept。該工作建立了層次化的感知屬性定義系統(tǒng),構(gòu)建了大規(guī);鶞(zhǔn)測試集UniPercept-Bench,并開發(fā)了一個通過領(lǐng)域自適應(yīng)預(yù)訓(xùn)練和任務(wù)對齊強(qiáng)化學(xué)習(xí)訓(xùn)練的強(qiáng)基準(zhǔn)模型。此外,研究團(tuán)隊還給出了UniPercept的下游應(yīng)用實例,包括作為生成模型的獎勵模型(Reward Model),以及作為生成模型評估的指標(biāo)(Metrics)等。



UniPercept-Bench:

三位一體的全域感知評價體系


UniPercept 將感知級圖像理解拆解為三個核心領(lǐng)域,構(gòu)建了「領(lǐng)域 - 類別 - 準(zhǔn)則」的三級層次結(jié)構(gòu),旨在全面覆蓋人類對圖像的視覺評價維度。

核心評估維度

  • 圖像美學(xué)評估(IAA):側(cè)重于構(gòu)圖設(shè)計、視覺元素與結(jié)構(gòu)、情感和整體視覺吸引力等。它關(guān)注的是圖像是否「好看」,探討藝術(shù)表達(dá)與視覺平衡。

  • 圖像質(zhì)量評估(IQA):側(cè)重于感知保真度和降質(zhì)因素,如噪聲、模糊、壓縮偽影。它回答的是圖像是否「技術(shù)性達(dá)標(biāo)」。

  • 圖像結(jié)構(gòu)與紋理評估(ISTA):這是 UniPercept 首次系統(tǒng)化提出的維度,強(qiáng)調(diào)局部特征、幾何規(guī)律性、材質(zhì)屬性(如平滑度、粗糙度)和細(xì)節(jié)豐富度。它回答的是圖像的「場景、結(jié)構(gòu)、紋理和構(gòu)成與復(fù)雜程度」。



UniPercept-Bench 的定義體系分為三級細(xì)分,包含 3 個領(lǐng)域、17 個類別和 44 個細(xì)分準(zhǔn)則,給出了專家級的細(xì)致定義體系,其精細(xì)程度遠(yuǎn)遠(yuǎn)超過此前的圖像評估 Benchmark。

在具體定義上,它實現(xiàn)了從領(lǐng)域到準(zhǔn)則的精密解構(gòu):例如從美學(xué)(IAA)領(lǐng)域,到「構(gòu)圖與設(shè)計(Composition & Design)」類別,深入到對「視覺平衡(Visual Balance)」這一微觀準(zhǔn)則的量化;或從場景解析(ISTA)領(lǐng)域,到「幾何構(gòu)成(Geometric Composition)」類別,細(xì)化到對「3D 體積(3D Volume)」隱含信息的提取。這種三級聯(lián)動的體系,確保了模型能夠從宏觀的「整體感知」跨越到微觀的「渲染精度」進(jìn)行全方位、多維度的專家級評估。







任務(wù)形式與數(shù)據(jù)流水線


該基準(zhǔn)支持視覺評分(Visual Rating, VR)視覺問答(Visual Question Answering, VQA)兩種互補(bǔ)的任務(wù)形式。



為了確保數(shù)據(jù)質(zhì)量,研究團(tuán)隊設(shè)計了三階段自動化流水線:

  • 初始生成:利用先進(jìn)多模態(tài)模型結(jié)合專業(yè)準(zhǔn)則庫生成候選問答對。
  • 拒絕采樣:由異構(gòu)判別模型對問題的有效性、答案的準(zhǔn)確性及邏輯一致性進(jìn)行五分制打分,剔除約 40% 的不合格樣本。
  • 人工精修:組織專業(yè)志愿者進(jìn)行手動核驗,特別是對邊界案例進(jìn)行修改,確保最終結(jié)果與人類專家感知高度對齊。



UniPercept 模型:

領(lǐng)域自適應(yīng)與任務(wù)對齊強(qiáng)化學(xué)習(xí)


為了使模型具備真正的感知能力,研究者采用兩階段框架對基礎(chǔ)多模態(tài)模型進(jìn)行持續(xù)演進(jìn)。

領(lǐng)域自適應(yīng)預(yù)訓(xùn)練(Domain-Adaptive Pre-Training)

研究團(tuán)隊整合了約 80 萬個樣本的大規(guī)模語料庫,涵蓋文本描述、結(jié)構(gòu)化標(biāo)注和數(shù)值評分。通過這一階段,模型習(xí)得了跨領(lǐng)域的底層視覺特征,為其后續(xù)的精準(zhǔn)判斷打下了相應(yīng)的感知基礎(chǔ)。

任務(wù)對齊強(qiáng)化學(xué)習(xí)(Task-Aligned RL for VR & VQA)

這是提升模型感知一致性的關(guān)鍵。研究者采用了 GRPO 算法進(jìn)行策略優(yōu)化,并針對感知任務(wù)設(shè)計了特定的獎勵函數(shù):

  • 視覺問答(VQA)任務(wù):采用二元獎勵,鼓勵模型輸出準(zhǔn)確的離散答案。
  • 視覺評分(VR)任務(wù):創(chuàng)新性地設(shè)計了自適應(yīng)高斯軟獎勵(Adaptive Gaussian Soft Reward)。該函數(shù)根據(jù)模型預(yù)測值與參考分?jǐn)?shù)的偏差動態(tài)調(diào)整平滑系數(shù)。

這種軟獎勵機(jī)制提供了更平滑的梯度,避免了傳統(tǒng)閾值獎勵導(dǎo)致的優(yōu)化不連續(xù)性。此外,模型引入了評分 Token 策略,直接從預(yù)測概率分布中導(dǎo)出數(shù)值,大幅緩解了模型生成數(shù)字時的幻覺傾向。



性能:

全面超越現(xiàn)有頂尖模型


研究團(tuán)隊在 UniPercept-Bench 上評估了包括商用閉源模型系列、領(lǐng)先開源系列以及針對美學(xué)和質(zhì)量優(yōu)化的專用模型在內(nèi)的 18 個模型,UniPercept 在其中取得了顯著優(yōu)秀的表現(xiàn)。

視覺評分(VR)表現(xiàn)

在持續(xù)分?jǐn)?shù)的回歸任務(wù)中,大多數(shù)通用模型在沒有針對性訓(xùn)練的情況下表現(xiàn)較差。相比之下,UniPercept 在所有三個領(lǐng)域(美學(xué)、質(zhì)量、結(jié)構(gòu))中均取得了最高的斯皮爾曼相關(guān)系數(shù)(SRCC)和皮爾遜相關(guān)系數(shù)(PLCC)。尤其是在 ISTA 領(lǐng)域,UniPercept 填補(bǔ)了現(xiàn)有模型對細(xì)節(jié)紋理判斷的空白。



視覺問答(VQA)表現(xiàn)

實驗顯示,即使是目前最頂尖的商業(yè)模型在處理精細(xì)感知問題時也顯得吃力:

  • 圖像美學(xué)評估(IAA)領(lǐng)域,UniPercept 的準(zhǔn)確率超越了 GPT-4o 約 16 個百分點。
  • 圖像質(zhì)量評估(IQA)領(lǐng)域,UniPercept 在識別特定物體上的細(xì)微損傷(如運動模糊、壓縮畸變)方面展現(xiàn)出極強(qiáng)的定位與判斷能力。
  • 圖像結(jié)構(gòu)與紋理復(fù)雜度評估(ISTA)領(lǐng)域,模型能夠準(zhǔn)確分辨不同材質(zhì)的表面特性(如鏡面反射、亞光紋理),準(zhǔn)確率突破 80%。







應(yīng)用:

作為獎勵模型/評估指標(biāo)


UniPercept 展示了作為生成模型優(yōu)化信號的巨大潛力。研究者將其作為獎勵模型,整合進(jìn)文生圖模型的微調(diào)流水線中。UniPercept 主要從以下三個方面對生成模型進(jìn)行優(yōu)化:

  • 美學(xué)引導(dǎo):顯著改善生成圖像的構(gòu)圖平衡和光影和諧度。
  • 質(zhì)量引導(dǎo):增強(qiáng)圖像細(xì)節(jié)的銳度和清晰度,減少常見的偽影干擾。
  • 結(jié)構(gòu)紋理引導(dǎo):豐富了場景的復(fù)雜程度、結(jié)構(gòu)的豐富度、物體的表面肌理,使畫面表現(xiàn)更豐富。

不同獎勵信號有著不同的優(yōu)化側(cè)重點,當(dāng)三個維度的獎勵信號協(xié)同作用時,生成的圖像在視覺吸引力和技術(shù)保真度上均達(dá)到最優(yōu)。





此外,UniPercept 天然可以作為從美學(xué)、質(zhì)量、紋理與結(jié)構(gòu)三方面對于圖像進(jìn)行評估的評估指標(biāo)(Metrics),可以準(zhǔn)確反映不同模型輸出圖像的各方面表現(xiàn)。



生成圖像的全方位「感知檔案」

UniPercept 還能為圖像生成全方位的「感知檔案」,不僅給出評分,還能從美學(xué)、質(zhì)量、紋理與結(jié)構(gòu)三個方面針對構(gòu)圖、執(zhí)行精度、損傷位置等具體維度給出詳細(xì)的文字解析與結(jié)構(gòu)化輸出。



結(jié)語


UniPercept 的提出,是多模態(tài)大模型的研究重心正在從單純的語義識別,向更具挑戰(zhàn)性的「感知圖像」轉(zhuǎn)化的重要一環(huán)。通過建立統(tǒng)一的評價基準(zhǔn)、高效的數(shù)據(jù)生產(chǎn)線以及新穎的任務(wù)對齊學(xué)習(xí)策略,UniPercept 為未來的視覺內(nèi)容評價與可控生成提供了一個強(qiáng)大的底座。它不僅是研究感知的有力工具,更是構(gòu)建「感知閉環(huán)」系統(tǒng)的重要一步。

隨著感知級理解能力的不斷提升,人工智能將能夠像人類藝術(shù)家一樣,不僅能看懂畫面中的故事,更能體會并創(chuàng)造出具備極致美感與精湛質(zhì)感的視覺作品。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
官方:遼寧鐵人中場邦本宜裕加盟中甲延邊龍鼎

官方:遼寧鐵人中場邦本宜裕加盟中甲延邊龍鼎

懂球帝
2026-01-09 10:26:41
爆冷!雨果2-3翻車,慘遭一輪游,證明樊振東太強(qiáng),張本再戰(zhàn)國乒

爆冷!雨果2-3翻車,慘遭一輪游,證明樊振東太強(qiáng),張本再戰(zhàn)國乒

體育就你秀
2026-01-09 03:30:03
美國千億投資打水漂后,郭臺銘想通了!帶46臺光刻機(jī)回國求賞飯

美國千億投資打水漂后,郭臺銘想通了!帶46臺光刻機(jī)回國求賞飯

奉壹數(shù)碼
2026-01-05 14:06:20
馬杜羅為何不慌?進(jìn)了DEA“牢籠”,反而拿到了博弈主動權(quán)

馬杜羅為何不慌?進(jìn)了DEA“牢籠”,反而拿到了博弈主動權(quán)

回旋鏢
2026-01-05 23:14:21
一不小心說出真心話:委內(nèi)是“美國境內(nèi)國家”!難怪加拿大要訪華

一不小心說出真心話:委內(nèi)是“美國境內(nèi)國家”!難怪加拿大要訪華

一口娛樂
2026-01-09 03:45:28
1945年重慶酒局,毛主席偶遇江青前夫,握手時說了3個字,讓張治中冷汗直流

1945年重慶酒局,毛主席偶遇江青前夫,握手時說了3個字,讓張治中冷汗直流

歷史回憶室
2026-01-05 11:05:14
張水華在直播說了很多,和361°沒合作,穿是懂感恩,老公不是教練

張水華在直播說了很多,和361°沒合作,穿是懂感恩,老公不是教練

阿廢冷眼觀察所
2026-01-09 11:58:37
中國U23男足0-0伊拉克,21歲真核閃耀全場,他就是下一個鄭智

中國U23男足0-0伊拉克,21歲真核閃耀全場,他就是下一個鄭智

國足風(fēng)云
2026-01-09 00:14:25
主持人李靜自曝絕經(jīng)過程,很快失去性魅力,連男人也沒興趣了

主持人李靜自曝絕經(jīng)過程,很快失去性魅力,連男人也沒興趣了

阿器談史
2025-12-30 17:26:47
下一個萬億賽道?衛(wèi)星互聯(lián)網(wǎng)迎來黃金發(fā)展期,這些公司站上風(fēng)口

下一個萬億賽道?衛(wèi)星互聯(lián)網(wǎng)迎來黃金發(fā)展期,這些公司站上風(fēng)口

證券市場周刊
2026-01-08 14:38:20
從警30多年的“老公安”秦書偉,任上被查

從警30多年的“老公安”秦書偉,任上被查

中國青年報
2026-01-08 20:13:07
CBA焦點戰(zhàn)今夜打響!CCTV5直播表,遼寧沖3連勝,山東爭5連勝

CBA焦點戰(zhàn)今夜打響!CCTV5直播表,遼寧沖3連勝,山東爭5連勝

老吳說體育
2026-01-09 10:50:24
中美日26年GDP預(yù)測出爐:美31萬億,日跌破4.5萬億,中國令人意外

中美日26年GDP預(yù)測出爐:美31萬億,日跌破4.5萬億,中國令人意外

跳跳歷史
2026-01-08 14:29:39
林徽因落選的國徽方案,網(wǎng)友看后感嘆:審美確實一絕,但真不合適

林徽因落選的國徽方案,網(wǎng)友看后感嘆:審美確實一絕,但真不合適

抽象派大師
2026-01-03 02:13:54
研究生教人騎車兩年賺27萬,當(dāng)事人:市場需求大

研究生教人騎車兩年賺27萬,當(dāng)事人:市場需求大

南國今報
2026-01-08 22:11:08
"永久產(chǎn)權(quán)″來了!不動產(chǎn)登記正式生效,不用糾結(jié)土地年限了!

"永久產(chǎn)權(quán)″來了!不動產(chǎn)登記正式生效,不用糾結(jié)土地年限了!

蜉蝣說
2025-12-16 19:47:24
你在火車的臥鋪上遇到過什么奇葩事?網(wǎng)友親身經(jīng)歷:真是笑噴了!

你在火車的臥鋪上遇到過什么奇葩事?網(wǎng)友親身經(jīng)歷:真是笑噴了!

戶外小阿隋
2026-01-06 11:36:14
兩位女神太美了,百看不厭,還有后面石頭上的兩個字陌生有誰認(rèn)識

兩位女神太美了,百看不厭,還有后面石頭上的兩個字陌生有誰認(rèn)識

情感大頭說說
2026-01-06 15:09:24
俄油價暴跌至36美元/桶,川普這盤大棋就是:讓你沒錢

俄油價暴跌至36美元/桶,川普這盤大棋就是:讓你沒錢

移光幻影
2026-01-08 17:23:48
最高9.4,這五部硬核美劇,看過的都太有眼光

最高9.4,這五部硬核美劇,看過的都太有眼光

天天美劇吧
2025-12-30 19:26:51
2026-01-09 12:31:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12082文章數(shù) 142532關(guān)注度
往期回顧 全部

科技要聞

17.68萬起售!何小鵬一口氣發(fā)了4款車

頭條要聞

12歲男孩在溫泉池溺水身亡 父親:身高1.4米水深1.1米

頭條要聞

12歲男孩在溫泉池溺水身亡 父親:身高1.4米水深1.1米

體育要聞

世乒賽銀牌得主,說自己夢里都是孫穎莎

娛樂要聞

檀健次戀愛風(fēng)波越演越烈 上學(xué)經(jīng)歷被扒

財經(jīng)要聞

郁亮的萬科35年:從"寶萬之爭"到"活下去"

汽車要聞

上汽大眾首款“9系旗艦” ID. ERA 9X實車曝光

態(tài)度原創(chuàng)

親子
本地
房產(chǎn)
家居
公開課

親子要聞

真服了,一個女子懷孕了八個月了,去飯店,又喝啤酒,又抽煙

本地新聞

云游內(nèi)蒙|“包”你再來?一座在硬核里釀出詩意的城

房產(chǎn)要聞

豪宅搶瘋、剛需撿漏……2025年,一張房票改寫了廣州市場格局

家居要聞

木色留白 演繹現(xiàn)代自由

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版