国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

華為技術(加拿大)團隊用結構化圖譜徹底改變AI看圖方式

0
分享至


這項由華為技術(加拿大)研究團隊完成的研究,以論文編號 arXiv:2604.11004v1 發(fā)表于2026年的頂級機器學習會議 ICLR 2026(國際學習表征會議)。對計算機視覺或圖像質量評估感興趣的讀者,可以通過上述編號在 arXiv 平臺查閱完整論文。

**當AI"看圖"時,它真的看懂了嗎?**

設想你是一名挑剔的攝影師,同時收到了同一場景的兩張照片。你掃一眼就能發(fā)現(xiàn):左邊那張整體有點暗,但右邊那張的天空部分出現(xiàn)了顆粒感,而兩張照片的草地區(qū)域都還不錯。你做出這個判斷的過程,不是對整張照片籠統(tǒng)打個分,而是把照片拆分成一個個區(qū)域,分別去感知每塊區(qū)域的質量差異,然后匯總成一個整體印象。

然而當前的AI系統(tǒng)在面對同樣任務時,卻往往只能"看個大概"。它們習慣于把整張圖像當成一個不可分割的整體來評判,就像一個評委在不看菜單、不嘗每道菜的情況下,只憑飯店門口的氣氛給出一個總評分。這種"從上往下看全局"的方式,在處理復雜的圖像質量問題時,會遺漏大量細節(jié),產(chǎn)生錯誤判斷。

正是為了解決這個問題,華為技術(加拿大)的研究團隊提出了一個全新的思路:與其讓AI籠統(tǒng)評價整張圖,不如教它像真正的專家一樣,先把圖像拆解成一個個有意義的區(qū)域,再針對每個區(qū)域進行細致的質量分析,最后通過一張結構化的"關系圖譜"把所有信息整合起來。這張圖譜,被研究團隊命名為**失真圖(Distortion Graph,簡稱 DG)**。

**一、問題的根源:AI評圖為何總是"差那么一口氣"**

在深入了解這項研究的解決方案之前,有必要先弄清楚問題究竟出在哪里。

當我們談論"圖像質量"時,實際上在談論一件相當復雜的事情。一張圖片可能在整體上看起來不錯,但放大某個角落卻發(fā)現(xiàn)人臉模糊;另一張圖片天空部分清晰銳利,但前景中的人物卻被過度銳化,顯得不自然。真正的質量評估,必須細化到圖像中的每一個區(qū)域,而不是用一個數(shù)字去概括整張圖的好壞。

目前市場上已經(jīng)存在一些專門處理圖像質量問題的大型多模態(tài)語言模型(可以把這類模型理解為"能看圖說話的AI")。比如 Co-Instruct、Q-Instruct、DepictQA 等,它們能夠告訴你"這張圖片整體有點模糊"或者"這張比那張清晰"。但研究團隊發(fā)現(xiàn),當你給這些模型提出更具體的要求——比如"請告訴我這張圖片里每個區(qū)域的質量如何,哪個區(qū)域出了什么問題,嚴重程度如何"——它們的表現(xiàn)就會令人失望。

研究團隊做了一個生動的實驗,把同樣兩張圖片同時喂給當時最先進的多模態(tài)語言模型 Co-Instruct,并提供了每個區(qū)域的名稱、描述和邊界框坐標,請它回答每個區(qū)域的質量情況。結果呢?模型給出的回答根本沒有涉及區(qū)域對比,也沒有質量評分,甚至漏掉了某些區(qū)域,給出的是一段對整張圖片的籠統(tǒng)描述。換句話說,即使你把答題范圍畫得很清楚,這些模型依然習慣性地"看整體",沒有能力做到"看局部"。

這背后的原因有兩個。其一,這些模型在訓練時接觸的數(shù)據(jù)基本上都是以整張圖片為單位的質量評估,從沒有被專門訓練過"逐區(qū)域分析"這件事。其二,語言模型有輸出長度的限制,當圖片包含十幾個甚至幾十個區(qū)域時,要求它逐一分析每個區(qū)域,往往會超出模型的處理能力,導致遺漏或重復。

更關鍵的問題在于,這些模型通過"監(jiān)督微調"(可以理解為"刷題訓練")的方式習得了固定的回答模板,就像一個學生死記硬背了幾套答題公式,一旦遇到?jīng)]見過的題型就不知所措。區(qū)域級別的質量分析,正是這些模型沒見過、也沒準備好的題型。

**二、新思路登場:把圖像對比變成一張"關系圖譜"**

針對上述問題,研究團隊提出的核心解決方案,是把兩張圖片之間的質量對比關系,用一種結構化的圖譜來表示——這就是失真圖(DG)的本質。

可以把失真圖理解成一份詳細的"體檢報告"。普通的圖像質量評估,就像醫(yī)院給你做了個全身掃描后只告訴你"整體健康狀況良好,有些小問題";而失真圖,則是把身體拆成心臟、肺、肝臟等各個器官,分別告訴你每個器官的狀態(tài)如何、出了什么問題、嚴重程度是幾級,同時還對比了你去年和今年的體檢結果,明確指出哪些器官今年變好了、哪些變差了、哪些沒有變化。

具體來說,失真圖處理的是一對圖像——一張叫做"錨圖"(anchor,可以理解為參照圖),另一張叫做"目標圖"(target,即被比較的圖)。系統(tǒng)首先將兩張圖片各自分解成若干個區(qū)域(比如人物、天空、背景、物體等),然后對每個區(qū)域建立一個"節(jié)點"。每個節(jié)點記錄了該區(qū)域的失真類型(比如是模糊、噪點、過度壓縮還是過度銳化),失真嚴重程度(輕微、中等、嚴重或無失真),以及一個0到1之間的質量評分。

在節(jié)點之間,失真圖還建立了"邊"——也就是連線,用來表示錨圖和目標圖中對應區(qū)域的比較關系。這條連線會標注"錨圖中的這個區(qū)域比目標圖中的對應區(qū)域好"、"兩者差不多"還是"目標圖更好",而且還會區(qū)分"稍好"和"明顯更好"這兩種程度。

研究團隊特別為失真圖設計了三條數(shù)學性質,以確保這種圖譜能夠準確、一致地描述圖像對比關系。首先是"有效性":圖譜中的每條比較關系,必須連接來自兩張不同圖片的對應區(qū)域,不能拿同一張圖片的不同區(qū)域相互比較。其次是"有序性":比較關系永遠是從錨圖指向目標圖,不存在反向比較,保證了方向的一致性。第三是"功能性比較":對于每一對對應區(qū)域,有且僅有一條比較關系,不允許出現(xiàn)一個區(qū)域對應多個比較結論的情況。

這三條性質,就像是給這份"體檢報告"制定了嚴格的填寫規(guī)范,確保報告不會出現(xiàn)自相矛盾或邏輯混亂的情況。

**三、PANDA架構:讓機器學會填寫這份"體檢報告"**

有了失真圖的概念,接下來的問題是:如何讓計算機自動生成這份圖譜?為此,研究團隊設計了一個專門的神經(jīng)網(wǎng)絡模型,取名為 PANDA(全稱 Panoptic Pairwise Distortion Graph,意為"全景配對失真圖")。

PANDA 的工作流程,可以用一個"精密流水線"來理解。

整個流程從圖像的特征提取開始。研究團隊使用了一個名為 DINOv2 的預訓練視覺模型(可以把它理解為一個經(jīng)過大量圖片訓練的"看圖專家"),將輸入的兩張圖片分別轉換為包含豐富視覺信息的特征矩陣。與此同時,一個叫做 SAM(Segment Anything Model,即"萬能分割模型")的工具負責把圖片中的每個區(qū)域自動分割出來,生成對應的二值掩碼(也就是標記出每個區(qū)域的精確邊界)。

接下來是一個獨特的"令牌池"機制。研究團隊為每張圖片維護了一個可學習的向量集合,稱為令牌池??梢园衙總€令牌理解為一個"標簽貼紙",系統(tǒng)會為圖片中的每個區(qū)域隨機分配一個這樣的貼紙,然后把貼紙和區(qū)域的形狀信息相結合,再與圖像的深層特征融合,從而為每個區(qū)域生成一個"個性化"的特征表示。這種設計的好處是,系統(tǒng)可以靈活處理不同數(shù)量的區(qū)域,不受區(qū)域數(shù)量變化的限制。

隨后,這些區(qū)域特征被送入一個"退化解碼器"。這個解碼器由多層 Transformer(一種強大的注意力機制網(wǎng)絡)組成,讓每個區(qū)域的特征同時"看"到對方圖片的全局特征,從而學會"我在另一張圖片中對應的區(qū)域是什么樣子的"。通過自注意力機制,解碼器先讓圖片內部的特征相互交流;通過交叉注意力機制,再讓區(qū)域特征與對方圖片的特征進行對話。這種雙向信息交換,使每個區(qū)域都能在"看過"對應區(qū)域的基礎上,做出更準確的判斷。

最后,解碼器的輸出經(jīng)過全局平均池化壓縮后,被分別送入四個獨立的預測頭。第一個預測頭判斷區(qū)域比較關系(是錨圖更好、目標圖更好還是差不多),第二個預測頭識別失真類型,第三個預測頭判斷嚴重程度,第四個預測頭給出0到1之間的質量評分。前三個頭使用交叉熵損失函數(shù)(適合分類任務),第四個頭使用L1損失函數(shù)(適合數(shù)值回歸任務)。

PANDA 模型的參數(shù)量僅為0.028億,處理一對包含14個區(qū)域的圖片對只需要3.53秒,而相比之下,同類開源多模態(tài)模型(如 Q-Insight)處理同樣的任務需要274秒,參數(shù)量更是高達70億。這種"輕量級但高效"的特性,使 PANDA 在實際應用中極具吸引力。

**四、PANDASET:為這張"體檢報告"準備訓練數(shù)據(jù)**

一個好的AI系統(tǒng)需要大量高質量的訓練數(shù)據(jù)。為了訓練 PANDA,研究團隊構建了一個專門的數(shù)據(jù)集,命名為 PANDASET。

PANDASET 的構建過程,就像是一個大規(guī)模的"人工制造缺陷"實驗。研究團隊首先從兩個現(xiàn)有的公開數(shù)據(jù)集中篩選出2200張高質量圖片:其中1592張來自 PSG 數(shù)據(jù)集(一個包含場景信息和區(qū)域級全景分割的數(shù)據(jù)集),另外608張來自 Seagull-100w(一個包含真實ISP圖像退化效果的數(shù)據(jù)集)。這些圖片涵蓋了室內外各種場景,拍攝角度和光線條件各異。

接下來,研究團隊為這些圖片設計了一套完整的失真體系。他們將失真類型分為14大類,分別是:模糊、亮度增強、壓縮失真、對比度增強、對比度減弱、變暗、霧霾、噪點、過度銳化、像素化、雨滴、飽和度增強、飽和度減弱和雪花。每種失真還進一步細分為不同的子類型(比如不同類型的噪點、不同的模糊方式、不同的壓縮算法),總共形成32種子類型。加上"無失真(干凈)"這一類別,每個區(qū)域面臨的選擇共有15種。

對于每個區(qū)域,系統(tǒng)會以80%的概率隨機選擇一種失真來施加,以20%的概率保持該區(qū)域干凈。每種失真還有三個嚴重程度級別:輕微、中等和嚴重。對于人工合成的非天氣類失真,研究團隊參考了此前學術界的經(jīng)驗;對于雨雪這類天氣失真,他們使用了真實的雨雪疊加素材;對于霧霾,他們通過調整大氣散射模型的參數(shù)來模擬不同濃度的霾。值得一提的是,對于來自 Seagull-100w 的圖片,當合成失真類別與圖片本身已有的ISP真實失真(如真實噪點或模糊)重疊時,系統(tǒng)會優(yōu)先保留真實的ISP失真效果,確保數(shù)據(jù)的真實性。

每個區(qū)域的質量評分,通過計算失真后的區(qū)域與原始干凈區(qū)域之間的 TOPIQ(一種基于語義的全參考圖像質量評估指標)得分來確定,分值范圍在0到1之間,1代表與原圖完全一致,0代表嚴重退化。

區(qū)域之間的比較關系,通過對比兩個區(qū)域的 TOPIQ 分數(shù)差值來確定:差值小于0.1的標記為"相同";差值在0.1到0.3之間的標記為"稍好"或"稍差";差值大于0.3的則標記為"明顯更好"或"明顯更差"。

最終,PANDASET 包含了超過52.8萬對圖像,覆蓋訓練集(約48萬對)、驗證集(約1.2萬對)和測試集(約3.6萬對)。每張圖片平均包含18個區(qū)域,最多可達112個區(qū)域。如此規(guī)模的區(qū)域級配對失真數(shù)據(jù)集,在學術界尚屬首次。

**五、PANDABENCH:一個讓AI"現(xiàn)原形"的考場**

有了 PANDASET,研究團隊還從其測試集中精心設計了一個專門的評測基準,稱為 PANDABENCH。這個基準共分三個難度級別,每級隨機抽取300對圖像。

最簡單的"Easy"級別,要求兩張圖片中所有區(qū)域都被同一種失真類型影響,只是嚴重程度可能不同。就像一張照片整體偏暗(所有區(qū)域都受到"變暗"效果的影響),另一張整體有噪點(所有區(qū)域都有噪點),系統(tǒng)需要分析各個區(qū)域的情況并進行比較。

中等難度的"Medium"級別,其中一張圖片被同一種失真統(tǒng)一處理,而另一張圖片則是"混合失真"——每個區(qū)域都可能受到不同類型的失真影響。比如一張圖里,天空有霧霾,人物有噪點,背景有壓縮失真,系統(tǒng)需要逐區(qū)域識別不同的失真類型。

最難的"Hard"級別,兩張圖片都是混合失真模式,每個區(qū)域的失真類型和嚴重程度都可能各不相同。在這種情況下,系統(tǒng)不僅需要識別每個區(qū)域各自的失真,還要在兩張圖片的對應區(qū)域之間進行精準比較,難度大幅提升。

研究團隊在這個基準上對當前最先進的多模態(tài)大語言模型進行了全面測試,結果相當"觸目驚心"。

以最簡單的 Easy 級別為例,PANDA 在區(qū)域比較任務上的準確率達到了58%,而開源的蒸餾專項模型 DepictQA 只能在用 PANDASET 額外訓練后才達到49%,如果不額外訓練則根本無法完成這項任務。參數(shù)量高達270億的 Gemini 2.5 Pro(谷歌旗下最先進的商業(yè)大模型之一)只有22%的準確率,而隨機猜測的準確率是20%——也就是說,Gemini 2.5 Pro 在這項任務上的表現(xiàn)幾乎與瞎猜無異。

在失真類型識別上,Easy 級別中 PANDA 達到了78%的準確率,而排名第二的微調版 DepictQA+ 達到75%,商業(yè)模型 GPT-5 Mini 只有49%,GPT-4o 是46%,Gemini 2.5 Pro 是39%,而隨機猜測只有7%。可見商業(yè)大模型在這項任務上確實比隨機猜測強得多,但與專為此設計的 PANDA 相比仍有相當差距。

從 Easy 到 Hard,所有方法的性能都出現(xiàn)了不同程度的下滑。PANDA 展現(xiàn)出了最小的性能下降幅度,而部分商業(yè)大模型在 Hard 級別的嚴重程度分類任務上甚至下滑到了低于隨機猜測水平的表現(xiàn)——這說明在面對復雜混合失真場景時,這些模型完全"迷失方向",只能靠"慣性"輸出一些聽起來像樣但實際上隨機的答案。

研究團隊還測試了兩個基線方法作為參照:線性探針(在 DINOv2 特征上直接套一層線性分類器)和注意力探針(在 DINOv2 特征上套一個帶交叉注意力的 Transformer 模塊)。這兩個基線的結果表明,單靠 DINOv2 的預訓練特征是遠遠不夠的,PANDA 中專門設計的退化解碼器對最終性能的提升至關重要。

**六、讓失真圖成為AI的"參謀":鏈式思考實驗**

研究團隊還探索了一個有趣的應用方向:把 PANDA 生成的失真圖,作為"提示信息"喂給商業(yè)大語言模型 GPT-5 Mini,看看它能否借助這份結構化的"參謀意見"做出更好的判斷。

實驗方案參考了"組合鏈式思考提示"的做法——先用 PANDA 生成一份失真圖,再明確告訴 GPT-5 Mini:"這是一份關于這兩張圖片各區(qū)域質量對比的參考信息,請把它當作輔助線索,如果你從圖像本身看到了與這份信息矛盾的地方,請以圖像本身為準。"

結果顯示,加入失真圖作為背景信息后,GPT-5 Mini 在 Easy 級別的區(qū)域比較準確率從31%提升到了52%,失真類型識別準確率從49%提升到了67%,嚴重程度判斷準確率從36%提升到了51%,質量評分相關性也從0.09提升到了0.52。綜合來看,引入失真圖帶來了約15%的整體性能提升。

更有說服力的是,研究團隊發(fā)現(xiàn) GPT-5 Mini 并不是機械地復制失真圖的預測結果。在某些案例中,當失真圖的預測結果與圖像的真實視覺信息存在矛盾時,GPT-5 Mini 會主動糾正失真圖的錯誤判斷——比如失真圖錯誤地把錨圖某個區(qū)域標記為"干凈",而 GPT-5 Mini 通過觀察圖像本身正確識別出了"變暗"效果。同樣,當失真圖把某個區(qū)域標記為"干凈",但實際上該區(qū)域存在過度銳化時,GPT-5 Mini 也能通過視覺分析得出正確結論。這說明失真圖與大模型之間形成了一種真正有意義的協(xié)作關系,而非簡單的復制粘貼。

當然,當圖像中的視覺證據(jù)本身不夠明顯時,GPT-5 Mini 也會傾向于信任失真圖。比如當失真圖預測某個目標區(qū)域存在亮度增強失真,而實際上該區(qū)域是干凈的,GPT-5 Mini 有時會跟隨失真圖的錯誤判斷。這屬于預期中的行為模式,反映出失真圖作為結構化先驗信息的合理作用方式。

**七、從區(qū)域到整張圖:失真圖的泛化能力驗證**

研究團隊還專門驗證了一個重要問題:PANDA 生成的失真圖,能否自然地從區(qū)域級別的判斷聚合為整張圖片的質量排名?畢竟,區(qū)域級分析如果不能服務于整體判斷,其實際價值就會大打折扣。

為此,研究團隊在兩個公認的圖像質量評估基準數(shù)據(jù)集上進行了零樣本測試(即不對模型做任何額外訓練,直接用在 PANDASET 上訓練好的 PANDA 來評估新數(shù)據(jù)集)。第一個是 KADID-10k,包含81張參考圖像和各類失真版本;第二個是 TID2013,是另一個廣泛使用的圖像質量評估數(shù)據(jù)集,包含人工標注的平均意見分(MOS)。

實驗邏輯很簡單:對于一對圖片,PANDA 生成兩張圖的失真圖,然后用一個樸素規(guī)則來做整圖排名——如果某張圖中更多區(qū)域的質量評分更高(或者比較關系顯示更多區(qū)域更好),則認為該圖整體質量更好。

結果表明,在 KADID-10k 上,基于 PANDA 分數(shù)的排名準確率達到78.83%,基于比較關系的排名準確率達到76.90%,超過了同類開源多模態(tài)模型(如 mPLUG-Owl2 的48.5%、LLaVA-1.6 的57%、Q-Instruct 的55%)。在 TID2013 上,PANDA 同樣以78.4%(基于比較關系)和77.8%(基于分數(shù))的準確率大幅領先其他方法。這有力地證明了,區(qū)域級的失真圖確實可以自然地"聚合"成可靠的整圖質量排名,與人類的主觀感知具有高度一致性。

**八、設計細節(jié)與超參數(shù)敏感性分析**

在模型設計層面,研究團隊進行了一系列消融實驗,驗證各個設計選擇的必要性與合理性。

首先是特征提取器的選擇。默認配置使用 DINOv2(小型版本,ViT-s,384維特征),研究團隊還測試了 DINOv2(基礎版本,ViT-b,768維特征)和 SigLIP(768維)的效果。實驗結果顯示,三種配置的性能差異不大,但 DINOv2(ViT-s)在性能與計算效率之間取得了最佳平衡。

其次是 Transformer 解碼器層數(shù)。默認采用4層,研究團隊還測試了2層和6層的版本。結果顯示,4層是一個甜蜜點——既足夠深以捕捉復雜的跨圖像區(qū)域對應關系,又不會因層數(shù)過多而導致過擬合或訓練困難。

在訓練超參數(shù)方面,研究團隊對損失函數(shù)中四項任務的權重系數(shù)進行了網(wǎng)格搜索,最終確定的配置為:區(qū)域比較關系損失權重0.1、失真類型識別損失權重1.0、嚴重程度分類損失權重0.1、質量評分回歸損失權重1.0。研究結果表明,模型對超參數(shù)選擇并不特別敏感——在大多數(shù)合理的參數(shù)組合下,模型表現(xiàn)保持相對穩(wěn)定,只有極端配置才會導致明顯性能下降。

PANDA 使用8塊 NVIDIA V100 32GB 顯卡訓練,批次大小為6,總訓練時間約1.5天,使用 AdamW 優(yōu)化器,學習率1e-4,權重衰減0.01,共訓練30輪。

**九、這項研究的位置與貢獻**

在此前的相關研究中,確實存在不少圖像質量評估或區(qū)域級理解的工作,但它們各有局限。Q-Bench 等工作側重于單張圖像的整體質量分析;DQ495K、MICBench 等工作雖然涉及圖像對比,但不是以區(qū)域為核心出發(fā)點;Seagull、QGround、Grounding-IQA 等工作雖然涉及區(qū)域級分析,但只針對單張圖像,不支持兩張圖片之間的區(qū)域級比較。

研究團隊在論文中匯總了一張比較表,清楚地展示了 PANDABENCH 是目前唯一一個同時滿足以下全部條件的基準:以區(qū)域為核心出發(fā)點、具有比較性質(兩張圖片之間)、支持多樣化失真類型、包含嚴重程度級別、提供質量評分。任何現(xiàn)有的基準都無法同時滿足這五個條件。

這一定位意味著,這項研究填補了一個明顯的學術空白,并為后續(xù)研究提供了一個清晰的評估框架。

**十、失真圖的更廣泛應用前景**

研究團隊在論文的附錄部分,還專門討論了失真圖作為通用比較形式化框架的潛力。失真圖的核心思想——把兩個比較對象分解成對應的部分,為每個部分建立節(jié)點、描述屬性、標注比較關系——并不局限于圖像質量評估這一個場景。

在視頻分析領域,可以用類似的框架來描述兩段視頻中人物動作的區(qū)域級差異,用于視頻動作對比任務。在醫(yī)學圖像領域,可以把兩次CT掃描的不同區(qū)域(肺、心臟、肝臟等)進行結構化對比,輔助醫(yī)生發(fā)現(xiàn)細微變化。在圖像信號處理器(ISP)基準測試領域,可以系統(tǒng)性地比較不同ISP算法在各個圖像區(qū)域的處理質量。在視頻壓縮和流媒體傳輸領域,可以根據(jù)區(qū)域重要性和質量評分,智能地篩選冗余幀,提高存儲和傳輸效率。在假圖檢測領域,區(qū)域級的比較關系可以幫助定位圖像篡改的具體位置。

這種跨場景的通用性,說明失真圖不僅僅是一個解決特定問題的技術工具,更是一種可以推廣到多個比較性評估任務的結構化思維框架。

**十一、研究的局限與未來方向**

研究團隊對這項工作的局限性保持了坦誠的態(tài)度。

第一個局限是 PANDA 作為基線模型的簡潔性。它有意保持了架構的簡單,留有很大的改進空間,特別是在處理視覺細節(jié)復雜的區(qū)域時。更強大的視覺特征提取器、更復雜的跨圖像對應機制,都可能進一步提升性能。

第二個局限來自數(shù)據(jù)集的構建方式。PANDASET 中的場景是真實的,但大多數(shù)失真是人工合成的(除了來自 Seagull-100w 的真實ISP失真部分)。人工合成失真的優(yōu)勢是可控性強,能夠精確地為每個區(qū)域分配質量評分和比較標簽,也能系統(tǒng)地覆蓋不同難度級別;但其代價是可能與真實世界中自然產(chǎn)生的失真存在一定的感知差距。研究團隊通過在 KADID-10k 和 TID2013 上的驗證,證明了合成失真與人類主觀感知具有合理的一致性,但更大規(guī)模的真實世界失真數(shù)據(jù)集仍是未來的重要方向。

第三個局限是比較關系標簽依賴于 TOPIQ 這一特定的圖像質量評估模型,可能會繼承該模型的感知偏好。構建由人工標注的區(qū)域級比較標簽數(shù)據(jù)集,將是一項巨大但有價值的工程。

研究團隊還提出了一個有趣的未來方向:把失真圖作為推理鏈的中間步驟,讓模型先生成失真圖,再基于失真圖給出最終的自然語言描述。這種"先結構化、再語言化"的路徑,可能比直接讓語言模型輸出區(qū)域級分析更加可靠和可控。

**歸根結底,這項研究說明了什么?**

這項由華為技術(加拿大)團隊完成、發(fā)表于 ICLR 2026 的研究,用一種非常樸素的邏輯回應了一個長期被忽視的問題:AI評價圖片質量時,不應該只看整體,因為整體感知是由局部細節(jié)決定的,而不是反過來。

通過引入失真圖這一結構化表示方式,研究團隊不僅為區(qū)域級圖像質量評估提供了一套完整的形式化框架,還構建了迄今為止最大規(guī)模的區(qū)域級配對失真數(shù)據(jù)集,并設計了一個輕量高效的模型來學習這種圖譜結構。更重要的是,他們通過大規(guī)模實驗揭示了當前最先進的多模態(tài)大語言模型在區(qū)域級質量理解上的系統(tǒng)性短板——即使是 Gemini 2.5 Pro 這樣的頂尖商業(yè)模型,在這類任務上的表現(xiàn)也接近隨機猜測的水平。

這對普通用戶意味著什么?下次你的照片編輯軟件告訴你"這張照片質量比另一張好"時,你可以期待的是:未來版本的軟件不會只給你一個籠統(tǒng)的打分,而是會告訴你"你照片里的人臉區(qū)域有些過度銳化,但背景的清晰度比對比照片好很多,天空部分兩者差不多"——這才是真正有用的質量反饋。

有興趣深入了解技術細節(jié)的讀者,可以通過 arXiv 編號 **2604.11004** 查閱完整論文,或訪問項目主頁 aismartperception.github.io/distortion-graph/ 獲取更多信息。

Q&A

Q1:失真圖(Distortion Graph)和普通的圖像質量評分有什么區(qū)別?

A:普通圖像質量評分只給整張圖打一個數(shù)字,比如"7分",無法告訴你具體哪里有問題。失真圖把圖片拆成多個區(qū)域(如人物、天空、背景),為每個區(qū)域分別記錄失真類型、嚴重程度和質量評分,還能對比兩張圖片中每個對應區(qū)域的優(yōu)劣。這就像從"這道菜整體還行"變成了"這道菜的湯底很好,但肉有點老,配菜火候不夠"的專業(yè)點評。

Q2:PANDA模型和GPT-4o這類大模型相比有什么優(yōu)勢?

A:PANDA的參數(shù)量只有0.028億,處理一對圖片僅需3.53秒;而GPT-4o等大模型參數(shù)量達數(shù)百億甚至更多,且在區(qū)域級質量比較任務上準確率僅26%,接近隨機猜測的20%。PANDA在同類任務上準確率達58%,同時計算成本極低。當然,PANDA只專注于生成結構化的失真圖,不具備大模型的通用對話能力。

Q3:PANDABENCH的Easy、Medium、Hard三個難度級別有什么具體區(qū)別?

A:Easy級別中,每對圖片的所有區(qū)域都受同一種失真類型影響,只是嚴重程度不同,相對容易識別。Medium級別中,一張圖是單一失真,另一張每個區(qū)域的失真類型各不相同,識別難度增加。Hard級別中,兩張圖的每個區(qū)域都可能有不同的失真類型和嚴重程度,需要逐區(qū)域精細分析,是最具挑戰(zhàn)性的場景。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
國家下死命令:2027年城投清零!中小城市的公交、供水會漲價嗎?

國家下死命令:2027年城投清零!中小城市的公交、供水會漲價嗎?

顧史
2026-04-21 05:44:11
法塔赫勝選、哈馬斯出局,殘害平民失去人心,恐怖主義沒有未來

法塔赫勝選、哈馬斯出局,殘害平民失去人心,恐怖主義沒有未來

壹家言
2026-04-28 11:11:27
王洪文被捕前,對秘書說:我這頂“烏紗帽”,說不定哪天就被摘掉

王洪文被捕前,對秘書說:我這頂“烏紗帽”,說不定哪天就被摘掉

銅臭的歷史味
2026-04-29 00:22:02
哭窮了!一線男1號片酬跌至巔峰期3折,網(wǎng)友:待遇比醫(yī)生差才合理

哭窮了!一線男1號片酬跌至巔峰期3折,網(wǎng)友:待遇比醫(yī)生差才合理

火山詩話
2026-04-28 07:27:33
600678,將被“ST”!

600678,將被“ST”!

中國基金報
2026-04-28 23:15:48
情侶在瑞士雪山頂“撒歡”,就這么被全世界直播了···

情侶在瑞士雪山頂“撒歡”,就這么被全世界直播了···

新歐洲
2026-04-21 19:37:05
外交部:按一國兩制叫“臺灣特別行政區(qū)行政長官”“臺灣省省長”

外交部:按一國兩制叫“臺灣特別行政區(qū)行政長官”“臺灣省省長”

阿七說史
2026-04-28 15:41:47
辛柏青回應吳越撮合,沒有翻臉沒有接梗,把分寸和家人穩(wěn)穩(wěn)守住

辛柏青回應吳越撮合,沒有翻臉沒有接梗,把分寸和家人穩(wěn)穩(wěn)守住

一盅情懷
2026-04-28 17:18:29
妹子,你露個大白胸脯,在這兒干什么呢?

妹子,你露個大白胸脯,在這兒干什么呢?

飛娛日記
2026-04-18 10:48:09
中國聯(lián)通推出全新手機套餐品牌“魔方”,自由組合,階梯定價,39元起

中國聯(lián)通推出全新手機套餐品牌“魔方”,自由組合,階梯定價,39元起

TMT流程審計
2026-04-28 10:35:38
誰敢相信!去年跟腱撕裂,今年滿血回歸,季后賽場均24分

誰敢相信!去年跟腱撕裂,今年滿血回歸,季后賽場均24分

球毛鬼胎
2026-04-28 22:07:08
張雪就聲援余承東引發(fā)爭議進行回應,稱自己不是網(wǎng)紅也不靠這吃飯

張雪就聲援余承東引發(fā)爭議進行回應,稱自己不是網(wǎng)紅也不靠這吃飯

IT之家
2026-04-28 16:13:50
政治局會議,傳遞三重利好

政治局會議,傳遞三重利好

劉勝軍經(jīng)濟學大局觀
2026-04-28 15:41:45
美伊大戰(zhàn)暴露了中國家底,美國這才明白,為啥中國人底氣能這么足

美伊大戰(zhàn)暴露了中國家底,美國這才明白,為啥中國人底氣能這么足

觸摸史跡
2026-04-28 15:13:05
世乒賽戰(zhàn)況:杜凱琹獨砍兩分,朱雨玲澳隊剃光頭國乒大戰(zhàn)韓隊

世乒賽戰(zhàn)況:杜凱琹獨砍兩分,朱雨玲澳隊剃光頭國乒大戰(zhàn)韓隊

阿晞體育
2026-04-28 22:41:00
王思聰是真頹了?被拍到在洛杉磯,整個人都“垮了”

王思聰是真頹了?被拍到在洛杉磯,整個人都“垮了”

西樓知趣雜談
2026-04-28 22:09:13
誰拍下了那張后臺照片?

誰拍下了那張后臺照片?

追星雷達站
2026-04-27 09:58:59
43歲蔡卓妍官宣結婚,婚戒照好幸福,老公比她小10歲是健身教練

43歲蔡卓妍官宣結婚,婚戒照好幸福,老公比她小10歲是健身教練

扒蝦侃娛
2026-04-28 12:34:53
倒查13年,央國企開始慌了

倒查13年,央國企開始慌了

職場資深秘書
2026-04-28 22:06:07
聚焦服務業(yè)擴能提質|我國養(yǎng)老服務業(yè)發(fā)展邁出新步伐

聚焦服務業(yè)擴能提質|我國養(yǎng)老服務業(yè)發(fā)展邁出新步伐

新華社
2026-04-27 22:04:28
2026-04-29 03:20:49
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
8183文章數(shù) 563關注度
往期回顧 全部

科技要聞

10億周活目標落空!傳OpenAI爆發(fā)內部分歧

頭條要聞

19歲中國女孩被困緬甸 交20萬贖金園區(qū)仍未放人

頭條要聞

19歲中國女孩被困緬甸 交20萬贖金園區(qū)仍未放人

體育要聞

魔術黑八活塞,一步之遙?!

娛樂要聞

蔡卓妍官宣結婚,老公比她小10歲

財經(jīng)要聞

中央政治局會議定調,八大看點速覽!

汽車要聞

拒絕瘋狂套娃!現(xiàn)代艾尼氪金星長在未來審美點上

態(tài)度原創(chuàng)

旅游
教育
本地
數(shù)碼
游戲

旅游要聞

莫讓內卷式競爭削弱旅游消費信心

教育要聞

教育部通知,今年9月份開始,上學的規(guī)則全變了

本地新聞

用青花瓷的方式,打開西溪濕地

數(shù)碼要聞

機械革命蒼龍16 / 18 Pro游戲本RTX 5070 12GB款開啟預約

這不爽翻了?曝PS6或能穩(wěn)穩(wěn)運行60幀+光追的游戲畫面

無障礙瀏覽 進入關懷版