国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

<samp id="sqwko"><kbd id="sqwko"></kbd></samp>

<table id="sqwko"><dl id="sqwko"></dl></table>

<samp id="sqwko"></samp>

<pre id="wwoye"></pre>

<pre id="wwoye"></pre>

<pre id="wwoye"></pre>

<abbr id="wwoye"><code id="wwoye"></code></abbr>

網(wǎng)易首頁

網(wǎng)易新聞
網(wǎng)易公開課
網(wǎng)易紅彩
網(wǎng)易嚴選
郵箱大師
網(wǎng)易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網(wǎng)易官方手機郵箱應用

移動端
網(wǎng)易公開課
網(wǎng)易嚴選
支付
郵箱

網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

華為技術（加拿大）團隊用結構化圖譜徹底改變AI看圖方式

2026-04-22 22:50:25　來源: 科技行者

北京舉報

0

分享至

這項由華為技術（加拿大）研究團隊完成的研究，以論文編號 arXiv:2604.11004v1 發(fā)表于2026年的頂級機器學習會議 ICLR 2026（國際學習表征會議）。對計算機視覺或圖像質量評估感興趣的讀者，可以通過上述編號在 arXiv 平臺查閱完整論文。

**當AI"看圖"時，它真的看懂了嗎？**

設想你是一名挑剔的攝影師，同時收到了同一場景的兩張照片。你掃一眼就能發(fā)現(xiàn)：左邊那張整體有點暗，但右邊那張的天空部分出現(xiàn)了顆粒感，而兩張照片的草地區(qū)域都還不錯。你做出這個判斷的過程，不是對整張照片籠統(tǒng)打個分，而是把照片拆分成一個個區(qū)域，分別去感知每塊區(qū)域的質量差異，然后匯總成一個整體印象。

然而當前的AI系統(tǒng)在面對同樣任務時，卻往往只能"看個大概"。它們習慣于把整張圖像當成一個不可分割的整體來評判，就像一個評委在不看菜單、不嘗每道菜的情況下，只憑飯店門口的氣氛給出一個總評分。這種"從上往下看全局"的方式，在處理復雜的圖像質量問題時，會遺漏大量細節(jié)，產(chǎn)生錯誤判斷。

正是為了解決這個問題，華為技術（加拿大）的研究團隊提出了一個全新的思路：與其讓AI籠統(tǒng)評價整張圖，不如教它像真正的專家一樣，先把圖像拆解成一個個有意義的區(qū)域，再針對每個區(qū)域進行細致的質量分析，最后通過一張結構化的"關系圖譜"把所有信息整合起來。這張圖譜，被研究團隊命名為**失真圖（Distortion Graph，簡稱 DG）**。

**一、問題的根源：AI評圖為何總是"差那么一口氣"**

在深入了解這項研究的解決方案之前，有必要先弄清楚問題究竟出在哪里。

當我們談論"圖像質量"時，實際上在談論一件相當復雜的事情。一張圖片可能在整體上看起來不錯，但放大某個角落卻發(fā)現(xiàn)人臉模糊；另一張圖片天空部分清晰銳利，但前景中的人物卻被過度銳化，顯得不自然。真正的質量評估，必須細化到圖像中的每一個區(qū)域，而不是用一個數(shù)字去概括整張圖的好壞。

目前市場上已經(jīng)存在一些專門處理圖像質量問題的大型多模態(tài)語言模型（可以把這類模型理解為"能看圖說話的AI"）。比如 Co-Instruct、Q-Instruct、DepictQA 等，它們能夠告訴你"這張圖片整體有點模糊"或者"這張比那張清晰"。但研究團隊發(fā)現(xiàn)，當你給這些模型提出更具體的要求——比如"請告訴我這張圖片里每個區(qū)域的質量如何，哪個區(qū)域出了什么問題，嚴重程度如何"——它們的表現(xiàn)就會令人失望。

研究團隊做了一個生動的實驗，把同樣兩張圖片同時喂給當時最先進的多模態(tài)語言模型 Co-Instruct，并提供了每個區(qū)域的名稱、描述和邊界框坐標，請它回答每個區(qū)域的質量情況。結果呢？模型給出的回答根本沒有涉及區(qū)域對比，也沒有質量評分，甚至漏掉了某些區(qū)域，給出的是一段對整張圖片的籠統(tǒng)描述。換句話說，即使你把答題范圍畫得很清楚，這些模型依然習慣性地"看整體"，沒有能力做到"看局部"。

這背后的原因有兩個。其一，這些模型在訓練時接觸的數(shù)據(jù)基本上都是以整張圖片為單位的質量評估，從沒有被專門訓練過"逐區(qū)域分析"這件事。其二，語言模型有輸出長度的限制，當圖片包含十幾個甚至幾十個區(qū)域時，要求它逐一分析每個區(qū)域，往往會超出模型的處理能力，導致遺漏或重復。

更關鍵的問題在于，這些模型通過"監(jiān)督微調"（可以理解為"刷題訓練"）的方式習得了固定的回答模板，就像一個學生死記硬背了幾套答題公式，一旦遇到?jīng)]見過的題型就不知所措。區(qū)域級別的質量分析，正是這些模型沒見過、也沒準備好的題型。

**二、新思路登場：把圖像對比變成一張"關系圖譜"**

針對上述問題，研究團隊提出的核心解決方案，是把兩張圖片之間的質量對比關系，用一種結構化的圖譜來表示——這就是失真圖（DG）的本質。

可以把失真圖理解成一份詳細的"體檢報告"。普通的圖像質量評估，就像醫(yī)院給你做了個全身掃描后只告訴你"整體健康狀況良好，有些小問題"；而失真圖，則是把身體拆成心臟、肺、肝臟等各個器官，分別告訴你每個器官的狀態(tài)如何、出了什么問題、嚴重程度是幾級，同時還對比了你去年和今年的體檢結果，明確指出哪些器官今年變好了、哪些變差了、哪些沒有變化。

具體來說，失真圖處理的是一對圖像——一張叫做"錨圖"（anchor，可以理解為參照圖），另一張叫做"目標圖"（target，即被比較的圖）。系統(tǒng)首先將兩張圖片各自分解成若干個區(qū)域（比如人物、天空、背景、物體等），然后對每個區(qū)域建立一個"節(jié)點"。每個節(jié)點記錄了該區(qū)域的失真類型（比如是模糊、噪點、過度壓縮還是過度銳化），失真嚴重程度（輕微、中等、嚴重或無失真），以及一個0到1之間的質量評分。

在節(jié)點之間，失真圖還建立了"邊"——也就是連線，用來表示錨圖和目標圖中對應區(qū)域的比較關系。這條連線會標注"錨圖中的這個區(qū)域比目標圖中的對應區(qū)域好"、"兩者差不多"還是"目標圖更好"，而且還會區(qū)分"稍好"和"明顯更好"這兩種程度。

研究團隊特別為失真圖設計了三條數(shù)學性質，以確保這種圖譜能夠準確、一致地描述圖像對比關系。首先是"有效性"：圖譜中的每條比較關系，必須連接來自兩張不同圖片的對應區(qū)域，不能拿同一張圖片的不同區(qū)域相互比較。其次是"有序性"：比較關系永遠是從錨圖指向目標圖，不存在反向比較，保證了方向的一致性。第三是"功能性比較"：對于每一對對應區(qū)域，有且僅有一條比較關系，不允許出現(xiàn)一個區(qū)域對應多個比較結論的情況。

這三條性質，就像是給這份"體檢報告"制定了嚴格的填寫規(guī)范，確保報告不會出現(xiàn)自相矛盾或邏輯混亂的情況。

**三、PANDA架構：讓機器學會填寫這份"體檢報告"**

有了失真圖的概念，接下來的問題是：如何讓計算機自動生成這份圖譜？為此，研究團隊設計了一個專門的神經(jīng)網(wǎng)絡模型，取名為 PANDA（全稱 Panoptic Pairwise Distortion Graph，意為"全景配對失真圖"）。

PANDA 的工作流程，可以用一個"精密流水線"來理解。

整個流程從圖像的特征提取開始。研究團隊使用了一個名為 DINOv2 的預訓練視覺模型（可以把它理解為一個經(jīng)過大量圖片訓練的"看圖專家"），將輸入的兩張圖片分別轉換為包含豐富視覺信息的特征矩陣。與此同時，一個叫做 SAM（Segment Anything Model，即"萬能分割模型"）的工具負責把圖片中的每個區(qū)域自動分割出來，生成對應的二值掩碼（也就是標記出每個區(qū)域的精確邊界）。

接下來是一個獨特的"令牌池"機制。研究團隊為每張圖片維護了一個可學習的向量集合，稱為令牌池?？梢园衙總€令牌理解為一個"標簽貼紙"，系統(tǒng)會為圖片中的每個區(qū)域隨機分配一個這樣的貼紙，然后把貼紙和區(qū)域的形狀信息相結合，再與圖像的深層特征融合，從而為每個區(qū)域生成一個"個性化"的特征表示。這種設計的好處是，系統(tǒng)可以靈活處理不同數(shù)量的區(qū)域，不受區(qū)域數(shù)量變化的限制。

隨后，這些區(qū)域特征被送入一個"退化解碼器"。這個解碼器由多層 Transformer（一種強大的注意力機制網(wǎng)絡）組成，讓每個區(qū)域的特征同時"看"到對方圖片的全局特征，從而學會"我在另一張圖片中對應的區(qū)域是什么樣子的"。通過自注意力機制，解碼器先讓圖片內部的特征相互交流；通過交叉注意力機制，再讓區(qū)域特征與對方圖片的特征進行對話。這種雙向信息交換，使每個區(qū)域都能在"看過"對應區(qū)域的基礎上，做出更準確的判斷。

最后，解碼器的輸出經(jīng)過全局平均池化壓縮后，被分別送入四個獨立的預測頭。第一個預測頭判斷區(qū)域比較關系（是錨圖更好、目標圖更好還是差不多），第二個預測頭識別失真類型，第三個預測頭判斷嚴重程度，第四個預測頭給出0到1之間的質量評分。前三個頭使用交叉熵損失函數(shù)（適合分類任務），第四個頭使用L1損失函數(shù)（適合數(shù)值回歸任務）。

PANDA 模型的參數(shù)量僅為0.028億，處理一對包含14個區(qū)域的圖片對只需要3.53秒，而相比之下，同類開源多模態(tài)模型（如 Q-Insight）處理同樣的任務需要274秒，參數(shù)量更是高達70億。這種"輕量級但高效"的特性，使 PANDA 在實際應用中極具吸引力。

**四、PANDASET：為這張"體檢報告"準備訓練數(shù)據(jù)**

一個好的AI系統(tǒng)需要大量高質量的訓練數(shù)據(jù)。為了訓練 PANDA，研究團隊構建了一個專門的數(shù)據(jù)集，命名為 PANDASET。

PANDASET 的構建過程，就像是一個大規(guī)模的"人工制造缺陷"實驗。研究團隊首先從兩個現(xiàn)有的公開數(shù)據(jù)集中篩選出2200張高質量圖片：其中1592張來自 PSG 數(shù)據(jù)集（一個包含場景信息和區(qū)域級全景分割的數(shù)據(jù)集），另外608張來自 Seagull-100w（一個包含真實ISP圖像退化效果的數(shù)據(jù)集）。這些圖片涵蓋了室內外各種場景，拍攝角度和光線條件各異。

接下來，研究團隊為這些圖片設計了一套完整的失真體系。他們將失真類型分為14大類，分別是：模糊、亮度增強、壓縮失真、對比度增強、對比度減弱、變暗、霧霾、噪點、過度銳化、像素化、雨滴、飽和度增強、飽和度減弱和雪花。每種失真還進一步細分為不同的子類型（比如不同類型的噪點、不同的模糊方式、不同的壓縮算法），總共形成32種子類型。加上"無失真（干凈）"這一類別，每個區(qū)域面臨的選擇共有15種。

對于每個區(qū)域，系統(tǒng)會以80%的概率隨機選擇一種失真來施加，以20%的概率保持該區(qū)域干凈。每種失真還有三個嚴重程度級別：輕微、中等和嚴重。對于人工合成的非天氣類失真，研究團隊參考了此前學術界的經(jīng)驗；對于雨雪這類天氣失真，他們使用了真實的雨雪疊加素材；對于霧霾，他們通過調整大氣散射模型的參數(shù)來模擬不同濃度的霾。值得一提的是，對于來自 Seagull-100w 的圖片，當合成失真類別與圖片本身已有的ISP真實失真（如真實噪點或模糊）重疊時，系統(tǒng)會優(yōu)先保留真實的ISP失真效果，確保數(shù)據(jù)的真實性。

每個區(qū)域的質量評分，通過計算失真后的區(qū)域與原始干凈區(qū)域之間的 TOPIQ（一種基于語義的全參考圖像質量評估指標）得分來確定，分值范圍在0到1之間，1代表與原圖完全一致，0代表嚴重退化。

區(qū)域之間的比較關系，通過對比兩個區(qū)域的 TOPIQ 分數(shù)差值來確定：差值小于0.1的標記為"相同"；差值在0.1到0.3之間的標記為"稍好"或"稍差"；差值大于0.3的則標記為"明顯更好"或"明顯更差"。

最終，PANDASET 包含了超過52.8萬對圖像，覆蓋訓練集（約48萬對）、驗證集（約1.2萬對）和測試集（約3.6萬對）。每張圖片平均包含18個區(qū)域，最多可達112個區(qū)域。如此規(guī)模的區(qū)域級配對失真數(shù)據(jù)集，在學術界尚屬首次。

**五、PANDABENCH：一個讓AI"現(xiàn)原形"的考場**

有了 PANDASET，研究團隊還從其測試集中精心設計了一個專門的評測基準，稱為 PANDABENCH。這個基準共分三個難度級別，每級隨機抽取300對圖像。

最簡單的"Easy"級別，要求兩張圖片中所有區(qū)域都被同一種失真類型影響，只是嚴重程度可能不同。就像一張照片整體偏暗（所有區(qū)域都受到"變暗"效果的影響），另一張整體有噪點（所有區(qū)域都有噪點），系統(tǒng)需要分析各個區(qū)域的情況并進行比較。

中等難度的"Medium"級別，其中一張圖片被同一種失真統(tǒng)一處理，而另一張圖片則是"混合失真"——每個區(qū)域都可能受到不同類型的失真影響。比如一張圖里，天空有霧霾，人物有噪點，背景有壓縮失真，系統(tǒng)需要逐區(qū)域識別不同的失真類型。

最難的"Hard"級別，兩張圖片都是混合失真模式，每個區(qū)域的失真類型和嚴重程度都可能各不相同。在這種情況下，系統(tǒng)不僅需要識別每個區(qū)域各自的失真，還要在兩張圖片的對應區(qū)域之間進行精準比較，難度大幅提升。

研究團隊在這個基準上對當前最先進的多模態(tài)大語言模型進行了全面測試，結果相當"觸目驚心"。

以最簡單的 Easy 級別為例，PANDA 在區(qū)域比較任務上的準確率達到了58%，而開源的蒸餾專項模型 DepictQA 只能在用 PANDASET 額外訓練后才達到49%，如果不額外訓練則根本無法完成這項任務。參數(shù)量高達270億的 Gemini 2.5 Pro（谷歌旗下最先進的商業(yè)大模型之一）只有22%的準確率，而隨機猜測的準確率是20%——也就是說，Gemini 2.5 Pro 在這項任務上的表現(xiàn)幾乎與瞎猜無異。

在失真類型識別上，Easy 級別中 PANDA 達到了78%的準確率，而排名第二的微調版 DepictQA+ 達到75%，商業(yè)模型 GPT-5 Mini 只有49%，GPT-4o 是46%，Gemini 2.5 Pro 是39%，而隨機猜測只有7%。可見商業(yè)大模型在這項任務上確實比隨機猜測強得多，但與專為此設計的 PANDA 相比仍有相當差距。

從 Easy 到 Hard，所有方法的性能都出現(xiàn)了不同程度的下滑。PANDA 展現(xiàn)出了最小的性能下降幅度，而部分商業(yè)大模型在 Hard 級別的嚴重程度分類任務上甚至下滑到了低于隨機猜測水平的表現(xiàn)——這說明在面對復雜混合失真場景時，這些模型完全"迷失方向"，只能靠"慣性"輸出一些聽起來像樣但實際上隨機的答案。

研究團隊還測試了兩個基線方法作為參照：線性探針（在 DINOv2 特征上直接套一層線性分類器）和注意力探針（在 DINOv2 特征上套一個帶交叉注意力的 Transformer 模塊）。這兩個基線的結果表明，單靠 DINOv2 的預訓練特征是遠遠不夠的，PANDA 中專門設計的退化解碼器對最終性能的提升至關重要。

**六、讓失真圖成為AI的"參謀"：鏈式思考實驗**

研究團隊還探索了一個有趣的應用方向：把 PANDA 生成的失真圖，作為"提示信息"喂給商業(yè)大語言模型 GPT-5 Mini，看看它能否借助這份結構化的"參謀意見"做出更好的判斷。

實驗方案參考了"組合鏈式思考提示"的做法——先用 PANDA 生成一份失真圖，再明確告訴 GPT-5 Mini："這是一份關于這兩張圖片各區(qū)域質量對比的參考信息，請把它當作輔助線索，如果你從圖像本身看到了與這份信息矛盾的地方，請以圖像本身為準。"

結果顯示，加入失真圖作為背景信息后，GPT-5 Mini 在 Easy 級別的區(qū)域比較準確率從31%提升到了52%，失真類型識別準確率從49%提升到了67%，嚴重程度判斷準確率從36%提升到了51%，質量評分相關性也從0.09提升到了0.52。綜合來看，引入失真圖帶來了約15%的整體性能提升。

更有說服力的是，研究團隊發(fā)現(xiàn) GPT-5 Mini 并不是機械地復制失真圖的預測結果。在某些案例中，當失真圖的預測結果與圖像的真實視覺信息存在矛盾時，GPT-5 Mini 會主動糾正失真圖的錯誤判斷——比如失真圖錯誤地把錨圖某個區(qū)域標記為"干凈"，而 GPT-5 Mini 通過觀察圖像本身正確識別出了"變暗"效果。同樣，當失真圖把某個區(qū)域標記為"干凈"，但實際上該區(qū)域存在過度銳化時，GPT-5 Mini 也能通過視覺分析得出正確結論。這說明失真圖與大模型之間形成了一種真正有意義的協(xié)作關系，而非簡單的復制粘貼。

當然，當圖像中的視覺證據(jù)本身不夠明顯時，GPT-5 Mini 也會傾向于信任失真圖。比如當失真圖預測某個目標區(qū)域存在亮度增強失真，而實際上該區(qū)域是干凈的，GPT-5 Mini 有時會跟隨失真圖的錯誤判斷。這屬于預期中的行為模式，反映出失真圖作為結構化先驗信息的合理作用方式。

**七、從區(qū)域到整張圖：失真圖的泛化能力驗證**

研究團隊還專門驗證了一個重要問題：PANDA 生成的失真圖，能否自然地從區(qū)域級別的判斷聚合為整張圖片的質量排名？畢竟，區(qū)域級分析如果不能服務于整體判斷，其實際價值就會大打折扣。

為此，研究團隊在兩個公認的圖像質量評估基準數(shù)據(jù)集上進行了零樣本測試（即不對模型做任何額外訓練，直接用在 PANDASET 上訓練好的 PANDA 來評估新數(shù)據(jù)集）。第一個是 KADID-10k，包含81張參考圖像和各類失真版本；第二個是 TID2013，是另一個廣泛使用的圖像質量評估數(shù)據(jù)集，包含人工標注的平均意見分（MOS）。

實驗邏輯很簡單：對于一對圖片，PANDA 生成兩張圖的失真圖，然后用一個樸素規(guī)則來做整圖排名——如果某張圖中更多區(qū)域的質量評分更高（或者比較關系顯示更多區(qū)域更好），則認為該圖整體質量更好。

結果表明，在 KADID-10k 上，基于 PANDA 分數(shù)的排名準確率達到78.83%，基于比較關系的排名準確率達到76.90%，超過了同類開源多模態(tài)模型（如 mPLUG-Owl2 的48.5%、LLaVA-1.6 的57%、Q-Instruct 的55%）。在 TID2013 上，PANDA 同樣以78.4%（基于比較關系）和77.8%（基于分數(shù)）的準確率大幅領先其他方法。這有力地證明了，區(qū)域級的失真圖確實可以自然地"聚合"成可靠的整圖質量排名，與人類的主觀感知具有高度一致性。

**八、設計細節(jié)與超參數(shù)敏感性分析**

在模型設計層面，研究團隊進行了一系列消融實驗，驗證各個設計選擇的必要性與合理性。

首先是特征提取器的選擇。默認配置使用 DINOv2（小型版本，ViT-s，384維特征），研究團隊還測試了 DINOv2（基礎版本，ViT-b，768維特征）和 SigLIP（768維）的效果。實驗結果顯示，三種配置的性能差異不大，但 DINOv2（ViT-s）在性能與計算效率之間取得了最佳平衡。

其次是 Transformer 解碼器層數(shù)。默認采用4層，研究團隊還測試了2層和6層的版本。結果顯示，4層是一個甜蜜點——既足夠深以捕捉復雜的跨圖像區(qū)域對應關系，又不會因層數(shù)過多而導致過擬合或訓練困難。

在訓練超參數(shù)方面，研究團隊對損失函數(shù)中四項任務的權重系數(shù)進行了網(wǎng)格搜索，最終確定的配置為：區(qū)域比較關系損失權重0.1、失真類型識別損失權重1.0、嚴重程度分類損失權重0.1、質量評分回歸損失權重1.0。研究結果表明，模型對超參數(shù)選擇并不特別敏感——在大多數(shù)合理的參數(shù)組合下，模型表現(xiàn)保持相對穩(wěn)定，只有極端配置才會導致明顯性能下降。

PANDA 使用8塊 NVIDIA V100 32GB 顯卡訓練，批次大小為6，總訓練時間約1.5天，使用 AdamW 優(yōu)化器，學習率1e-4，權重衰減0.01，共訓練30輪。

**九、這項研究的位置與貢獻**

在此前的相關研究中，確實存在不少圖像質量評估或區(qū)域級理解的工作，但它們各有局限。Q-Bench 等工作側重于單張圖像的整體質量分析；DQ495K、MICBench 等工作雖然涉及圖像對比，但不是以區(qū)域為核心出發(fā)點；Seagull、QGround、Grounding-IQA 等工作雖然涉及區(qū)域級分析，但只針對單張圖像，不支持兩張圖片之間的區(qū)域級比較。

研究團隊在論文中匯總了一張比較表，清楚地展示了 PANDABENCH 是目前唯一一個同時滿足以下全部條件的基準：以區(qū)域為核心出發(fā)點、具有比較性質（兩張圖片之間）、支持多樣化失真類型、包含嚴重程度級別、提供質量評分。任何現(xiàn)有的基準都無法同時滿足這五個條件。

這一定位意味著，這項研究填補了一個明顯的學術空白，并為后續(xù)研究提供了一個清晰的評估框架。

**十、失真圖的更廣泛應用前景**

研究團隊在論文的附錄部分，還專門討論了失真圖作為通用比較形式化框架的潛力。失真圖的核心思想——把兩個比較對象分解成對應的部分，為每個部分建立節(jié)點、描述屬性、標注比較關系——并不局限于圖像質量評估這一個場景。

在視頻分析領域，可以用類似的框架來描述兩段視頻中人物動作的區(qū)域級差異，用于視頻動作對比任務。在醫(yī)學圖像領域，可以把兩次CT掃描的不同區(qū)域（肺、心臟、肝臟等）進行結構化對比，輔助醫(yī)生發(fā)現(xiàn)細微變化。在圖像信號處理器（ISP）基準測試領域，可以系統(tǒng)性地比較不同ISP算法在各個圖像區(qū)域的處理質量。在視頻壓縮和流媒體傳輸領域，可以根據(jù)區(qū)域重要性和質量評分，智能地篩選冗余幀，提高存儲和傳輸效率。在假圖檢測領域，區(qū)域級的比較關系可以幫助定位圖像篡改的具體位置。

這種跨場景的通用性，說明失真圖不僅僅是一個解決特定問題的技術工具，更是一種可以推廣到多個比較性評估任務的結構化思維框架。

**十一、研究的局限與未來方向**

研究團隊對這項工作的局限性保持了坦誠的態(tài)度。

第一個局限是 PANDA 作為基線模型的簡潔性。它有意保持了架構的簡單，留有很大的改進空間，特別是在處理視覺細節(jié)復雜的區(qū)域時。更強大的視覺特征提取器、更復雜的跨圖像對應機制，都可能進一步提升性能。

第二個局限來自數(shù)據(jù)集的構建方式。PANDASET 中的場景是真實的，但大多數(shù)失真是人工合成的（除了來自 Seagull-100w 的真實ISP失真部分）。人工合成失真的優(yōu)勢是可控性強，能夠精確地為每個區(qū)域分配質量評分和比較標簽，也能系統(tǒng)地覆蓋不同難度級別；但其代價是可能與真實世界中自然產(chǎn)生的失真存在一定的感知差距。研究團隊通過在 KADID-10k 和 TID2013 上的驗證，證明了合成失真與人類主觀感知具有合理的一致性，但更大規(guī)模的真實世界失真數(shù)據(jù)集仍是未來的重要方向。

第三個局限是比較關系標簽依賴于 TOPIQ 這一特定的圖像質量評估模型，可能會繼承該模型的感知偏好。構建由人工標注的區(qū)域級比較標簽數(shù)據(jù)集，將是一項巨大但有價值的工程。

研究團隊還提出了一個有趣的未來方向：把失真圖作為推理鏈的中間步驟，讓模型先生成失真圖，再基于失真圖給出最終的自然語言描述。這種"先結構化、再語言化"的路徑，可能比直接讓語言模型輸出區(qū)域級分析更加可靠和可控。

**歸根結底，這項研究說明了什么？**

這項由華為技術（加拿大）團隊完成、發(fā)表于 ICLR 2026 的研究，用一種非常樸素的邏輯回應了一個長期被忽視的問題：AI評價圖片質量時，不應該只看整體，因為整體感知是由局部細節(jié)決定的，而不是反過來。

通過引入失真圖這一結構化表示方式，研究團隊不僅為區(qū)域級圖像質量評估提供了一套完整的形式化框架，還構建了迄今為止最大規(guī)模的區(qū)域級配對失真數(shù)據(jù)集，并設計了一個輕量高效的模型來學習這種圖譜結構。更重要的是，他們通過大規(guī)模實驗揭示了當前最先進的多模態(tài)大語言模型在區(qū)域級質量理解上的系統(tǒng)性短板——即使是 Gemini 2.5 Pro 這樣的頂尖商業(yè)模型，在這類任務上的表現(xiàn)也接近隨機猜測的水平。

這對普通用戶意味著什么？下次你的照片編輯軟件告訴你"這張照片質量比另一張好"時，你可以期待的是：未來版本的軟件不會只給你一個籠統(tǒng)的打分，而是會告訴你"你照片里的人臉區(qū)域有些過度銳化，但背景的清晰度比對比照片好很多，天空部分兩者差不多"——這才是真正有用的質量反饋。

有興趣深入了解技術細節(jié)的讀者，可以通過 arXiv 編號 **2604.11004** 查閱完整論文，或訪問項目主頁 aismartperception.github.io/distortion-graph/ 獲取更多信息。

Q&A

Q1：失真圖（Distortion Graph）和普通的圖像質量評分有什么區(qū)別？

A：普通圖像質量評分只給整張圖打一個數(shù)字，比如"7分"，無法告訴你具體哪里有問題。失真圖把圖片拆成多個區(qū)域（如人物、天空、背景），為每個區(qū)域分別記錄失真類型、嚴重程度和質量評分，還能對比兩張圖片中每個對應區(qū)域的優(yōu)劣。這就像從"這道菜整體還行"變成了"這道菜的湯底很好，但肉有點老，配菜火候不夠"的專業(yè)點評。

Q2：PANDA模型和GPT-4o這類大模型相比有什么優(yōu)勢？

A：PANDA的參數(shù)量只有0.028億，處理一對圖片僅需3.53秒；而GPT-4o等大模型參數(shù)量達數(shù)百億甚至更多，且在區(qū)域級質量比較任務上準確率僅26%，接近隨機猜測的20%。PANDA在同類任務上準確率達58%，同時計算成本極低。當然，PANDA只專注于生成結構化的失真圖，不具備大模型的通用對話能力。

Q3：PANDABENCH的Easy、Medium、Hard三個難度級別有什么具體區(qū)別？

A：Easy級別中，每對圖片的所有區(qū)域都受同一種失真類型影響，只是嚴重程度不同，相對容易識別。Medium級別中，一張圖是單一失真，另一張每個區(qū)域的失真類型各不相同，識別難度增加。Hard級別中，兩張圖的每個區(qū)域都可能有不同的失真類型和嚴重程度，需要逐區(qū)域精細分析，是最具挑戰(zhàn)性的場景。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

讓大模型理解真實醫(yī)療視頻，全球首個開源技術方案來了！

機器之心Pro 2026-04-28 15:52:34
0 跟貼 0
ARR超3億，這家硅谷獨角獸成了全球3D生成AI熱門選手

36氪 2026-04-28 12:13:59
0 跟貼 0

00后小哥復刻Claude最強神話模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟貼 0

AI算力爆發(fā)引爆電力需求，海信史文伯：AI數(shù)據(jù)中心耗電激增，高壓與液冷技術重構電力新格局

每日經(jīng)濟新聞 2026-04-29 01:28:04
0 跟貼 0
OpenAI強硬回擊增長質疑：一切業(yè)務“運轉如飛”

財聯(lián)社 2026-04-29 02:06:06
0 跟貼 0

啟境把華為乾崑的技術，擰成了一股繩！

三一博士官方 2026-04-28 15:20:48
9 跟貼 9

華為艙內激光雷達的深藍S07，更適合年輕人了

車業(yè)雜談 2026-04-26 19:15:49
1 跟貼 1
加拿大美女在中國的一天：這在我們國家根本不可能！

夜叔 2026-04-27 05:20:49
5 跟貼 5

向量量化如何影響存儲？與RaBitQ兩位作者，從與谷歌TurboQuant學術爭議聊起

鈦媒體APP 2026-04-28 16:03:13
0 跟貼 0
溫哥華VS深圳，差距為何越來越大？聽聽在加拿大的大哥咋說的

左蘊新鮮事 2026-04-26 01:30:21
0 跟貼 0
蘋果折疊屏新機外形或效仿華為：Pura X Max今日開賣

快科技 2026-04-26 08:38:41
29 跟貼 29
為什么說華為乾崑智駕 ADS 5是“降維打擊”？就憑這三招嗎

嘻哈車 2026-04-26 15:29:29
1 跟貼 1
華為乾崑智駕 ADS 5正式發(fā)布，多項體驗實用功能升級

車圈薛可奈 2026-04-27 13:45:13
1 跟貼 1
我不想成為“不民主政權”的一部分：美國人正排隊放棄國籍

到此為止的印象 2026-04-28 23:07:45
0 跟貼 0
華為Pura X Max太闊了到底闊在哪里？這兩點就太闊了！

科技數(shù)碼說 2026-04-24 15:13:12
5 跟貼 5
張雪回應拒絕華為合作真實原因

荒野老五 2026-04-29 01:38:00
1 跟貼 1
猛士X華為乾崑，智能越野第一車來了

波帆說車 2026-04-27 14:34:34
6 跟貼 6
2026北京車展必逛：華為智擎展臺，看懂智能汽車的未來

科技客評 2026-04-26 19:09:00
1 跟貼 1
趙心童攻防兼?zhèn)涞牧呅螒?zhàn)力！技術全面沒有短板，被暉哥高度贊賞

左腳爆射得分 2026-04-28 11:58:14
2 跟貼 2
智能一切移動卓馭科技發(fā)布首個原生多模態(tài)基礎模型

智谷趨勢 2026-04-28 19:53:24
0 跟貼 0
首發(fā)被華為搶了！英偉達火速官宣適配DeepSeek V4

快科技 2026-04-26 08:38:35
0 跟貼 0
華為余承東首曝尊界新車型，預計售價200萬左右

快科技 2026-04-27 12:27:37
0 跟貼 0
華為三折疊開售日，現(xiàn)場沒有現(xiàn)貨，網(wǎng)友：不要玩合資車那套！

咔咔看生活 2026-04-27 10:13:45
0 跟貼 0
黃仁勛：請從容接受社會的毒打韌性只能在磨練中擁有

每日經(jīng)濟新聞 2026-01-08 13:50:38
0 跟貼 0
華為乾崑首款旗艦SUV亮相，奕境為何敢說“最好的華為永遠在東風”

汽車通訊社 2026-04-28 23:33:02
0 跟貼 0
華為余承東首次回應享界S9麋鹿測試存在黑幕

快科技 2026-04-28 16:16:42
0 跟貼 0
余承東：智界V9 Ultra版訂單超50%

界面新聞 2026-04-26 15:19:23
0 跟貼 0
阿維塔06T正式上市，華為乾崑智駕加持21.29萬起

汽扯扒談 2026-04-28 21:44:16
4 跟貼 4
華為現(xiàn)在要格外重視產(chǎn)品顏值

快科技 2026-04-28 16:16:41
0 跟貼 0
全球5G標準必要專利全球排名出爐，華為強勢斷層第一！

快科技 2026-04-28 16:17:16
4 跟貼 4
加拿大美食博主吃逛西安全集，西安是當之無愧的碳水天堂 #中國

盼盼帶你看新聞 2026-04-28 08:00:07
0 跟貼 0
華為多機型圍剿蘋果：暢享90 Pro Max力壓iPhone 17 Pro

快科技 2026-04-26 08:38:41
0 跟貼 0
這個世界有沒有完美的人？

挑戰(zhàn)你的想象力 2026-04-27 10:30:46
1 跟貼 1
站在對手的角度去思考博弈這次華為乾崑的升級有點猛

BAO愛車工作室 2026-04-27 10:51:50
3 跟貼 3
上海迪士尼回應游客勸阻吸煙被打：園區(qū)沒有禁煙；被打男子發(fā)聲：對方已賠錢和解

中國新聞周刊 2026-04-27 14:25:00
15229 跟貼 15229
含華量超高，首發(fā)即王炸啟境GT7

車圈薛可奈 2026-04-27 16:53:42
1 跟貼 1
90后“稚暉君”，任上緯新材董事長！他是原華為天才少年

每日經(jīng)濟新聞 2025-11-26 14:49:35
0 跟貼 0
深圳最狠的地方：每隔十年，就親手“殺死”自己一次

飯統(tǒng)戴老板 2026-01-09 17:54:56
0 跟貼 0
華為AI眼鏡上手！朋友都說帥爆了，都怪我顏值太高

雷科技 2026-04-20 23:25:15
0 跟貼 0
美國與加拿大邊境線，堪稱世界最奇特邊境，獨特之處超乎想象

劉藏愛搞笑 2026-04-29 00:00:00
0 跟貼 0

國家下死命令：2027年城投清零！中小城市的公交、供水會漲價嗎？

國家下死命令：2027年城投清零！中小城市的公交、供水會漲價嗎？

顧史

2026-04-21 05:44:11

法塔赫勝選、哈馬斯出局，殘害平民失去人心，恐怖主義沒有未來

法塔赫勝選、哈馬斯出局，殘害平民失去人心，恐怖主義沒有未來

壹家言

2026-04-28 11:11:27

王洪文被捕前，對秘書說：我這頂“烏紗帽”，說不定哪天就被摘掉

王洪文被捕前，對秘書說：我這頂“烏紗帽”，說不定哪天就被摘掉

銅臭的歷史味

2026-04-29 00:22:02

哭窮了！一線男1號片酬跌至巔峰期3折，網(wǎng)友：待遇比醫(yī)生差才合理

哭窮了！一線男1號片酬跌至巔峰期3折，網(wǎng)友：待遇比醫(yī)生差才合理

火山詩話

2026-04-28 07:27:33

600678，將被“ST”！

中國基金報

2026-04-28 23:15:48

情侶在瑞士雪山頂“撒歡”，就這么被全世界直播了···

情侶在瑞士雪山頂“撒歡”，就這么被全世界直播了···

新歐洲

2026-04-21 19:37:05

外交部：按一國兩制叫“臺灣特別行政區(qū)行政長官”“臺灣省省長”

外交部：按一國兩制叫“臺灣特別行政區(qū)行政長官”“臺灣省省長”

阿七說史

2026-04-28 15:41:47

辛柏青回應吳越撮合，沒有翻臉沒有接梗，把分寸和家人穩(wěn)穩(wěn)守住

辛柏青回應吳越撮合，沒有翻臉沒有接梗，把分寸和家人穩(wěn)穩(wěn)守住

一盅情懷

2026-04-28 17:18:29

妹子，你露個大白胸脯，在這兒干什么呢？

妹子，你露個大白胸脯，在這兒干什么呢？

飛娛日記

2026-04-18 10:48:09

中國聯(lián)通推出全新手機套餐品牌“魔方”，自由組合，階梯定價，39元起

中國聯(lián)通推出全新手機套餐品牌“魔方”，自由組合，階梯定價，39元起

TMT流程審計

2026-04-28 10:35:38

誰敢相信！去年跟腱撕裂，今年滿血回歸，季后賽場均24分

誰敢相信！去年跟腱撕裂，今年滿血回歸，季后賽場均24分

球毛鬼胎

2026-04-28 22:07:08

張雪就聲援余承東引發(fā)爭議進行回應，稱自己不是網(wǎng)紅也不靠這吃飯

張雪就聲援余承東引發(fā)爭議進行回應，稱自己不是網(wǎng)紅也不靠這吃飯

IT之家

2026-04-28 16:13:50

政治局會議，傳遞三重利好

劉勝軍經(jīng)濟學大局觀

2026-04-28 15:41:45

美伊大戰(zhàn)暴露了中國家底，美國這才明白，為啥中國人底氣能這么足

美伊大戰(zhàn)暴露了中國家底，美國這才明白，為啥中國人底氣能這么足

觸摸史跡

2026-04-28 15:13:05

世乒賽戰(zhàn)況：杜凱琹獨砍兩分，朱雨玲澳隊剃光頭國乒大戰(zhàn)韓隊

世乒賽戰(zhàn)況：杜凱琹獨砍兩分，朱雨玲澳隊剃光頭國乒大戰(zhàn)韓隊

阿晞體育

2026-04-28 22:41:00

王思聰是真頹了？被拍到在洛杉磯，整個人都“垮了”

王思聰是真頹了？被拍到在洛杉磯，整個人都“垮了”

西樓知趣雜談

2026-04-28 22:09:13

誰拍下了那張后臺照片？

追星雷達站

2026-04-27 09:58:59

43歲蔡卓妍官宣結婚，婚戒照好幸福，老公比她小10歲是健身教練

43歲蔡卓妍官宣結婚，婚戒照好幸福，老公比她小10歲是健身教練

扒蝦侃娛

2026-04-28 12:34:53

倒查13年，央國企開始慌了

職場資深秘書

2026-04-28 22:06:07

聚焦服務業(yè)擴能提質|我國養(yǎng)老服務業(yè)發(fā)展邁出新步伐

聚焦服務業(yè)擴能提質|我國養(yǎng)老服務業(yè)發(fā)展邁出新步伐

新華社

2026-04-27 22:04:28

科技正在如何變革商業(yè)世界

8183文章數(shù) 563關注度

往期回顧全部

科技要聞

10億周活目標落空！傳OpenAI爆發(fā)內部分歧

頭條要聞

19歲中國女孩被困緬甸交20萬贖金園區(qū)仍未放人

頭條要聞

19歲中國女孩被困緬甸交20萬贖金園區(qū)仍未放人

體育要聞

魔術黑八活塞，一步之遙？！

娛樂要聞

蔡卓妍官宣結婚，老公比她小10歲

財經(jīng)要聞

中央政治局會議定調，八大看點速覽！

汽車要聞

拒絕瘋狂套娃！現(xiàn)代艾尼氪金星長在未來審美點上

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

旅游

教育

本地

數(shù)碼

游戲

旅游要聞

莫讓內卷式競爭削弱旅游消費信心

教育要聞

教育部通知，今年9月份開始，上學的規(guī)則全變了

本地新聞

用青花瓷的方式，打開西溪濕地

數(shù)碼要聞

機械革命蒼龍16 / 18 Pro游戲本RTX 5070 12GB款開啟預約

這不爽翻了?曝PS6或能穩(wěn)穩(wěn)運行60幀+光追的游戲畫面

© 1997-2026 網(wǎng)易公司版權所有 About NetEase | 公司簡介 | 聯(lián)系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版

<button id="aukae"><option id="aukae"></option></button>

<button id="aukae"><option id="aukae"></option></button>

<abbr id="aukae"><menu id="aukae"></menu></abbr>