KRAFTON揭秘：AI視覺模型在微妙差異識別上的驚人短板

2026-03-11 16:17:03　來源: 科技行者

北京舉報

分享至

當(dāng)我們仔細(xì)觀察兩張看似相同的圖片時，總能發(fā)現(xiàn)那些細(xì)微的不同——也許是一個人臉上稍微不同的表情，或是工廠零件上幾乎看不見的劃痕。這種敏銳的觀察能力對人類來說似乎輕而易舉，但對于當(dāng)今最先進(jìn)的AI視覺模型來說，卻是一個令人頭疼的挑戰(zhàn)。

這項由KRAFTON公司與KAIST聯(lián)合進(jìn)行的研究發(fā)表于2026年的國際學(xué)習(xí)表征會議（ICLR），研究團隊開發(fā)了一個名為VLM-SubtleBench的全新測試平臺，專門用來評估AI模型在識別圖像間微妙差異方面的能力。有興趣深入了解的讀者可以通過arXiv:2603.07888查詢完整論文。

研究的核心發(fā)現(xiàn)令人意外：即便是最先進(jìn)的AI視覺語言模型，在處理微妙的圖像比較任務(wù)時，其表現(xiàn)距離人類水平還有相當(dāng)大的差距。這就好比一位經(jīng)驗豐富的珠寶鑒定師，能夠輕松分辨出兩顆鉆石在切工上的細(xì)微差別，而一個剛?cè)腴T的學(xué)徒卻只能看出最明顯的區(qū)別。

研究團隊構(gòu)建了一個包含13000組圖像對比的龐大測試集，涵蓋了從日常生活照片到工業(yè)檢測圖像，從醫(yī)學(xué)影像到航拍照片的各個領(lǐng)域。每組圖像對看起來幾乎一模一樣，只是在某些細(xì)節(jié)上存在微妙的變化。這些變化被分為十個不同的類別，包括屬性變化（比如顏色的細(xì)微改變）、狀態(tài)變化（比如物體輕微的損壞程度）、情緒變化（比如面部表情的細(xì)微差別）等等。

測試結(jié)果顯示，即便是當(dāng)前最優(yōu)秀的AI模型，比如GPT-5-thinking，在整體表現(xiàn)上也只能達(dá)到77.8%的準(zhǔn)確率，而人類的平均準(zhǔn)確率高達(dá)95.5%。這個差距在某些特定領(lǐng)域更加明顯，特別是在空間推理、時間序列判斷和視角變化識別方面，最好的AI模型比人類表現(xiàn)低了30多個百分點。

想要理解這個問題的嚴(yán)重性，我們可以把它比作醫(yī)生閱讀X光片的能力。一位經(jīng)驗豐富的放射科醫(yī)生能夠察覺到肺部陰影的細(xì)微變化，從而早期發(fā)現(xiàn)疾病跡象。同樣地，在工業(yè)質(zhì)量檢測中，檢測員需要能夠發(fā)現(xiàn)產(chǎn)品表面幾乎看不見的瑕疵。如果AI模型無法掌握這種細(xì)致入微的觀察能力，就很難在這些關(guān)鍵應(yīng)用領(lǐng)域發(fā)揮真正的作用。

一、揭開AI視覺識別的盲區(qū)

在我們的日常生活中，比較兩個相似事物的差異是一項基本技能。當(dāng)我們購買水果時，能夠輕易分辨出哪個蘋果更新鮮；當(dāng)我們看照片時，能夠注意到朋友表情的細(xì)微變化。然而，讓人意想不到的是，這種看似簡單的能力對AI來說卻是一個巨大的挑戰(zhàn)。

傳統(tǒng)的AI視覺測試往往關(guān)注的是明顯的差異識別。就像讓人區(qū)分大象和老鼠一樣，這種差異顯而易見，任何人都能輕松完成。但現(xiàn)實世界中的應(yīng)用場景往往需要更加精細(xì)的判斷能力。在醫(yī)療診斷中，醫(yī)生需要比較不同時期拍攝的醫(yī)學(xué)影像，尋找病灶的細(xì)微變化；在工業(yè)生產(chǎn)中，質(zhì)檢員需要發(fā)現(xiàn)產(chǎn)品上微小的缺陷；在航空監(jiān)測中，分析師需要從衛(wèi)星圖像中察覺地面設(shè)施的細(xì)微改變。

研究團隊發(fā)現(xiàn)，當(dāng)前的AI模型在處理這類細(xì)微比較任務(wù)時存在系統(tǒng)性的弱點。這種弱點并不是隨機出現(xiàn)的，而是在特定類型的任務(wù)中反復(fù)顯現(xiàn)。比如說，當(dāng)要求AI判斷兩張圖片中哪一張是時間上更晚的場景時，即便是最先進(jìn)的模型也經(jīng)常出錯。這就好比讓一個人通過兩張照片判斷哪一張拍攝時間更晚，如果變化非常細(xì)微，人類憑借常識和經(jīng)驗往往能做出正確判斷，但AI卻缺乏這種直覺能力。

更有趣的是，研究團隊通過對比發(fā)現(xiàn)，現(xiàn)有的測試基準(zhǔn)存在明顯的局限性。以往的測試就像是在問學(xué)生"紅色和藍(lán)色有什么不同"，而這項研究提出的問題更像是"深紅色和淺紅色有什么不同"。后者顯然更加困難，也更接近真實世界的應(yīng)用需求。

這種差距的存在意味著，當(dāng)前的AI模型雖然在許多方面表現(xiàn)出色，但在需要精細(xì)視覺判斷的關(guān)鍵應(yīng)用中，仍然無法完全替代人類專家。無論是醫(yī)療診斷、工業(yè)質(zhì)檢，還是安全監(jiān)控，人類的細(xì)致觀察能力依然不可或缺。

二、構(gòu)建史上最具挑戰(zhàn)性的視覺對比測試

為了真正測試AI的細(xì)微觀察能力，研究團隊設(shè)計了一個前所未有的綜合測試平臺。這個平臺就像是為AI量身定制的"視力檢查表"，但比傳統(tǒng)的視力檢查要復(fù)雜得多。

測試涵蓋了六個不同的視覺領(lǐng)域，每個領(lǐng)域都代表著現(xiàn)實世界中的重要應(yīng)用場景。自然場景類別包含了我們?nèi)粘Ｉ钪谐Ｒ姷恼掌?，比如人物肖像、街景、風(fēng)光等；游戲環(huán)境類別則包含了虛擬現(xiàn)實中的場景，這些圖像雖然是人工生成的，但具有高度的真實感；工業(yè)檢測類別專注于制造業(yè)中的質(zhì)量控制場景，包含了各種機械零件和產(chǎn)品的檢測圖像；航空影像類別包含了從高空拍攝的地面景觀，這類圖像常用于城市規(guī)劃和環(huán)境監(jiān)測；醫(yī)學(xué)影像類別包含了各種醫(yī)療檢查中的圖像，比如X光片、CT掃描等；合成圖像類別則包含了研究團隊特別制作的簡化圖形，用于更精確地控制變量。

在每個領(lǐng)域中，研究團隊又細(xì)分出十種不同類型的變化。屬性變化指的是物體基本特征的改變，比如顏色的深淺、大小的變化等，這就像是同一件衣服在不同光線下呈現(xiàn)出的不同色彩。狀態(tài)變化關(guān)注的是物體條件的改變，比如一個蘋果從新鮮到略微腐爛的過程，或是一個零件從完好到輕微損壞的變化。

情緒變化專門針對人臉表情的細(xì)微差別。研究團隊收集了大量的人臉圖像，這些圖像中的表情變化非常細(xì)微，有時候只是嘴角的輕微上揚或眼部肌肉的微小收縮。時間變化則考察AI能否判斷兩個場景在時間上的先后關(guān)系，比如通過觀察一個人的動作姿勢來判斷哪張圖片拍攝得更早。

空間變化關(guān)注物體位置和排列的細(xì)微調(diào)整。設(shè)想一張桌子上擺放著幾本書，在兩張幾乎相同的照片中，也許只是其中一本書的位置發(fā)生了輕微移動，AI需要能夠察覺到這種變化。存在性變化則是關(guān)于物體的出現(xiàn)或消失，但這種變化往往非常不起眼，比如一幅畫面中少了一只遠(yuǎn)處的小鳥，或是多了一個不太明顯的小物件。

數(shù)量變化考察的是物體數(shù)量的微小差異。比如在一張拍攝人群的照片中，兩張圖片可能只相差一兩個人，而且這些人可能位于圖片的邊緣或背景中，不仔細(xì)觀察很難發(fā)現(xiàn)。質(zhì)量變化關(guān)注的是圖像本身質(zhì)量的差異，比如輕微的模糊、細(xì)微的噪點或是色彩的輕微失真。

視角變化關(guān)注的是拍攝角度的細(xì)微調(diào)整。即使是同一個場景，當(dāng)相機位置發(fā)生輕微移動時，整個圖像的透視關(guān)系會發(fā)生微妙的變化。最后，動作變化專門針對人物或動物的姿勢差異，這些變化往往只涉及身體某個部位的細(xì)微調(diào)整。

為了確保測試的公平性和準(zhǔn)確性，研究團隊采用了多種數(shù)據(jù)收集和標(biāo)注方法。對于一些已有標(biāo)注信息的數(shù)據(jù)集，他們利用現(xiàn)有的標(biāo)簽信息來構(gòu)建圖像對比；對于缺乏標(biāo)注的數(shù)據(jù)，他們邀請人類標(biāo)注員進(jìn)行仔細(xì)的人工標(biāo)記；在某些情況下，他們還使用了先進(jìn)的圖像編輯技術(shù)來創(chuàng)建精確控制的對比樣本。

整個測試平臺的構(gòu)建過程就像是制作一部關(guān)于細(xì)節(jié)的紀(jì)錄片，每一個圖像對比都經(jīng)過了精心的設(shè)計和驗證，確保它們既具有挑戰(zhàn)性，又反映了真實世界的應(yīng)用需求。

三、AI模型表現(xiàn)的意外真相

當(dāng)研究團隊將各種頂尖的AI模型放到這個嚴(yán)格的測試平臺上時，結(jié)果令人大開眼界。這些在其他任務(wù)中表現(xiàn)卓越的AI系統(tǒng)，面對細(xì)微的視覺比較任務(wù)時，展現(xiàn)出了令人意想不到的局限性。

在開源模型中，Qwen2.5-VL-72B表現(xiàn)最為出色，達(dá)到了65.4%的準(zhǔn)確率，但這個數(shù)字與人類的95.5%相比仍有顯著差距。這就好比一個學(xué)生在簡單的數(shù)學(xué)題上能得滿分，但當(dāng)題目變得更加精細(xì)和復(fù)雜時，成績就大幅下滑了。其他開源模型的表現(xiàn)更是參差不齊，有些甚至接近隨機猜測的水平。

在商業(yè)化的閉源模型中，情況稍好一些，但依然不盡如人意。GPT-5-thinking作為表現(xiàn)最好的模型，在總體上達(dá)到了77.8%的準(zhǔn)確率，這已經(jīng)是相當(dāng)不錯的成績，但仍然與人類水平存在明顯差距。有趣的是，那些專門設(shè)計用于推理的模型，比如o3和GPT-5-thinking，在這類需要細(xì)致觀察和分析的任務(wù)中確實表現(xiàn)更好，這說明推理能力對于視覺比較任務(wù)的重要性。

更加引人深思的是不同任務(wù)類型之間的巨大表現(xiàn)差異。在情緒識別方面，AI模型的表現(xiàn)相對較好，GPT-5-thinking能達(dá)到93.1%的準(zhǔn)確率，這接近人類水平。這可能是因為人臉表情的變化相對比較標(biāo)準(zhǔn)化，而且AI模型在人臉識別方面已經(jīng)有了充分的訓(xùn)練。

然而，在時間順序判斷、空間關(guān)系理解和視角變化識別方面，AI模型的表現(xiàn)就大幅下滑了。即便是最好的模型，在這些任務(wù)上也只能達(dá)到60%左右的準(zhǔn)確率，幾乎是剛剛及格的水平。這種差距就像是一個人能夠輕松識別朋友的臉，但卻無法判斷兩張照片哪一張拍攝得更早。

研究團隊進(jìn)一步分析發(fā)現(xiàn)，AI模型在不同領(lǐng)域的圖像上表現(xiàn)也存在顯著差異。在自然場景和工業(yè)檢測圖像上，模型的表現(xiàn)相對較好，但在醫(yī)學(xué)圖像和航空圖像上就表現(xiàn)不佳。這種差異可能反映了訓(xùn)練數(shù)據(jù)的分布不均，也可能說明某些領(lǐng)域的圖像具有AI模型難以理解的特殊性質(zhì)。

特別值得注意的是，當(dāng)研究團隊嘗試各種改進(jìn)策略時，效果都相當(dāng)有限。讓AI模型先進(jìn)行逐步推理再給出答案的方法確實有所幫助，但提升幅度很小。其他一些技巧，比如在圖像上添加網(wǎng)格線來幫助定位，或是將兩張圖片合并成一張來進(jìn)行比較，效果甚至還不如原始方法。

這些發(fā)現(xiàn)揭示了一個重要的事實：AI模型在視覺理解方面還存在根本性的局限。它們可能缺乏人類那種基于經(jīng)驗和直覺的細(xì)致觀察能力，也缺乏對空間和時間關(guān)系的深度理解。這就像是一個只會按照固定程序工作的機器人，面對需要靈活判斷和細(xì)致觀察的任務(wù)時就顯得力不從心。

四、深入解析AI失敗的根源

為了更深入地了解AI模型在哪些情況下會失敗，研究團隊設(shè)計了一系列精心控制的實驗。這些實驗就像是在實驗室中用顯微鏡觀察細(xì)胞一樣，通過控制單一變量來精確定位問題所在。

在合成圖像實驗中，研究團隊創(chuàng)建了大量簡化的幾何圖形場景。這些場景由基本的圓形、方形和三角形組成，背景是純白色，看起來就像兒童的繪畫練習(xí)冊。通過這種簡化的設(shè)置，研究者能夠精確控制各種影響因素，比如物體的大小、顏色變化的程度、位置移動的距離等等。

結(jié)果顯示，AI模型的表現(xiàn)高度依賴于變化的明顯程度。在顏色識別任務(wù)中，只有當(dāng)顏色變化達(dá)到25%的亮度差異時，模型才能穩(wěn)定地識別出差異。如果變化太小，比如只有5%的亮度差異，模型的表現(xiàn)就接近隨機猜測。這就好比一個人需要戴上厚厚的眼鏡才能看清楚細(xì)節(jié)，而正常視力的人卻能輕松觀察到微小的變化。

在尺寸變化的識別上，AI模型表現(xiàn)出了另一個有趣的特點。它們對絕對大小的變化比對相對比例的變化更加敏感。也就是說，如果一個大物體發(fā)生了同樣程度的尺寸變化，AI更容易察覺，而小物體的變化則容易被忽略。這種特性與人類的視覺系統(tǒng)恰恰相反，人類往往更關(guān)注相對變化而不是絕對變化。

在空間位置變化的實驗中，研究團隊發(fā)現(xiàn)了一個令人意外的現(xiàn)象。AI模型對物體移動距離的判斷能力很大程度上取決于物體的大小。小物體即使移動了相對較大的距離，AI也可能察覺不到，而大物體的微小移動卻能被準(zhǔn)確識別。這就像是一個人對遠(yuǎn)處小物體的移動視而不見，但對近處大物體的輕微移動卻非常敏感。

場景復(fù)雜度對AI模型的影響也非常顯著。當(dāng)圖像中只包含少數(shù)幾個物體時，AI能夠較好地識別變化。但隨著物體數(shù)量的增加，模型的表現(xiàn)急劇下降。在包含32個以上物體的復(fù)雜場景中，AI識別細(xì)微變化的能力幾乎完全喪失，準(zhǔn)確率降到了接近隨機猜測的水平。這種現(xiàn)象類似于人類在嘈雜環(huán)境中難以專注于特定聲音的"雞尾酒會效應(yīng)"，但在視覺領(lǐng)域，AI的這種局限性更加嚴(yán)重。

在視角變化的測試中，結(jié)果又出現(xiàn)了意想不到的趨勢。與直覺相反，場景越復(fù)雜，AI模型在識別視角變化方面的表現(xiàn)反而越好。這可能是因為復(fù)雜場景提供了更多的視覺參考點，幫助模型理解空間關(guān)系的變化。但即便如此，模型仍然需要相當(dāng)大的視角變化（相當(dāng)于相機移動了圖像高度的27%）才能可靠地識別出差異。

這些實驗還揭示了一個有趣的顏色偏見問題。AI模型對某些顏色的細(xì)微變化特別不敏感，尤其是綠色調(diào)。當(dāng)要求模型識別兩種相近綠色之間的差異時，其表現(xiàn)比識別紅色或藍(lán)色差異要差得多。更極端的是，對于品紅色的細(xì)微變化，有些模型的識別準(zhǔn)確率幾乎為零。這種顏色偏見可能源于訓(xùn)練數(shù)據(jù)的分布不均，也可能反映了模型在顏色表示方面的內(nèi)在局限。

所有這些發(fā)現(xiàn)都指向一個共同的結(jié)論：AI模型缺乏人類那種基于常識和經(jīng)驗的視覺理解能力。人類在觀察圖像時，會自動調(diào)用大量的背景知識和生活經(jīng)驗，而AI模型則更像是在進(jìn)行純粹的像素級比較。這種差異解釋了為什么AI在某些看似簡單的任務(wù)上會失敗，而在某些復(fù)雜任務(wù)上卻能表現(xiàn)出色。

五、尋找突破瓶頸的可能路徑

面對AI模型在細(xì)微視覺比較任務(wù)上的明顯不足，研究團隊嘗試了多種改進(jìn)策略，希望找到提升模型表現(xiàn)的有效方法。這些嘗試就像是醫(yī)生為病人試用不同的治療方案，期待找到最有效的解決方案。

首先，研究團隊測試了讓AI模型采用更加細(xì)致的推理過程。具體來說，就是要求模型在給出最終答案之前，先詳細(xì)描述它在兩張圖片中觀察到的差異。這種方法類似于讓學(xué)生在考試中展示解題過程，而不是直接給出答案。結(jié)果顯示，這種逐步推理的方法確實能帶來一定程度的改善，在大部分任務(wù)類型中都有小幅提升。有趣的是，即使在那些主要依賴視覺感知的任務(wù)中（比如顏色差異識別），逐步推理也能幫助模型做出更準(zhǔn)確的判斷。

研究團隊還嘗試了一種兩階段的處理方法。在第一階段，讓AI模型仔細(xì)分析兩張圖片之間的所有差異；在第二階段，再基于這些分析來回答具體問題。然而，這種方法的效果并不理想，甚至略有下降。原因在于模型在第一階段經(jīng)常會報告"沒有發(fā)現(xiàn)明顯差異"，這種錯誤的初始判斷會影響后續(xù)的決策過程。

為了幫助AI更好地定位圖像中的關(guān)鍵區(qū)域，研究團隊開發(fā)了一種自動高亮技術(shù)。這種技術(shù)能夠分析兩張圖片的像素差異，自動識別出變化最顯著的區(qū)域，然后用綠色方框標(biāo)出這些區(qū)域，同時將其他區(qū)域調(diào)暗。這種方法就像是為AI提供了一副"放大鏡"，幫助它專注于最重要的區(qū)域。實驗結(jié)果顯示，這種方法在某些類型的任務(wù)中確實有效，特別是在場景相對簡單的情況下。但在復(fù)雜場景中，由于光照變化和圖像質(zhì)量差異的干擾，自動高亮經(jīng)常會標(biāo)錯位置，反而誤導(dǎo)了模型的判斷。

研究團隊還嘗試了多種圖像預(yù)處理技術(shù)。其中一種方法是將兩張圖片水平拼接成一張長圖，讓AI同時觀察兩個場景。另一種方法是將兩張圖片進(jìn)行像素級的混合，創(chuàng)建一張"重影"圖像來突出差異。第三種方法是計算兩張圖片的差分圖像，生成一張黑白圖片來顯示變化區(qū)域。

然而，這些技術(shù)性的改進(jìn)大多效果有限，有些甚至產(chǎn)生了負(fù)面影響。將兩張圖片拼接的方法在大多數(shù)任務(wù)中都導(dǎo)致了性能下降，這說明AI模型可能缺乏處理這種復(fù)合圖像的能力。圖像混合和差分技術(shù)只在特定類型的任務(wù)中有所幫助，比如在靜態(tài)場景中識別物體的移動或增減。

最有啟發(fā)性的發(fā)現(xiàn)來自于模型訓(xùn)練的改進(jìn)實驗。研究團隊使用測試集的一部分?jǐn)?shù)據(jù)對開源模型進(jìn)行了微調(diào)訓(xùn)練。結(jié)果顯示，即使是相對較小規(guī)模的針對性訓(xùn)練，也能帶來顯著的性能提升。經(jīng)過微調(diào)的模型在各種任務(wù)類型上都有明顯改善，特別是在物體存在性判斷、數(shù)量比較和質(zhì)量評估方面。這表明AI模型具備學(xué)習(xí)細(xì)微視覺比較技能的潛力，關(guān)鍵在于提供合適的訓(xùn)練數(shù)據(jù)和訓(xùn)練方法。

然而，即使采用了最佳的改進(jìn)策略，AI模型與人類表現(xiàn)之間仍然存在顯著差距。這說明問題的根源可能比簡單的技術(shù)改進(jìn)更深層。AI模型可能需要更根本性的架構(gòu)改進(jìn)，或是完全不同的訓(xùn)練范式，才能真正掌握人類水平的細(xì)致觀察能力。

六、現(xiàn)實應(yīng)用中的深遠(yuǎn)影響

這項研究的發(fā)現(xiàn)對于AI技術(shù)在現(xiàn)實世界中的應(yīng)用具有重要的指導(dǎo)意義。在許多關(guān)鍵領(lǐng)域中，對細(xì)微差異的準(zhǔn)確識別不僅僅是性能優(yōu)化的問題，更是關(guān)系到安全性和可靠性的核心要求。

在醫(yī)療診斷領(lǐng)域，這種局限性的影響最為直接和嚴(yán)重。醫(yī)生在閱讀醫(yī)學(xué)影像時，經(jīng)常需要比較同一患者在不同時間點的檢查結(jié)果，尋找病情的細(xì)微變化。比如在癌癥監(jiān)測中，腫瘤大小的微小變化可能意味著治療效果的好壞；在心血管疾病診斷中，血管壁厚度的細(xì)微差異可能預(yù)示著疾病的進(jìn)展。如果AI輔助診斷系統(tǒng)無法可靠地識別這些細(xì)微變化，就可能錯過重要的診斷信息，甚至導(dǎo)致誤診。

在工業(yè)質(zhì)量控制方面，情況同樣嚴(yán)峻?，F(xiàn)代制造業(yè)對產(chǎn)品質(zhì)量的要求越來越高，微小的缺陷可能導(dǎo)致整個產(chǎn)品的失效。在半導(dǎo)體制造中，硅片表面幾乎看不見的劃痕可能影響芯片的性能；在航空航天工業(yè)中，零部件的微小裂紋可能導(dǎo)致災(zāi)難性的后果。AI視覺檢測系統(tǒng)如果缺乏足夠的細(xì)致觀察能力，就無法勝任這些高精度的質(zhì)量控制任務(wù)。

在安全監(jiān)控和軍事應(yīng)用中，對細(xì)微變化的識別同樣至關(guān)重要。監(jiān)控系統(tǒng)需要能夠察覺到監(jiān)控區(qū)域內(nèi)的異常變化，比如圍欄的輕微移動、植被的異常變化，或是人員行為的細(xì)微異常。在軍事偵察中，衛(wèi)星圖像的細(xì)微變化可能反映敵方設(shè)施的建設(shè)或軍事部署的調(diào)整。這些應(yīng)用都要求AI系統(tǒng)具備超越當(dāng)前水平的細(xì)致觀察能力。

然而，這項研究也為AI技術(shù)的改進(jìn)指明了方向。研究結(jié)果表明，通過針對性的訓(xùn)練數(shù)據(jù)收集和模型優(yōu)化，AI系統(tǒng)的細(xì)微視覺比較能力是可以得到改善的。這為相關(guān)技術(shù)的發(fā)展提供了明確的路線圖。

在短期內(nèi)，這些發(fā)現(xiàn)提醒我們在部署AI視覺系統(tǒng)時需要更加謹(jǐn)慎。在那些需要精確視覺判斷的關(guān)鍵應(yīng)用中，人類專家的作用仍然不可替代。AI系統(tǒng)更適合作為輔助工具，幫助人類專家處理大量的初步篩查工作，而最終的精確判斷仍需要人類來完成。

從長遠(yuǎn)來看，這項研究為AI技術(shù)的發(fā)展提出了新的挑戰(zhàn)和目標(biāo)。未來的AI視覺系統(tǒng)需要具備更加精細(xì)的觀察能力，能夠像人類專家一樣進(jìn)行細(xì)致入微的比較分析。這可能需要在模型架構(gòu)、訓(xùn)練方法和數(shù)據(jù)收集等多個方面進(jìn)行根本性的創(chuàng)新。

此外，研究還揭示了AI模型評估體系的重要性。傳統(tǒng)的AI評估往往關(guān)注那些差異明顯的簡單任務(wù)，這種評估方式可能高估了AI系統(tǒng)的實際能力。建立更加貼近實際應(yīng)用需求的評估標(biāo)準(zhǔn)，對于推動AI技術(shù)的健康發(fā)展具有重要意義。

說到底，這項研究讓我們更清楚地認(rèn)識到，盡管AI技術(shù)在許多領(lǐng)域都取得了令人矚目的進(jìn)展，但在模擬人類細(xì)致觀察能力這一基本技能上，還有很長的路要走。這種認(rèn)知不僅有助于我們更理性地看待AI技術(shù)的現(xiàn)狀，也為未來的技術(shù)發(fā)展指明了重要的方向。對于普通人而言，這意味著在可預(yù)見的未來，人類在需要精細(xì)判斷和細(xì)致觀察的工作中仍將發(fā)揮不可替代的作用。同時，這也提醒我們在使用AI技術(shù)時要保持適當(dāng)?shù)闹?jǐn)慎態(tài)度，特別是在那些關(guān)系到安全和健康的重要應(yīng)用中。

Q&A

Q1：VLM-SubtleBench是什么樣的測試平臺？

A：VLM-SubtleBench是由KRAFTON和KAIST聯(lián)合開發(fā)的AI視覺測試平臺，專門用來評估AI模型識別圖像間微妙差異的能力。它包含13000組看似相同但存在細(xì)微差別的圖像對，涵蓋自然場景、工業(yè)檢測、醫(yī)學(xué)影像等六個領(lǐng)域，以及屬性、狀態(tài)、情緒等十種不同類型的變化。

Q2：當(dāng)前最先進(jìn)的AI視覺模型在細(xì)微差異識別上表現(xiàn)如何？

A：即使是最好的AI模型GPT-5-thinking也只能達(dá)到77.8%的準(zhǔn)確率，遠(yuǎn)低于人類的95.5%。在空間推理、時間序列判斷和視角變化識別等方面，AI模型比人類表現(xiàn)低30多個百分點，顯示出明顯的能力局限。

Q3：AI模型在細(xì)微視覺比較上的失敗會影響哪些實際應(yīng)用？

A：這種局限會影響醫(yī)療診斷中的病情監(jiān)測、工業(yè)質(zhì)量控制中的缺陷檢測、安全監(jiān)控中的異常識別等關(guān)鍵應(yīng)用。在這些需要精確視覺判斷的領(lǐng)域，AI系統(tǒng)目前還無法完全替代人類專家，只能作為輔助工具使用。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.