国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

KRAFTON揭秘:AI視覺模型在微妙差異識別上的驚人短板

0
分享至


當(dāng)我們仔細(xì)觀察兩張看似相同的圖片時,總能發(fā)現(xiàn)那些細(xì)微的不同——也許是一個人臉上稍微不同的表情,或是工廠零件上幾乎看不見的劃痕。這種敏銳的觀察能力對人類來說似乎輕而易舉,但對于當(dāng)今最先進(jìn)的AI視覺模型來說,卻是一個令人頭疼的挑戰(zhàn)。

這項由KRAFTON公司與KAIST聯(lián)合進(jìn)行的研究發(fā)表于2026年的國際學(xué)習(xí)表征會議(ICLR),研究團隊開發(fā)了一個名為VLM-SubtleBench的全新測試平臺,專門用來評估AI模型在識別圖像間微妙差異方面的能力。有興趣深入了解的讀者可以通過arXiv:2603.07888查詢完整論文。

研究的核心發(fā)現(xiàn)令人意外:即便是最先進(jìn)的AI視覺語言模型,在處理微妙的圖像比較任務(wù)時,其表現(xiàn)距離人類水平還有相當(dāng)大的差距。這就好比一位經(jīng)驗豐富的珠寶鑒定師,能夠輕松分辨出兩顆鉆石在切工上的細(xì)微差別,而一個剛?cè)腴T的學(xué)徒卻只能看出最明顯的區(qū)別。

研究團隊構(gòu)建了一個包含13000組圖像對比的龐大測試集,涵蓋了從日常生活照片到工業(yè)檢測圖像,從醫(yī)學(xué)影像到航拍照片的各個領(lǐng)域。每組圖像對看起來幾乎一模一樣,只是在某些細(xì)節(jié)上存在微妙的變化。這些變化被分為十個不同的類別,包括屬性變化(比如顏色的細(xì)微改變)、狀態(tài)變化(比如物體輕微的損壞程度)、情緒變化(比如面部表情的細(xì)微差別)等等。

測試結(jié)果顯示,即便是當(dāng)前最優(yōu)秀的AI模型,比如GPT-5-thinking,在整體表現(xiàn)上也只能達(dá)到77.8%的準(zhǔn)確率,而人類的平均準(zhǔn)確率高達(dá)95.5%。這個差距在某些特定領(lǐng)域更加明顯,特別是在空間推理、時間序列判斷和視角變化識別方面,最好的AI模型比人類表現(xiàn)低了30多個百分點。

想要理解這個問題的嚴(yán)重性,我們可以把它比作醫(yī)生閱讀X光片的能力。一位經(jīng)驗豐富的放射科醫(yī)生能夠察覺到肺部陰影的細(xì)微變化,從而早期發(fā)現(xiàn)疾病跡象。同樣地,在工業(yè)質(zhì)量檢測中,檢測員需要能夠發(fā)現(xiàn)產(chǎn)品表面幾乎看不見的瑕疵。如果AI模型無法掌握這種細(xì)致入微的觀察能力,就很難在這些關(guān)鍵應(yīng)用領(lǐng)域發(fā)揮真正的作用。

一、揭開AI視覺識別的盲區(qū)

在我們的日常生活中,比較兩個相似事物的差異是一項基本技能。當(dāng)我們購買水果時,能夠輕易分辨出哪個蘋果更新鮮;當(dāng)我們看照片時,能夠注意到朋友表情的細(xì)微變化。然而,讓人意想不到的是,這種看似簡單的能力對AI來說卻是一個巨大的挑戰(zhàn)。

傳統(tǒng)的AI視覺測試往往關(guān)注的是明顯的差異識別。就像讓人區(qū)分大象和老鼠一樣,這種差異顯而易見,任何人都能輕松完成。但現(xiàn)實世界中的應(yīng)用場景往往需要更加精細(xì)的判斷能力。在醫(yī)療診斷中,醫(yī)生需要比較不同時期拍攝的醫(yī)學(xué)影像,尋找病灶的細(xì)微變化;在工業(yè)生產(chǎn)中,質(zhì)檢員需要發(fā)現(xiàn)產(chǎn)品上微小的缺陷;在航空監(jiān)測中,分析師需要從衛(wèi)星圖像中察覺地面設(shè)施的細(xì)微改變。

研究團隊發(fā)現(xiàn),當(dāng)前的AI模型在處理這類細(xì)微比較任務(wù)時存在系統(tǒng)性的弱點。這種弱點并不是隨機出現(xiàn)的,而是在特定類型的任務(wù)中反復(fù)顯現(xiàn)。比如說,當(dāng)要求AI判斷兩張圖片中哪一張是時間上更晚的場景時,即便是最先進(jìn)的模型也經(jīng)常出錯。這就好比讓一個人通過兩張照片判斷哪一張拍攝時間更晚,如果變化非常細(xì)微,人類憑借常識和經(jīng)驗往往能做出正確判斷,但AI卻缺乏這種直覺能力。

更有趣的是,研究團隊通過對比發(fā)現(xiàn),現(xiàn)有的測試基準(zhǔn)存在明顯的局限性。以往的測試就像是在問學(xué)生"紅色和藍(lán)色有什么不同",而這項研究提出的問題更像是"深紅色和淺紅色有什么不同"。后者顯然更加困難,也更接近真實世界的應(yīng)用需求。

這種差距的存在意味著,當(dāng)前的AI模型雖然在許多方面表現(xiàn)出色,但在需要精細(xì)視覺判斷的關(guān)鍵應(yīng)用中,仍然無法完全替代人類專家。無論是醫(yī)療診斷、工業(yè)質(zhì)檢,還是安全監(jiān)控,人類的細(xì)致觀察能力依然不可或缺。

二、構(gòu)建史上最具挑戰(zhàn)性的視覺對比測試

為了真正測試AI的細(xì)微觀察能力,研究團隊設(shè)計了一個前所未有的綜合測試平臺。這個平臺就像是為AI量身定制的"視力檢查表",但比傳統(tǒng)的視力檢查要復(fù)雜得多。

測試涵蓋了六個不同的視覺領(lǐng)域,每個領(lǐng)域都代表著現(xiàn)實世界中的重要應(yīng)用場景。自然場景類別包含了我們?nèi)粘I钪谐R姷恼掌?,比如人物肖像、街景、風(fēng)光等;游戲環(huán)境類別則包含了虛擬現(xiàn)實中的場景,這些圖像雖然是人工生成的,但具有高度的真實感;工業(yè)檢測類別專注于制造業(yè)中的質(zhì)量控制場景,包含了各種機械零件和產(chǎn)品的檢測圖像;航空影像類別包含了從高空拍攝的地面景觀,這類圖像常用于城市規(guī)劃和環(huán)境監(jiān)測;醫(yī)學(xué)影像類別包含了各種醫(yī)療檢查中的圖像,比如X光片、CT掃描等;合成圖像類別則包含了研究團隊特別制作的簡化圖形,用于更精確地控制變量。

在每個領(lǐng)域中,研究團隊又細(xì)分出十種不同類型的變化。屬性變化指的是物體基本特征的改變,比如顏色的深淺、大小的變化等,這就像是同一件衣服在不同光線下呈現(xiàn)出的不同色彩。狀態(tài)變化關(guān)注的是物體條件的改變,比如一個蘋果從新鮮到略微腐爛的過程,或是一個零件從完好到輕微損壞的變化。

情緒變化專門針對人臉表情的細(xì)微差別。研究團隊收集了大量的人臉圖像,這些圖像中的表情變化非常細(xì)微,有時候只是嘴角的輕微上揚或眼部肌肉的微小收縮。時間變化則考察AI能否判斷兩個場景在時間上的先后關(guān)系,比如通過觀察一個人的動作姿勢來判斷哪張圖片拍攝得更早。

空間變化關(guān)注物體位置和排列的細(xì)微調(diào)整。設(shè)想一張桌子上擺放著幾本書,在兩張幾乎相同的照片中,也許只是其中一本書的位置發(fā)生了輕微移動,AI需要能夠察覺到這種變化。存在性變化則是關(guān)于物體的出現(xiàn)或消失,但這種變化往往非常不起眼,比如一幅畫面中少了一只遠(yuǎn)處的小鳥,或是多了一個不太明顯的小物件。

數(shù)量變化考察的是物體數(shù)量的微小差異。比如在一張拍攝人群的照片中,兩張圖片可能只相差一兩個人,而且這些人可能位于圖片的邊緣或背景中,不仔細(xì)觀察很難發(fā)現(xiàn)。質(zhì)量變化關(guān)注的是圖像本身質(zhì)量的差異,比如輕微的模糊、細(xì)微的噪點或是色彩的輕微失真。

視角變化關(guān)注的是拍攝角度的細(xì)微調(diào)整。即使是同一個場景,當(dāng)相機位置發(fā)生輕微移動時,整個圖像的透視關(guān)系會發(fā)生微妙的變化。最后,動作變化專門針對人物或動物的姿勢差異,這些變化往往只涉及身體某個部位的細(xì)微調(diào)整。

為了確保測試的公平性和準(zhǔn)確性,研究團隊采用了多種數(shù)據(jù)收集和標(biāo)注方法。對于一些已有標(biāo)注信息的數(shù)據(jù)集,他們利用現(xiàn)有的標(biāo)簽信息來構(gòu)建圖像對比;對于缺乏標(biāo)注的數(shù)據(jù),他們邀請人類標(biāo)注員進(jìn)行仔細(xì)的人工標(biāo)記;在某些情況下,他們還使用了先進(jìn)的圖像編輯技術(shù)來創(chuàng)建精確控制的對比樣本。

整個測試平臺的構(gòu)建過程就像是制作一部關(guān)于細(xì)節(jié)的紀(jì)錄片,每一個圖像對比都經(jīng)過了精心的設(shè)計和驗證,確保它們既具有挑戰(zhàn)性,又反映了真實世界的應(yīng)用需求。

三、AI模型表現(xiàn)的意外真相

當(dāng)研究團隊將各種頂尖的AI模型放到這個嚴(yán)格的測試平臺上時,結(jié)果令人大開眼界。這些在其他任務(wù)中表現(xiàn)卓越的AI系統(tǒng),面對細(xì)微的視覺比較任務(wù)時,展現(xiàn)出了令人意想不到的局限性。

在開源模型中,Qwen2.5-VL-72B表現(xiàn)最為出色,達(dá)到了65.4%的準(zhǔn)確率,但這個數(shù)字與人類的95.5%相比仍有顯著差距。這就好比一個學(xué)生在簡單的數(shù)學(xué)題上能得滿分,但當(dāng)題目變得更加精細(xì)和復(fù)雜時,成績就大幅下滑了。其他開源模型的表現(xiàn)更是參差不齊,有些甚至接近隨機猜測的水平。

在商業(yè)化的閉源模型中,情況稍好一些,但依然不盡如人意。GPT-5-thinking作為表現(xiàn)最好的模型,在總體上達(dá)到了77.8%的準(zhǔn)確率,這已經(jīng)是相當(dāng)不錯的成績,但仍然與人類水平存在明顯差距。有趣的是,那些專門設(shè)計用于推理的模型,比如o3和GPT-5-thinking,在這類需要細(xì)致觀察和分析的任務(wù)中確實表現(xiàn)更好,這說明推理能力對于視覺比較任務(wù)的重要性。

更加引人深思的是不同任務(wù)類型之間的巨大表現(xiàn)差異。在情緒識別方面,AI模型的表現(xiàn)相對較好,GPT-5-thinking能達(dá)到93.1%的準(zhǔn)確率,這接近人類水平。這可能是因為人臉表情的變化相對比較標(biāo)準(zhǔn)化,而且AI模型在人臉識別方面已經(jīng)有了充分的訓(xùn)練。

然而,在時間順序判斷、空間關(guān)系理解和視角變化識別方面,AI模型的表現(xiàn)就大幅下滑了。即便是最好的模型,在這些任務(wù)上也只能達(dá)到60%左右的準(zhǔn)確率,幾乎是剛剛及格的水平。這種差距就像是一個人能夠輕松識別朋友的臉,但卻無法判斷兩張照片哪一張拍攝得更早。

研究團隊進(jìn)一步分析發(fā)現(xiàn),AI模型在不同領(lǐng)域的圖像上表現(xiàn)也存在顯著差異。在自然場景和工業(yè)檢測圖像上,模型的表現(xiàn)相對較好,但在醫(yī)學(xué)圖像和航空圖像上就表現(xiàn)不佳。這種差異可能反映了訓(xùn)練數(shù)據(jù)的分布不均,也可能說明某些領(lǐng)域的圖像具有AI模型難以理解的特殊性質(zhì)。

特別值得注意的是,當(dāng)研究團隊嘗試各種改進(jìn)策略時,效果都相當(dāng)有限。讓AI模型先進(jìn)行逐步推理再給出答案的方法確實有所幫助,但提升幅度很小。其他一些技巧,比如在圖像上添加網(wǎng)格線來幫助定位,或是將兩張圖片合并成一張來進(jìn)行比較,效果甚至還不如原始方法。

這些發(fā)現(xiàn)揭示了一個重要的事實:AI模型在視覺理解方面還存在根本性的局限。它們可能缺乏人類那種基于經(jīng)驗和直覺的細(xì)致觀察能力,也缺乏對空間和時間關(guān)系的深度理解。這就像是一個只會按照固定程序工作的機器人,面對需要靈活判斷和細(xì)致觀察的任務(wù)時就顯得力不從心。

四、深入解析AI失敗的根源

為了更深入地了解AI模型在哪些情況下會失敗,研究團隊設(shè)計了一系列精心控制的實驗。這些實驗就像是在實驗室中用顯微鏡觀察細(xì)胞一樣,通過控制單一變量來精確定位問題所在。

在合成圖像實驗中,研究團隊創(chuàng)建了大量簡化的幾何圖形場景。這些場景由基本的圓形、方形和三角形組成,背景是純白色,看起來就像兒童的繪畫練習(xí)冊。通過這種簡化的設(shè)置,研究者能夠精確控制各種影響因素,比如物體的大小、顏色變化的程度、位置移動的距離等等。

結(jié)果顯示,AI模型的表現(xiàn)高度依賴于變化的明顯程度。在顏色識別任務(wù)中,只有當(dāng)顏色變化達(dá)到25%的亮度差異時,模型才能穩(wěn)定地識別出差異。如果變化太小,比如只有5%的亮度差異,模型的表現(xiàn)就接近隨機猜測。這就好比一個人需要戴上厚厚的眼鏡才能看清楚細(xì)節(jié),而正常視力的人卻能輕松觀察到微小的變化。

在尺寸變化的識別上,AI模型表現(xiàn)出了另一個有趣的特點。它們對絕對大小的變化比對相對比例的變化更加敏感。也就是說,如果一個大物體發(fā)生了同樣程度的尺寸變化,AI更容易察覺,而小物體的變化則容易被忽略。這種特性與人類的視覺系統(tǒng)恰恰相反,人類往往更關(guān)注相對變化而不是絕對變化。

在空間位置變化的實驗中,研究團隊發(fā)現(xiàn)了一個令人意外的現(xiàn)象。AI模型對物體移動距離的判斷能力很大程度上取決于物體的大小。小物體即使移動了相對較大的距離,AI也可能察覺不到,而大物體的微小移動卻能被準(zhǔn)確識別。這就像是一個人對遠(yuǎn)處小物體的移動視而不見,但對近處大物體的輕微移動卻非常敏感。

場景復(fù)雜度對AI模型的影響也非常顯著。當(dāng)圖像中只包含少數(shù)幾個物體時,AI能夠較好地識別變化。但隨著物體數(shù)量的增加,模型的表現(xiàn)急劇下降。在包含32個以上物體的復(fù)雜場景中,AI識別細(xì)微變化的能力幾乎完全喪失,準(zhǔn)確率降到了接近隨機猜測的水平。這種現(xiàn)象類似于人類在嘈雜環(huán)境中難以專注于特定聲音的"雞尾酒會效應(yīng)",但在視覺領(lǐng)域,AI的這種局限性更加嚴(yán)重。

在視角變化的測試中,結(jié)果又出現(xiàn)了意想不到的趨勢。與直覺相反,場景越復(fù)雜,AI模型在識別視角變化方面的表現(xiàn)反而越好。這可能是因為復(fù)雜場景提供了更多的視覺參考點,幫助模型理解空間關(guān)系的變化。但即便如此,模型仍然需要相當(dāng)大的視角變化(相當(dāng)于相機移動了圖像高度的27%)才能可靠地識別出差異。

這些實驗還揭示了一個有趣的顏色偏見問題。AI模型對某些顏色的細(xì)微變化特別不敏感,尤其是綠色調(diào)。當(dāng)要求模型識別兩種相近綠色之間的差異時,其表現(xiàn)比識別紅色或藍(lán)色差異要差得多。更極端的是,對于品紅色的細(xì)微變化,有些模型的識別準(zhǔn)確率幾乎為零。這種顏色偏見可能源于訓(xùn)練數(shù)據(jù)的分布不均,也可能反映了模型在顏色表示方面的內(nèi)在局限。

所有這些發(fā)現(xiàn)都指向一個共同的結(jié)論:AI模型缺乏人類那種基于常識和經(jīng)驗的視覺理解能力。人類在觀察圖像時,會自動調(diào)用大量的背景知識和生活經(jīng)驗,而AI模型則更像是在進(jìn)行純粹的像素級比較。這種差異解釋了為什么AI在某些看似簡單的任務(wù)上會失敗,而在某些復(fù)雜任務(wù)上卻能表現(xiàn)出色。

五、尋找突破瓶頸的可能路徑

面對AI模型在細(xì)微視覺比較任務(wù)上的明顯不足,研究團隊嘗試了多種改進(jìn)策略,希望找到提升模型表現(xiàn)的有效方法。這些嘗試就像是醫(yī)生為病人試用不同的治療方案,期待找到最有效的解決方案。

首先,研究團隊測試了讓AI模型采用更加細(xì)致的推理過程。具體來說,就是要求模型在給出最終答案之前,先詳細(xì)描述它在兩張圖片中觀察到的差異。這種方法類似于讓學(xué)生在考試中展示解題過程,而不是直接給出答案。結(jié)果顯示,這種逐步推理的方法確實能帶來一定程度的改善,在大部分任務(wù)類型中都有小幅提升。有趣的是,即使在那些主要依賴視覺感知的任務(wù)中(比如顏色差異識別),逐步推理也能幫助模型做出更準(zhǔn)確的判斷。

研究團隊還嘗試了一種兩階段的處理方法。在第一階段,讓AI模型仔細(xì)分析兩張圖片之間的所有差異;在第二階段,再基于這些分析來回答具體問題。然而,這種方法的效果并不理想,甚至略有下降。原因在于模型在第一階段經(jīng)常會報告"沒有發(fā)現(xiàn)明顯差異",這種錯誤的初始判斷會影響后續(xù)的決策過程。

為了幫助AI更好地定位圖像中的關(guān)鍵區(qū)域,研究團隊開發(fā)了一種自動高亮技術(shù)。這種技術(shù)能夠分析兩張圖片的像素差異,自動識別出變化最顯著的區(qū)域,然后用綠色方框標(biāo)出這些區(qū)域,同時將其他區(qū)域調(diào)暗。這種方法就像是為AI提供了一副"放大鏡",幫助它專注于最重要的區(qū)域。實驗結(jié)果顯示,這種方法在某些類型的任務(wù)中確實有效,特別是在場景相對簡單的情況下。但在復(fù)雜場景中,由于光照變化和圖像質(zhì)量差異的干擾,自動高亮經(jīng)常會標(biāo)錯位置,反而誤導(dǎo)了模型的判斷。

研究團隊還嘗試了多種圖像預(yù)處理技術(shù)。其中一種方法是將兩張圖片水平拼接成一張長圖,讓AI同時觀察兩個場景。另一種方法是將兩張圖片進(jìn)行像素級的混合,創(chuàng)建一張"重影"圖像來突出差異。第三種方法是計算兩張圖片的差分圖像,生成一張黑白圖片來顯示變化區(qū)域。

然而,這些技術(shù)性的改進(jìn)大多效果有限,有些甚至產(chǎn)生了負(fù)面影響。將兩張圖片拼接的方法在大多數(shù)任務(wù)中都導(dǎo)致了性能下降,這說明AI模型可能缺乏處理這種復(fù)合圖像的能力。圖像混合和差分技術(shù)只在特定類型的任務(wù)中有所幫助,比如在靜態(tài)場景中識別物體的移動或增減。

最有啟發(fā)性的發(fā)現(xiàn)來自于模型訓(xùn)練的改進(jìn)實驗。研究團隊使用測試集的一部分?jǐn)?shù)據(jù)對開源模型進(jìn)行了微調(diào)訓(xùn)練。結(jié)果顯示,即使是相對較小規(guī)模的針對性訓(xùn)練,也能帶來顯著的性能提升。經(jīng)過微調(diào)的模型在各種任務(wù)類型上都有明顯改善,特別是在物體存在性判斷、數(shù)量比較和質(zhì)量評估方面。這表明AI模型具備學(xué)習(xí)細(xì)微視覺比較技能的潛力,關(guān)鍵在于提供合適的訓(xùn)練數(shù)據(jù)和訓(xùn)練方法。

然而,即使采用了最佳的改進(jìn)策略,AI模型與人類表現(xiàn)之間仍然存在顯著差距。這說明問題的根源可能比簡單的技術(shù)改進(jìn)更深層。AI模型可能需要更根本性的架構(gòu)改進(jìn),或是完全不同的訓(xùn)練范式,才能真正掌握人類水平的細(xì)致觀察能力。

六、現(xiàn)實應(yīng)用中的深遠(yuǎn)影響

這項研究的發(fā)現(xiàn)對于AI技術(shù)在現(xiàn)實世界中的應(yīng)用具有重要的指導(dǎo)意義。在許多關(guān)鍵領(lǐng)域中,對細(xì)微差異的準(zhǔn)確識別不僅僅是性能優(yōu)化的問題,更是關(guān)系到安全性和可靠性的核心要求。

在醫(yī)療診斷領(lǐng)域,這種局限性的影響最為直接和嚴(yán)重。醫(yī)生在閱讀醫(yī)學(xué)影像時,經(jīng)常需要比較同一患者在不同時間點的檢查結(jié)果,尋找病情的細(xì)微變化。比如在癌癥監(jiān)測中,腫瘤大小的微小變化可能意味著治療效果的好壞;在心血管疾病診斷中,血管壁厚度的細(xì)微差異可能預(yù)示著疾病的進(jìn)展。如果AI輔助診斷系統(tǒng)無法可靠地識別這些細(xì)微變化,就可能錯過重要的診斷信息,甚至導(dǎo)致誤診。

在工業(yè)質(zhì)量控制方面,情況同樣嚴(yán)峻?,F(xiàn)代制造業(yè)對產(chǎn)品質(zhì)量的要求越來越高,微小的缺陷可能導(dǎo)致整個產(chǎn)品的失效。在半導(dǎo)體制造中,硅片表面幾乎看不見的劃痕可能影響芯片的性能;在航空航天工業(yè)中,零部件的微小裂紋可能導(dǎo)致災(zāi)難性的后果。AI視覺檢測系統(tǒng)如果缺乏足夠的細(xì)致觀察能力,就無法勝任這些高精度的質(zhì)量控制任務(wù)。

在安全監(jiān)控和軍事應(yīng)用中,對細(xì)微變化的識別同樣至關(guān)重要。監(jiān)控系統(tǒng)需要能夠察覺到監(jiān)控區(qū)域內(nèi)的異常變化,比如圍欄的輕微移動、植被的異常變化,或是人員行為的細(xì)微異常。在軍事偵察中,衛(wèi)星圖像的細(xì)微變化可能反映敵方設(shè)施的建設(shè)或軍事部署的調(diào)整。這些應(yīng)用都要求AI系統(tǒng)具備超越當(dāng)前水平的細(xì)致觀察能力。

然而,這項研究也為AI技術(shù)的改進(jìn)指明了方向。研究結(jié)果表明,通過針對性的訓(xùn)練數(shù)據(jù)收集和模型優(yōu)化,AI系統(tǒng)的細(xì)微視覺比較能力是可以得到改善的。這為相關(guān)技術(shù)的發(fā)展提供了明確的路線圖。

在短期內(nèi),這些發(fā)現(xiàn)提醒我們在部署AI視覺系統(tǒng)時需要更加謹(jǐn)慎。在那些需要精確視覺判斷的關(guān)鍵應(yīng)用中,人類專家的作用仍然不可替代。AI系統(tǒng)更適合作為輔助工具,幫助人類專家處理大量的初步篩查工作,而最終的精確判斷仍需要人類來完成。

從長遠(yuǎn)來看,這項研究為AI技術(shù)的發(fā)展提出了新的挑戰(zhàn)和目標(biāo)。未來的AI視覺系統(tǒng)需要具備更加精細(xì)的觀察能力,能夠像人類專家一樣進(jìn)行細(xì)致入微的比較分析。這可能需要在模型架構(gòu)、訓(xùn)練方法和數(shù)據(jù)收集等多個方面進(jìn)行根本性的創(chuàng)新。

此外,研究還揭示了AI模型評估體系的重要性。傳統(tǒng)的AI評估往往關(guān)注那些差異明顯的簡單任務(wù),這種評估方式可能高估了AI系統(tǒng)的實際能力。建立更加貼近實際應(yīng)用需求的評估標(biāo)準(zhǔn),對于推動AI技術(shù)的健康發(fā)展具有重要意義。

說到底,這項研究讓我們更清楚地認(rèn)識到,盡管AI技術(shù)在許多領(lǐng)域都取得了令人矚目的進(jìn)展,但在模擬人類細(xì)致觀察能力這一基本技能上,還有很長的路要走。這種認(rèn)知不僅有助于我們更理性地看待AI技術(shù)的現(xiàn)狀,也為未來的技術(shù)發(fā)展指明了重要的方向。對于普通人而言,這意味著在可預(yù)見的未來,人類在需要精細(xì)判斷和細(xì)致觀察的工作中仍將發(fā)揮不可替代的作用。同時,這也提醒我們在使用AI技術(shù)時要保持適當(dāng)?shù)闹?jǐn)慎態(tài)度,特別是在那些關(guān)系到安全和健康的重要應(yīng)用中。

Q&A

Q1:VLM-SubtleBench是什么樣的測試平臺?

A:VLM-SubtleBench是由KRAFTON和KAIST聯(lián)合開發(fā)的AI視覺測試平臺,專門用來評估AI模型識別圖像間微妙差異的能力。它包含13000組看似相同但存在細(xì)微差別的圖像對,涵蓋自然場景、工業(yè)檢測、醫(yī)學(xué)影像等六個領(lǐng)域,以及屬性、狀態(tài)、情緒等十種不同類型的變化。

Q2:當(dāng)前最先進(jìn)的AI視覺模型在細(xì)微差異識別上表現(xiàn)如何?

A:即使是最好的AI模型GPT-5-thinking也只能達(dá)到77.8%的準(zhǔn)確率,遠(yuǎn)低于人類的95.5%。在空間推理、時間序列判斷和視角變化識別等方面,AI模型比人類表現(xiàn)低30多個百分點,顯示出明顯的能力局限。

Q3:AI模型在細(xì)微視覺比較上的失敗會影響哪些實際應(yīng)用?

A:這種局限會影響醫(yī)療診斷中的病情監(jiān)測、工業(yè)質(zhì)量控制中的缺陷檢測、安全監(jiān)控中的異常識別等關(guān)鍵應(yīng)用。在這些需要精確視覺判斷的領(lǐng)域,AI系統(tǒng)目前還無法完全替代人類專家,只能作為輔助工具使用。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
《妻子的浪漫旅行8》錄制路透,金莎孫丞瀟牽手,秦昊伊能靜撒糖

《妻子的浪漫旅行8》錄制路透,金莎孫丞瀟牽手,秦昊伊能靜撒糖

章眽八卦
2026-03-14 19:34:29
今年春季,事業(yè)像開掛一樣飆升的三個星座,升職加薪只是開始

今年春季,事業(yè)像開掛一樣飆升的三個星座,升職加薪只是開始

小晴星座說
2026-03-14 19:34:17
同濟醫(yī)院核磁共振事故:患者不能自己脫困嗎

同濟醫(yī)院核磁共振事故:患者不能自己脫困嗎

金牌娛樂
2026-03-14 09:31:27
宮魯鳴若下課,女籃新帥3選1,王治郅在列,57歲名宿解禁成熱門

宮魯鳴若下課,女籃新帥3選1,王治郅在列,57歲名宿解禁成熱門

萌蘭聊個球
2026-03-14 14:44:40
陳立夫:從高官到雞農(nóng),58歲患糖尿病,活102歲的長壽秘訣是什么

陳立夫:從高官到雞農(nóng),58歲患糖尿病,活102歲的長壽秘訣是什么

林雁飛
2026-03-06 14:35:14
哈馬斯呼吁伊朗不要將襲擊目標(biāo)對準(zhǔn)鄰國

哈馬斯呼吁伊朗不要將襲擊目標(biāo)對準(zhǔn)鄰國

新華社
2026-03-14 18:14:07
擊落美軍加油機?B-1B轟炸機對伊朗扔炸彈,以色列財長之子受重傷

擊落美軍加油機?B-1B轟炸機對伊朗扔炸彈,以色列財長之子受重傷

鷹眼Defence
2026-03-13 17:40:40
1944年,宋氏三姐妹拍了最后一張照片后,天各一方,相會無期

1944年,宋氏三姐妹拍了最后一張照片后,天各一方,相會無期

浩渺青史
2026-03-13 19:38:07
比安東尼還坑!曼聯(lián) 5000 萬新水貨,弗格森后最爛引援!

比安東尼還坑!曼聯(lián) 5000 萬新水貨,弗格森后最爛引援!

瀾歸序
2026-03-14 04:18:00
她果然沒離,畢竟400億資產(chǎn)的男人也不多?。?>
    </a>
        <h3>
      <a href=她果然沒離,畢竟400億資產(chǎn)的男人也不多啊! BenSir本色說
2026-03-11 22:06:22
貴州茅臺董秘蔣焰嚴(yán)重違紀(jì)違法被留置 此前已被“帶走”

貴州茅臺董秘蔣焰嚴(yán)重違紀(jì)違法被留置 此前已被“帶走”

21世紀(jì)經(jīng)濟報道
2026-03-13 21:14:12
伊朗最大的內(nèi)鬼被處決了

伊朗最大的內(nèi)鬼被處決了

犀利辣椒
2026-03-13 06:40:38
8次搶斷,劉洋刷新山東泰山隊史球員中超單場搶斷紀(jì)錄

8次搶斷,劉洋刷新山東泰山隊史球員中超單場搶斷紀(jì)錄

懂球帝
2026-03-14 18:17:53
廣東男籃本賽季消失的“七位故人”!他們都在哪?過的還好嗎?

廣東男籃本賽季消失的“七位故人”!他們都在哪?過的還好嗎?

男足的小球童
2026-03-14 19:37:29
1萬5起價 蘋果iPhone Fold計劃銷量上調(diào)20%

1萬5起價 蘋果iPhone Fold計劃銷量上調(diào)20%

PChome電腦之家
2026-03-13 11:21:45
新版《呼嘯山莊》“一刀未剪”,海報標(biāo)注“未成年人謹(jǐn)慎觀看”

新版《呼嘯山莊》“一刀未剪”,海報標(biāo)注“未成年人謹(jǐn)慎觀看”

韓小娛
2026-03-14 07:31:32
大批美國游客涌入中國,回國后坦言:客觀對比,中國比美國強多了

大批美國游客涌入中國,回國后坦言:客觀對比,中國比美國強多了

燦若銀爛
2026-02-27 20:11:39
太善良!王藝迪4比3險勝申裕斌,接受采訪擔(dān)心申裕斌是不是受傷

太善良!王藝迪4比3險勝申裕斌,接受采訪擔(dān)心申裕斌是不是受傷

鳳幻洋
2026-03-14 14:30:08
中國女足艱難晉級!媒體人熱議:衛(wèi)冕提前結(jié)束,米帥注定是恥辱

中國女足艱難晉級!媒體人熱議:衛(wèi)冕提前結(jié)束,米帥注定是恥辱

奧拜爾
2026-03-14 15:48:55
西部排名又變了:火箭超越湖人,快船高歌猛進(jìn),勇士岌岌可危

西部排名又變了:火箭超越湖人,快船高歌猛進(jìn),勇士岌岌可危

籃球大視野
2026-03-14 17:26:40
2026-03-14 20:11:00
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
7585文章數(shù) 555關(guān)注度
往期回顧 全部

科技要聞

xAI創(chuàng)始伙伴只剩兩人!馬斯克“痛改前非”

頭條要聞

霍爾木茲海峽上周末僅4艘船通過 繞行要多走5500公里

頭條要聞

霍爾木茲海峽上周末僅4艘船通過 繞行要多走5500公里

體育要聞

NBA唯一巴西球員,增重20KG頂內(nèi)線

娛樂要聞

張藝興,犯了大忌

財經(jīng)要聞

3·15影子暗訪|神秘的“特供酒”

汽車要聞

吉利銀河M7技術(shù)首秀 實力重構(gòu)主流電混SUV

態(tài)度原創(chuàng)

時尚
教育
家居
房產(chǎn)
軍事航空

審美提升|| 來和時髦尖子生學(xué)幾招

教育要聞

“十五五”規(guī)劃綱要明確,有序推進(jìn)小班化教學(xué)

家居要聞

藝術(shù)之家 法式優(yōu)雅

房產(chǎn)要聞

不容易?。『?诮K于又要賣地了!

軍事要聞

特朗普宣布空襲伊石油出口樞紐哈爾克島

無障礙瀏覽 進(jìn)入關(guān)懷版