国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

AI看不懂的色盲測試背后,藏著一場像素與詩意的戰(zhàn)爭。

0
分享至

AI,是色盲嗎?

這個問題聽起來很蠢。

畢竟現(xiàn)在的AI能識別人臉、讀懂圖片、生成圖像,甚至可以按RGB色值給你改顏色。

怎么可能是色盲,看不見顏色呢?

但最近發(fā)生的一件事,讓我開始開始覺得,這事不對。。。

昨天正好在辦公室和同事閑聊,聊到了顏色,我們剛來的實習生小朋友說,說他是紅綠色盲,然后我們的話題,就不知道怎么就聊到了色盲測試。

在現(xiàn)場找了幾張圖一起測試,

就那種一堆小點點里藏數(shù)字的圖。


能看到的兄弟們可以把數(shù)字回復(fù)在公屏上。

我們那個實習生小朋友,居然真的有看不見的。

當時大家還挺歡樂的,說,要不然,發(fā)給AI看看。

然后我們就發(fā)了,本來覺得,這么明顯的數(shù)字,對現(xiàn)在這種級別的AI來說,肯定就是送分題。

畢竟都一群AI都有自己的社區(qū),都可以開AI宗教招收信徒了,一個色盲測試那不是小兒科嗎。

沒想到。

現(xiàn)在最能打的多模態(tài)模型Gemini 3 Pro,居然給我回了個74???

我當時我都以為我色盲了。

我揉了揉眼睛,又看了好幾遍。

不對啊,這圖里的,絕壁是45。。。

我反手又試了一下Claude Opus 4.5。

結(jié)果,Claude給我回了個,8???


三個國產(chǎn)大模型,更是也都敗下陣來。

而且有兩個,答案一模一樣,也是74。


唯一一個答對的,是GPT 5.2 Thinking,花了5分鐘世界,我看了一下思維鏈,發(fā)現(xiàn)這玩意是純純用代碼作弊的。。。


硬生生的做了可視化數(shù)字掩膜。

我都懵了,這真的是一個非常無意中的發(fā)現(xiàn)。

人類色盲看不出來,我能理解,這是生物學的事。

就像下圖,同一把彩虹傘、同一個紅綠燈,正常人眼里色彩斑斕。

但在色盲眼里卻像開了濾鏡,根本分不清。


可AI看不出來,我就很難解釋。

它又沒有視網(wǎng)膜,也沒有什么缺陷,為什么會在這種題上翻車?

難道是因為分不清顏色?

我又很智障地去問Gemini 3 pro這張圖是什么顏色。


結(jié)果,這大哥它不僅能回答我的問題。

也能說很具體,鼠尾草綠、豆沙綠、青瓷色。

甚至特么的RGB和CMYK都給我寫出來了。


我去一個軟件里試了下,尼瑪,色號分毫不差啊。。。

所以問題不在顏色本身。

分辨紅綠藍,甚至區(qū)分細微的色差,對AI來說都不難。

難的是其他事。

我當時,陷入了深深的思考。

那一瞬間,Clawdot和vibe coding都不香了,就想搞清楚這到底是為什么。

我花了將近一天的時間做DeepResearch、翻論文。

翻了很多東西我都感覺不是很相關(guān),甚至感覺都有點牽強。

但就在我想放棄的時候,晚上,我查到了一篇,那一瞬間我感覺柳暗花明又一村了。

我也好像明白,AI為什么做不出來色盲測試題了。

論文名字還挺好玩。


叫《Pixels,Patterns,but No Poetry:To See The World like Humans》。

翻譯過來是《像素、模式,但缺少詩意:像人類一樣看世界》。

名字看著雖然跟色盲沒啥關(guān)系,但是里面的結(jié)論和實驗,非常的相關(guān)。

先說結(jié)論:

現(xiàn)在的AI,根本就不是像我們?nèi)祟愐粯釉凇翱础笔澜纭?/strong>

它只是,在計算世界。

它能處理像素,能識別局部模式,但它無法理解這些像素和模式組合在一起后,涌現(xiàn)出的那個整體的、抽象的、富有美感和意義的東西,也就是論文標題里的“詩意”(Poetry)。

聽著好像有點難理解,我覺個例子你就懂了。

先看這張圖,別急著往下翻。

這是一張圖里面的一個我截出來的局部,現(xiàn)在,請你告訴我,覺得通過這張圖來分析,它原來的完整的圖是什么?


我覺得一個腦子正常的人,看到這個問題和這張圖,他都會揍我,都會罵我有病。

說真的,那個人但凡多看我一眼都算我輸。

那我們,現(xiàn)在再把畫面推遠一點,給你多看點。

你可能還是會懵逼,這尼瑪是個啥?但是,又模模糊糊的看到了一些家具的影子。


通過這張圖,你還是不太可能猜出,真正的圖是什么樣子的。

那現(xiàn)在,我們把真正的全圖放出來。

補上它的全局再看看。

剛才我截圖的局部,為了防止大家找不到這個地方,我還貼心的畫了一個大箭頭= =


大家是不是第一眼甚至都沒找到那玩意在哪。

這所謂的不可名狀的白色線條,其實只是最右側(cè)柜子上的一道高光。

你只看局部,又怎么可能真正的,看清全局。

就像,斷章取義,出自:不要斷章取義。

而這,就是AI現(xiàn)在的弊端。

我們再回頭看那張色盲測試圖。


對我們?nèi)祟悂碚f,我們看到的,直接就是全局,不是局部,更不是一堆棕色和綠色的圓點,我們的大腦瞬間就將那些顏色相近的棕色點組織成了一個有意義的整體,也就是數(shù)字“45”。

而剩下的綠色點,則自動被我們的大腦識別為背景噪音。

這是因為,我們?nèi)祟惪磮D,從來第都是自上而下。

認知心理學里一個非常重要的流派,叫格式塔心理學,也是現(xiàn)代人機交互學科的奠基理論之一,它的核心觀點也就一句話:

整體大于部分之和。

一堆零碎的東西,只要有點規(guī)律,比如離得近、顏色像、走向一致,我們就會不講道理地把它們當成一個整體來看。


比如你看下面這張圖,你看到了什么?


你在認真看了兩眼之后,你大概率不會說,我看到了一堆不規(guī)則的黑色墨跡。

而是會說:我好像看到了一只狗,如果你對狗的品種有一些了解的話,你可能還會說,我看到了一只大麥町犬。

這只狗的形象,其實并不存在于任何一個單獨的墨跡里。

它是所有墨跡組合在一起后,在你大腦里“涌現(xiàn)”出來的一個整體概念。

你的大腦自動忽略了那些不重要的斑點,腦補了缺失的輪廓,最終看到了那只探頭探腦的大麥町犬。

這個腦補和看整體的能力,就是格式塔。

這是我們?nèi)祟愐曈X系統(tǒng)與生俱來的、底層的、幾乎是本能的能力。

但AI不是這樣的。

論文為了驗證這件事,做了一個測試,叫圖靈視力測試(TET)。

就像當年圖靈測試是為了驗證機器能不能像人一樣思考,這個圖靈視力測試,是為了驗證機器能不能像人一樣感知視覺。

里面有四個任務(wù),分別是隱藏文本、3D驗證碼、漢字組成。

以及我們今天文章的主角,色盲測試。


他們參考了石原色盲測試圖的形式,就是文章開頭那一堆彩色小點里藏數(shù)字的圖。

并且,還增加了難度。

用一些顏色非常接近的點來進行干擾,讓模型更難從整體形狀里看出數(shù)字。


用這些圖去測當時最頂級的15個多模態(tài)大模型。

結(jié)果可以從這張表格看出來,密密麻麻的0。

幾乎是全軍覆沒。


我猜他們這幫人也很驚訝。

模型怎么就識別不了顏色中的數(shù)字呢?

為了找到答案,他們首先想搞清楚:AI到底在看什么?

他們用了一個技術(shù),叫Grad-CAM(梯度加權(quán)類激活映射)。

這個東西光讀名字就很拗口,我用大白話給大家解釋下。

可以把它理解為給AI的思考過程拍個X光,讓你能看見它的眼睛到底在盯哪里,注意力落在什么地方。

如下圖,顏色越亮,發(fā)黃光的地方,是模型最在意的地方,就是對目前答案貢獻最大的區(qū)域。


我知道這張圖看著還是有點難理解,手動又用紅色單獨處理了一下。

紅色是AI盯著看的區(qū)域,就是注意力落點的位置。


通過這個技術(shù),就能驗證,AI到底是在看數(shù)字的輪廓,還是被周圍的噪點給帶偏了。

現(xiàn)在,我們把AI,看整個過程的圖都放出來,也就是論文里,論文里拿了一張寫著“M3”的色盲測試圖,讓模型去認。然后用Grad-CAM把AI“看”這張圖的過程給全程直播了出來。


得先說一下,一個多模態(tài)AI的內(nèi)部工作流,可以簡單粗暴地分成兩部分:

ViT (Vision Transformer):是負責看圖的視覺編碼器,可以理解成是AI的眼睛,主要是通過看圖,把看到的東西轉(zhuǎn)化成信息。

LLM (Large Language Model) :是負責組織答案的語言端,可以理解成是AI的大腦,主要是接收ViT(眼睛)傳來的信息,思考組織后說出答案。

你會看到,每個階段都有一些亮度變化。

比如第五張圖里,其實能看到模型捕捉到了一點M3的影子。

然后就徹底遠離了正確答案。

往后看,亮的地方越來越分散。

結(jié)果當然是慘不忍睹的。

大腦收到的,就是一堆被眼睛看到的破碎的毫無重點的視覺信號。它拼了命地想從這堆垃圾信息里找出點規(guī)律,但根本找不到。

最后,它只能放棄治療,在記憶庫里隨便抓了個看起來最像的答案“74”,然后硬著頭皮說了出來。

所以,通過這個Grad-CAM的熱力圖,論文的作者們基本就破案了:

AI不是看不懂,它是從一開始看的方式就有大問題。

這就回到了我們開頭那個柜子高光的例子。

AI看圖的方式,存在一個根本性的、可以說是娘胎里帶的缺陷,就是它看圖,是真的斷章取義。

現(xiàn)在的AI視覺模型(ViT),它的工作原理,就是先把一張圖片,不由分說地切成一堆比如說是16x16像素的小方塊(patches),就像切蛋糕一樣。然后,它挨個去分析每個小方塊里有什么紋理、什么顏色。

最后,再試圖把這些小方塊的分析結(jié)果給拼湊起來,理解整張圖。

這個“先切碎,再拼湊”的工作模式,決定了它是個天生的細節(jié)控。它對局部的像素和模式極其敏感,但對這些部分組合起來形成的那個整體,卻極其遲鈍。

人類看東西時,大腦會先并行處理各種特征,比如顏色、形狀、方向。

接著在注意力的作用下,把這些特征綁在一起,變成一個完整對象。

比如,你看到一個紅色的蘋果,大腦會先看到它是到紅色的、圓的、表面光滑的。


通過注意力的整合,大腦給它貼上蘋果這個標簽。

這個叫做特征整合理論。

我們?nèi)祟惖囊曈X,是主動的、有目的的、懂得取舍的。 我們會用注意力這把刀,精準地剔除無關(guān)的噪音,然后把有用的特征縫合成一個整體。

但是AI不會。

它的注意力是攤大餅式的,是被動的,是雨露均沾的。

在它看來,構(gòu)成數(shù)字“45”的那些棕色點,和作為背景的綠色點,重要性是差不多的,它無法形成一個“我要把棕色點組合起來”的宏觀目標。

于是,它的注意力就被海量的、同等重要的像素點給稀釋了、沖散了。信息越豐富,它的注意力就越貧乏。

最后,就在這片像素的汪洋大海里,徹底迷失了方向。

所以,你看,我們和AI看見世界的方式,從根上就不同。

我們在選擇中看見,AI在計算中迷失。

聊到這里,我們似乎可以給開頭那個問題一個更準確的答案了。

AI不是我們真正意義上的色盲。

它更像是一個患有嚴重“注意力缺失癥”的患者。

它擁有頂級的視網(wǎng)膜,能識別精準的RGB值,但它的大腦無法有效地指揮這雙眼睛,去關(guān)注真正重要的東西。

它就像一個擁有全世界所有樂高積木的孩子,卻不知道該如何拼出一個城堡。它只能呆呆地看著滿地的零件,給你數(shù)出這里有幾塊紅的,幾塊藍的。

這就是《像素、模式,但缺少詩意》這篇論文真正想表達的東西。

那個“詩意”,那個“格式塔”,那個“整體”,并不是某種神秘的、玄學的東西,它其實就是一種高效的、懂得取舍的信息組織方式。

而這,恰恰好像是目前的AI,最最缺乏的東西。

它在模仿人類的智商,但還沒來得及學習人類的智慧。

而智慧的本質(zhì),在我看來,不就是知道該看什么,不該看什么嗎?

知道什么不該做,遠比知道什么該做,更為重要。

不過,我還有最后一個問題。

就是,為啥只要一讓大模型做色盲測試,他們總是愛回答一個數(shù),那就是:

74。

我做了一天的測試,現(xiàn)在看到74這個數(shù)字,都有點PTSD了。

在最后,我又搜了半天,居然還給我找到了答案。

那就是,如果你在維基百科上搜石原色盲測試的標準圖。

上面的數(shù)字,就是74。


好家伙,原來又在這背書。。。

當AI無法從細節(jié)提取出整體的全局時,它就會參考已有的細節(jié),轉(zhuǎn)向記憶。

更直白點說,它會背答案。

跟我之前寫過的那篇,底層邏輯幾乎一樣。

有時候真的還挺感慨,人類這個大自然最神奇的造物,還真是挺美妙的。

就連看見這事本身,它也是從光開始的。

所以無論是中國的盤古開天辟地還是西方的上帝造物, 這些神話故事中的世界都是從光打破黑暗展開。

光射到不同的物體上,有些波長被吸收,有些被反射。

我們只能看見被反射出來的光,那些被吸收的光我們永遠看不到。

反射的光進入我們的眼睛后,經(jīng)過視網(wǎng)膜上的細胞處理,大腦才給它賦予了紅色、藍色、綠色這些概念。

所以說,世上本沒有顏色。

它不是客觀存在的物理屬性,它是人類視覺系統(tǒng)和大腦共同選擇的主觀感受和認知體驗。

更是,我們的意識理解世界的方式。

我們也終究是活在關(guān)系里的生物。

我們看事物也從來不是孤立的點,是點與點之間連成的線,線與線之間圍成的面,面與面之間涌現(xiàn)的詩。

AI的世界,一直都很像一片無垠的像素之海。

每一滴水,它都可以分析得清清楚楚,成分、溫度、折光率,了如指掌。

但它卻從未見過潮汐,也無法理解風暴,更不懂得,為何我們會對著一片汪洋,心生敬畏。

它總是在那個像素的海洋里,背誦著那如同宇宙真理一般的孤獨的“74”。

而我們。

只需抬頭,便能看見滿天星辰。

以上,既然看到這里了,如果覺得不錯,隨手點個贊、在看、轉(zhuǎn)發(fā)三連吧,如果想第一時間收到推送,也可以給我個星標?~謝謝你看我的文章,我們,下次再見。

>/ 作者:卡茲克、可達

>/ 投稿或爆料,請聯(lián)系郵箱:wzglyay@virxact.com

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
王楚欽擊敗林昀儒奪冠,賽后居然對王皓吐槽,說了三個字讓人心疼

王楚欽擊敗林昀儒奪冠,賽后居然對王皓吐槽,說了三個字讓人心疼

胡一舸南游y
2026-03-02 19:15:45
清華建筑學課改,快變成計算機系了!

清華建筑學課改,快變成計算機系了!

黯泉
2026-03-02 21:20:11
為何美以的斬首戰(zhàn)術(shù)如此犀利?“獵殺時代來臨”

為何美以的斬首戰(zhàn)術(shù)如此犀利?“獵殺時代來臨”

高博新視野
2026-03-01 16:33:28
幾塊錢的維生素B2,竟是高血壓克星?提醒:還有助改善性生活

幾塊錢的維生素B2,竟是高血壓克星?提醒:還有助改善性生活

橘子約定
2026-02-27 09:33:19
霍爾木茲海峽航運受阻,國際油價暴漲13%!川籍船員親歷:數(shù)百船只滯留波斯灣,一貨輪上有十余名中國船員

霍爾木茲海峽航運受阻,國際油價暴漲13%!川籍船員親歷:數(shù)百船只滯留波斯灣,一貨輪上有十余名中國船員

封面新聞
2026-03-02 22:17:16
他們想讓這條視頻消失,結(jié)果全網(wǎng)都在看

他們想讓這條視頻消失,結(jié)果全網(wǎng)都在看

文立于塵
2026-03-01 18:16:43
伊朗革命衛(wèi)隊宣布大規(guī)模軍事行動

伊朗革命衛(wèi)隊宣布大規(guī)模軍事行動

界面新聞
2026-02-28 18:18:55
男子高鐵商務(wù)座車廂內(nèi)抽煙,還脫鞋將雙腳架在車窗處,12306客服回應(yīng):全列禁煙,遇到可舉報

男子高鐵商務(wù)座車廂內(nèi)抽煙,還脫鞋將雙腳架在車窗處,12306客服回應(yīng):全列禁煙,遇到可舉報

都市快報橙柿互動
2026-03-02 12:56:36
美駐日大使:如果中國不按美國的意愿行事,就讓十四億人陷入饑荒

美駐日大使:如果中國不按美國的意愿行事,就讓十四億人陷入饑荒

荊楚寰宇文樞
2025-09-28 21:58:22
美經(jīng)濟學家:美國出現(xiàn)了嚴重戰(zhàn)略誤判,壓根沒料到中國會這么強大

美經(jīng)濟學家:美國出現(xiàn)了嚴重戰(zhàn)略誤判,壓根沒料到中國會這么強大

樂天閑聊
2025-12-01 10:29:34
49歲林心如斷崖式衰老,當年的紫薇格格也老了,臉變長 抬頭紋好多

49歲林心如斷崖式衰老,當年的紫薇格格也老了,臉變長 抬頭紋好多

陳意小可愛
2026-03-01 00:49:59
曝網(wǎng)紅辛巴美國發(fā)生車禍!紅色氣囊彈出,體態(tài)發(fā)福多位美女相伴

曝網(wǎng)紅辛巴美國發(fā)生車禍!紅色氣囊彈出,體態(tài)發(fā)福多位美女相伴

裕豐娛間說
2026-03-02 08:53:35
巴基斯坦股市下跌9.6%,觸發(fā)交易停盤

巴基斯坦股市下跌9.6%,觸發(fā)交易停盤

每日經(jīng)濟新聞
2026-03-02 12:26:27
“91女神”琪琪堪稱該系列知名度最高的女生,男方只給自己打碼

“91女神”琪琪堪稱該系列知名度最高的女生,男方只給自己打碼

挪威森林
2026-03-02 14:18:46
今天最尷尬是藍盈瑩,竟和蔡文靜撞衫了,撞衫不可怕,誰丑誰尷尬

今天最尷尬是藍盈瑩,竟和蔡文靜撞衫了,撞衫不可怕,誰丑誰尷尬

鄉(xiāng)野小珥
2026-03-02 19:43:42
伊朗導(dǎo)彈摧毀美軍雷達中心,讓中國明白:解放軍武器布局走對路

伊朗導(dǎo)彈摧毀美軍雷達中心,讓中國明白:解放軍武器布局走對路

胖福的小木屋
2026-03-02 15:32:29
掃地出門!曝曼聯(lián)決定出售兩大主力!1.45億強援強勢“空降”

掃地出門!曝曼聯(lián)決定出售兩大主力!1.45億強援強勢“空降”

頭狼追球
2026-03-02 09:34:35
國際原子能機構(gòu)總干事表示未發(fā)現(xiàn)伊朗核武制造計劃

國際原子能機構(gòu)總干事表示未發(fā)現(xiàn)伊朗核武制造計劃

新華社
2026-03-03 00:07:12
打人夫妻“社會性死亡”!村民曝更多黑幕,不止群毆女孩這么簡單

打人夫妻“社會性死亡”!村民曝更多黑幕,不止群毆女孩這么簡單

夢錄的西方史話
2026-03-02 16:27:56
沒想到竟然這么多工作需要保密的!網(wǎng)友:不讓看非看被一槍斃了

沒想到竟然這么多工作需要保密的!網(wǎng)友:不讓看非看被一槍斃了

另子維愛讀史
2025-12-08 20:58:22
2026-03-03 00:44:49
數(shù)字生命卡茲克 incentive-icons
數(shù)字生命卡茲克
反復(fù)橫跳于不同的AI領(lǐng)域,努力分享一些很酷的AI干貨
465文章數(shù) 553關(guān)注度
往期回顧 全部

科技要聞

蘋果中國官網(wǎng)上線iPhone 17e,4499元起

頭條要聞

媒體:拉里賈尼走向前臺 四大關(guān)鍵變量將決定伊朗命運

頭條要聞

媒體:拉里賈尼走向前臺 四大關(guān)鍵變量將決定伊朗命運

體育要聞

“想要我簽名嗎” 梅西逆轉(zhuǎn)后嘲諷對手主帥

娛樂要聞

李亞鵬與哥哥和解 只有一條真心話短信

財經(jīng)要聞

油價飆升 美伊沖突將如何攪動全球經(jīng)濟

汽車要聞

國民SUV再添一員 瑞虎7L靜態(tài)體驗

態(tài)度原創(chuàng)

數(shù)碼
房產(chǎn)
教育
藝術(shù)
游戲

數(shù)碼要聞

高通MWC 2026發(fā)布多項通信技術(shù),定檔2029年開啟6G商用

房產(chǎn)要聞

方案突然曝光!??诒睅煷蟾叫?,又有書包大盤殺出!

教育要聞

特別猛,但在留學生心中存在感很低的英國大學!

藝術(shù)要聞

這四位老人的花鳥畫,竟讓人欲罷不能!

《寶可夢》新作M站90分!近年最新鮮的寶可夢體驗

無障礙瀏覽 進入關(guān)懷版