国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

AI畫不出的左手,是因為我們給了它一個偏科的童年。

0
分享至

昨天刷到了一條非常有意思的推特。

是我關(guān)注的一個博主,Howie.Serious發(fā)的。

他發(fā)了一個很有趣的點(diǎn),就是即使是世界上現(xiàn)在最牛逼的NanoBananaPro,在世界知識如此屌爆的情況下,AI,還是沒有辦法生成左手寫字的圖片。


這事特別有意思。

我立馬用Gemini上的NanoBananPro試了下。

果然翻車了,而且是非常穩(wěn)定的翻車。


我又直接用Lovart跑了十幾種張圖,只對了2次,其他的,全錯。


我又去試了其他的大模型,包括chatgpt、seedream,grok,也在這個小小的提示詞上全軍覆沒。


刷刷刷給我生成了一堆右手,讓我都有點(diǎn)混亂了,我那一瞬間都在懷疑是不是我自己分不清左右了。。。

我又嘗試了一些進(jìn)階版。

比如,右手拿著蘋果左手寫字。

這個已經(jīng)非常明確了吧,我已經(jīng)給他做限制了。

還是會生成右手寫字左手拿蘋果的圖。。。


GPT直接給我玩鬼畜了。


甭管是誰,就算是蜘蛛俠來了也沒用,也得用右手。。。


非常的倔強(qiáng)。。。

在好奇之下,我又試了一些其他的case。

比如,讓一個人左手拿著橘子右手拿著蘋果。


翻車。

穿個不同顏色的寫字,翻車。。。


左手舉起魔法棒,翻車。


左手拎著一只雞,右手拎著大高達(dá),翻車。


全都翻車,翻了個大車。

至此,確實發(fā)現(xiàn),AI完全分不清左右手和左右腳。

但是,如果你讓他去純粹的畫空間關(guān)系,確實是沒啥問題。


但只要一涉及到左手左腳,就直接原地爆炸。

這個話題太有意思了。

我非常好奇的想知道,到底是為什么?

在DeepReasearch之后,還真找到了一個蠻有趣的可以解釋這個事的論文,叫《Skews in the Phenomenon Space Hinder Generalization in Text-to-Image Generation》,中文名翻譯過來是,現(xiàn)象空間的偏差,會阻礙文生圖模型的泛化。

而這個影響的核心,其實就是偏見。

跟我之前寫過的一篇很像。


那篇文章,聊的是視覺模型,在理解的時候,分不清圖中的人有幾根手指。

而這次,是在生成的時候,分不清左右。

其實本質(zhì)的邏輯都是相同的,就是因為數(shù)據(jù)集的偏見。

這篇論文,大意就是一句話:

AI之所以分不清左右,不是因為它邏輯不行,而是因為它的老師,也就是我們投喂給它的海量圖片數(shù)據(jù),本身就存在巨大的壓倒性的偏見。

他們做了一個實驗。

干的第一件事,是把一張圖給拆解成filler和role兩種要素,你可以把它們理解為,主體和關(guān)系。

拿貓追老鼠的圖來舉例,主體就是貓和老鼠,而關(guān)系就是,誰是追的那一方,誰是被追的那一方。

確定好這兩種要素之后,他們找來了幾十個小圖標(biāo)。


兩兩圖標(biāo)分為一組,規(guī)定好它們的主體和關(guān)系,用Unicode字符畫在 32×32 的小方塊里。

所有的畫面,只干一件事:

兩個東西,上下疊放。

比如,把名為蛋糕和橡皮的小圖標(biāo)放在同一張圖上,上面是蛋糕的圖標(biāo),下面是橡皮的圖標(biāo)。

然后附上一句話,這張圖是一個蛋糕在一個橡皮上面。

以此類推,就有了一堆測試圖片加一堆文本。

然后,他們又分了一些數(shù)據(jù)集。

有些訓(xùn)練集里,每個物體都當(dāng)過上面的、也當(dāng)過下面的。

有些訓(xùn)練集里,貓可能幾乎永遠(yuǎn)在上面,狗也可能幾乎永遠(yuǎn)在下面。

還有些訓(xùn)練集,更狠一點(diǎn),某些物體從來沒當(dāng)過上面,只當(dāng)過下面。

接著,他們把這些圖片和文字打包成數(shù)據(jù)集丟給模型去訓(xùn)練,看它學(xué)了這些東西之后,能不能理解上下位置關(guān)系。

按照我們對模型訓(xùn)練的常規(guī)理解呢,這件事兒的關(guān)鍵在于,樣本量要夠大。

只要數(shù)據(jù)規(guī)模夠大,智能就會自然長出來,對吧?

但是他們的實驗數(shù)據(jù)發(fā)現(xiàn),其實,完全不是這樣的。

決定模型能不能舉一反三的,其實看的不是數(shù)據(jù)的數(shù)量,看的是,數(shù)據(jù)怎么分布。

他們有定義了兩個指標(biāo),一個叫Completeness(完整性),就是每種東西,是否都至少在每個位置上出現(xiàn)過一次。

舉個例子,圓在上、三角在下是一種組合,圓在下、三角在上是另一種組合,這兩種情況都要在數(shù)據(jù)里出現(xiàn)過,完整度才能算是及格。

但只有完整度還不夠,還得看另一個指標(biāo),叫Balance(平衡性),對,就是跳舞里面的那個Balance。

它其實指的就是,不同組合出現(xiàn)在數(shù)據(jù)中的具體比例。

只有圓在上和三角在上這兩種情況,在數(shù)據(jù)里的分布情況大差不差時,平衡度才過關(guān)。

反之,如果九張圖都是圓在上,只有一張圖是三角在上,對模型來說,就是平衡度極差、世界觀極度傾斜的情況了。

這樣一來,模型就會天然的把圓在上這件事當(dāng)成一個真理。

只有當(dāng)一個訓(xùn)練集里,不同的排列組合都出現(xiàn)過,并且每種組合在上在下的情況都出現(xiàn)得差不多時,模型才會開竅:

原來誰在上誰在下不是恒定的,是可以互攻的。

哦說錯了,是可以互換的。。。

那一刻,模型才是真正掌握了上下的位置關(guān)系,而不是死記硬背幾種固定搭配。


右邊的表格里,兩個CPL代表完整度,也就是圓和三角在上的情況是不是都出現(xiàn)了,BLC代表平衡度,也就是圓和三角在上的情況分布是否均勻。

左邊的縱軸是模型測試的準(zhǔn)確性。

你會發(fā)現(xiàn),當(dāng)完整度和平衡度都是百分百的時候,模型測試的正確率幾乎也是百分百,也就是藍(lán)色的散點(diǎn)。

而當(dāng)完整度和平衡度越來越差的時候,模型正確率也會不斷下跌,到了完整度和平衡度最低的灰色散點(diǎn)這里,準(zhǔn)確率就沒上過百分之四十。

論文后半段,他們還做了一個和現(xiàn)實世界更接近的實驗,用的是一個叫what’sup的基準(zhǔn)數(shù)據(jù)集,里面都是自然圖片,專門用來描述兩個物體的位置關(guān)系。

然后,在這個數(shù)據(jù)集里面抽取子集。

有的子集完整度和平衡度都很高,有的相反。

接著,他們讓模型去生成數(shù)據(jù)集里沒有的物品左右關(guān)系圖片。

得到的結(jié)果非常穩(wěn)定:

視覺這邊的完整度和平衡度,一旦掉下去,測試集的準(zhǔn)確率就一路跟著往下掉,有的組合甚至永遠(yuǎn)突破不了50%。

更經(jīng)典的是最常見的一類錯誤:

兩個物體都畫對了,但順序反了。

你讓它畫盤子在罐頭左邊,它給你的圖看起來很協(xié)調(diào),但仔細(xì)一看,變成了,可樂罐在盤子左邊。


這個錯誤就非常符合我今天在左右手的case中測試出來的結(jié)果。。。

所以現(xiàn)在可以給AI分不清左右這件事,初步給一個解釋:

AI不是分不清左邊右邊,而是在它受過的童年教育里,現(xiàn)象空間本來就是偏的。

就比如寫字這個案例,因為現(xiàn)實世界里,寫字的大部分人就是右撇子。

圖像網(wǎng)站的標(biāo)注里,“writing”“student writing notes”這些tag背后,也幾乎清一色是右手寫字。

當(dāng)一個模型在海量圖像上長大,它看到的寫字幾乎等價于右手寫字。

所以當(dāng)你說左手寫字的時候,它腦子里的激活模式是這樣的:

“寫字?寫字這事我懂啊,寫字不就是等于一個人 + 一本本子 + 一只手拿筆嗎,啥玩意?你要左手寫字?你有毒吧,這個世界還有人用左手寫字?我就沒見過。”

然后,啪的一下,給你畫了個右手寫字。

其實有點(diǎn)像一個極端偏科的學(xué)生。

他做了十萬道“2+3=5”這樣的題,但是從來沒見過“3+2=5”。

所以,當(dāng)你你問他“3+2等于幾”,他直接就宕機(jī)了。

左手寫字,就是3+2那一側(cè)的世界。

其他的失敗的case其實也差不多。

當(dāng)然,這也不怪AI,因為它的見識就是我們給的。

如果訓(xùn)練集里,左撇子的蹤跡本來就少,模型學(xué)不出來,是不是應(yīng)該怪模型?

還是我們,根本就沒把這個世界里那些少數(shù)者的現(xiàn)象,認(rèn)真地采集進(jìn)去?

以前我做用戶研究的時候,其實最怕的,就是招樣本招得不均勻。

比如你明明是個普適性的APP,但是只找一線城市上班族深度訪談,當(dāng)然得不出老人怎么用你的APP的這個結(jié)果。

只看IOS用戶的數(shù)據(jù),當(dāng)然也看不到千元安卓機(jī)上的使用體驗。

只做所謂的可用性測試,不實地去做田野調(diào)研,就根本不可能看到用戶在真實場景中的那些小動作、小走神、小偷懶。

AI一直在模仿的,其實就是我們自己的偏見。

我們的大規(guī)模圖像語料,是過去幾十年的人類攝影習(xí)慣和文化習(xí)慣的快照。

如果這個世界90%的人都是右撇子,攝影師拍照的時候又喜歡把筆、杯子、道具放在某個視角更舒服的位置,那模型看到的世界,就會是一塊巨大的統(tǒng)計偏差。

如果用一句很正確的話來說。

就是,我們根本沒給模型一個公平的童年。

但反過來,我們?nèi)绻醋约耗兀?/p>

好像,我們本身,也會被各種各樣的訓(xùn)練集規(guī)訓(xùn)。

成功的概念是有房有車財務(wù)自由,人生的捷徑是考功上岸。

我們和AI的區(qū)別只不過在于,AI是用幾百億張圖、幾萬億 token,迅速堆疊起來一個模型的失誤。

而人類是用幾十年的生活和經(jīng)驗積累,逐漸走到一條自己不那么想走的岔路上。

人類和AI,現(xiàn)在好像,都無法看到自己認(rèn)知以外的東西。

如果說技術(shù)的發(fā)展會逼著AI公司們,去重新設(shè)計那個屬于AI的訓(xùn)練集,增加它的完整度和平衡度,讓它泛化。

那我們,是不是也可以,增加一下自己體驗的厚度?

當(dāng)我們對模型說,你不能永遠(yuǎn)只會用右手寫字。

你也得試試左手。

那在我們的生活里,有沒有哪一些左手的可能性,其實一直都在,但我從來沒有看見過?

我相信,肯定會有的。

以上,既然看到這里了,如果覺得不錯,隨手點(diǎn)個贊、在看、轉(zhuǎn)發(fā)三連吧,如果想第一時間收到推送,也可以給我個星標(biāo)?~謝謝你看我的文章,我們,下次再見。

>/ 作者:卡茲克、水杉

>/ 投稿或爆料,請聯(lián)系郵箱:wzglyay@virxact.com

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
伊朗發(fā)射近1200枚導(dǎo)彈報復(fù)美國和以色列

伊朗發(fā)射近1200枚導(dǎo)彈報復(fù)美國和以色列

中國網(wǎng)
2026-03-01 16:43:10
再見 PotPlayer!這款免費(fèi)開源播放器,好用到不想換

再見 PotPlayer!這款免費(fèi)開源播放器,好用到不想換

我不叫阿哏
2026-03-02 10:02:54
對話鄭永年:斬首哈梅內(nèi)伊后,特朗普究竟想要什么?

對話鄭永年:斬首哈梅內(nèi)伊后,特朗普究竟想要什么?

大灣區(qū)評論
2026-03-01 21:23:33
韓國:70%的石油和20%的天然氣由中東進(jìn)口 危機(jī)時將動用戰(zhàn)略儲備

韓國:70%的石油和20%的天然氣由中東進(jìn)口 危機(jī)時將動用戰(zhàn)略儲備

財聯(lián)社
2026-03-02 19:02:07
特朗普:哈梅內(nèi)伊接班人,在空襲中喪生!

特朗普:哈梅內(nèi)伊接班人,在空襲中喪生!

揚(yáng)子晚報
2026-03-02 15:15:28
外媒:特朗普對伊朗發(fā)出新威脅

外媒:特朗普對伊朗發(fā)出新威脅

參考消息
2026-03-01 15:52:28
現(xiàn)實教訓(xùn)!重慶女子離婚無家可歸,抱娃跪求前任接盤,被連趕3次

現(xiàn)實教訓(xùn)!重慶女子離婚無家可歸,抱娃跪求前任接盤,被連趕3次

今朝牛馬
2026-03-02 21:27:47
嚴(yán)厲制止網(wǎng)絡(luò)上過度宣揚(yáng)“失業(yè)潮失業(yè)人數(shù)及躺平”等不良思想——

嚴(yán)厲制止網(wǎng)絡(luò)上過度宣揚(yáng)“失業(yè)潮失業(yè)人數(shù)及躺平”等不良思想——

葉初七
2026-03-02 17:06:05
以情報部門被曝滲透到伊朗安全高層,伊朗曾組建反間諜機(jī)構(gòu),查來查去沒發(fā)現(xiàn)問題,最后發(fā)現(xiàn)負(fù)責(zé)人就是以間諜,其手下還有至少20名雙重間諜

以情報部門被曝滲透到伊朗安全高層,伊朗曾組建反間諜機(jī)構(gòu),查來查去沒發(fā)現(xiàn)問題,最后發(fā)現(xiàn)負(fù)責(zé)人就是以間諜,其手下還有至少20名雙重間諜

揚(yáng)子晚報
2026-03-02 17:41:48
27歲執(zhí)掌四川,28歲平定西藏,29歲卻被打入大牢,這人是誰?

27歲執(zhí)掌四川,28歲平定西藏,29歲卻被打入大牢,這人是誰?

通文知史
2026-03-01 23:25:03
一邊是內(nèi)奸害死了哈梅內(nèi)伊,一邊是美國人公開發(fā)特朗普的定位

一邊是內(nèi)奸害死了哈梅內(nèi)伊,一邊是美國人公開發(fā)特朗普的定位

林中木白
2026-03-02 11:06:13
伊朗反擊太快,只給以2小時,導(dǎo)彈從天而降,以色列民眾抱頭鼠竄

伊朗反擊太快,只給以2小時,導(dǎo)彈從天而降,以色列民眾抱頭鼠竄

書紀(jì)文譚
2026-03-02 17:24:46
精神領(lǐng)袖成高危職業(yè),伊朗暫定最高精神領(lǐng)袖上任一天即遭斬首

精神領(lǐng)袖成高危職業(yè),伊朗暫定最高精神領(lǐng)袖上任一天即遭斬首

史政先鋒
2026-03-02 22:00:29
黃金都靠邊站!2026年最瘋漲的,竟是你隨手扔的舊東西

黃金都靠邊站!2026年最瘋漲的,竟是你隨手扔的舊東西

小陸搞笑日常
2026-03-02 01:34:50
伊朗生死關(guān)頭,一個關(guān)鍵人物走向前臺……

伊朗生死關(guān)頭,一個關(guān)鍵人物走向前臺……

補(bǔ)壹刀
2026-03-02 16:08:19
三名美國士兵喪生,特朗普發(fā)誓要復(fù)仇,放話"何時停戰(zhàn)由伊方?jīng)Q定"

三名美國士兵喪生,特朗普發(fā)誓要復(fù)仇,放話"何時停戰(zhàn)由伊方?jīng)Q定"

派大星紀(jì)錄片
2026-03-02 10:34:38
78:72爆冷!世預(yù)賽B組大亂,中國男籃自挖苦坑,日本隊坐收漁利

78:72爆冷!世預(yù)賽B組大亂,中國男籃自挖苦坑,日本隊坐收漁利

行舟問茶
2026-03-02 12:06:53
《大西洋月刊》丨所有人的目光都投向了古巴

《大西洋月刊》丨所有人的目光都投向了古巴

邸報
2026-03-02 10:33:45
中歐航線票價暴漲 上海飛巴黎飆升5倍

中歐航線票價暴漲 上海飛巴黎飆升5倍

財聯(lián)社
2026-03-02 17:34:14
再見,崔龍海!

再見,崔龍海!

IN朝鮮
2026-03-02 15:47:57
2026-03-03 01:07:00
數(shù)字生命卡茲克 incentive-icons
數(shù)字生命卡茲克
反復(fù)橫跳于不同的AI領(lǐng)域,努力分享一些很酷的AI干貨
465文章數(shù) 553關(guān)注度
往期回顧 全部

科技要聞

蘋果中國官網(wǎng)上線iPhone 17e,4499元起

頭條要聞

媒體:拉里賈尼走向前臺 四大關(guān)鍵變量將決定伊朗命運(yùn)

頭條要聞

媒體:拉里賈尼走向前臺 四大關(guān)鍵變量將決定伊朗命運(yùn)

體育要聞

“想要我簽名嗎” 梅西逆轉(zhuǎn)后嘲諷對手主帥

娛樂要聞

李亞鵬與哥哥和解 只有一條真心話短信

財經(jīng)要聞

油價飆升 美伊沖突將如何攪動全球經(jīng)濟(jì)

汽車要聞

國民SUV再添一員 瑞虎7L靜態(tài)體驗

態(tài)度原創(chuàng)

房產(chǎn)
時尚
教育
親子
軍事航空

房產(chǎn)要聞

方案突然曝光!??诒睅煷蟾叫#钟袝蟊P殺出!

今年春天一定要擁有的4件衣服,太好看了!

教育要聞

特別猛,但在留學(xué)生心中存在感很低的英國大學(xué)!

親子要聞

45歲這年,我這個二胎媽媽決定做一件“瘋狂”的事

軍事要聞

美國中央司令部透露對伊朗動武全部武器裝備清單

無障礙瀏覽 進(jìn)入關(guān)懷版