亞利桑那州立大學(xué)告訴AI：教它認(rèn)"真實(shí)物體"，才能真正看懂世界

2026-04-28 17:28:27　來源: 科技行者

天津舉報(bào)

分享至

這項(xiàng)由亞利桑那州立大學(xué)研究團(tuán)隊(duì)完成的研究，以預(yù)印本論文形式于2026年4月14日發(fā)布在arXiv平臺，編號為arXiv:2604.13313v1，所屬領(lǐng)域?yàn)闄C(jī)器學(xué)習(xí)（cs.LG）。對于關(guān)注人工智能視覺理解能力的讀者，可以通過該編號查詢完整論文。

當(dāng)你問一個(gè)朋友"桌上放著紅色杯子旁邊的那本書是什么顏色"，他不會把"紅色"、"杯子"、"旁邊"、"書"這幾個(gè)詞分開理解，然后各自對照——他會把整句話當(dāng)成一個(gè)完整的畫面來理解。但現(xiàn)在最先進(jìn)的圖文AI系統(tǒng)，恰恰常常犯這種"把詞語拆散理解"的毛病。

這就是所謂的"詞袋問題"——AI在理解圖文關(guān)系時(shí)，有時(shí)更像在對照一張購物清單，逐個(gè)確認(rèn)"紅色有沒有？杯子有沒有？書有沒有？"，卻完全忽略了這些詞之間的邏輯關(guān)系。于是，"男孩抱著狗"和"狗抱著男孩"，對它來說可能沒什么兩樣。

亞利桑那州立大學(xué)的研究團(tuán)隊(duì)希望從根本上改變這種局面。他們的研究不是在AI的"大腦結(jié)構(gòu)"上動刀，而是從一個(gè)更基礎(chǔ)但長期被忽視的角度切入：**訓(xùn)練AI時(shí)用的"反例"數(shù)據(jù)，到底應(yīng)該怎么挑選？** 他們的核心發(fā)現(xiàn)，圍繞著一個(gè)來自語言學(xué)的古老概念——詞語的"具體性"。

一、AI的"詞袋毛病"從哪里來

要理解這個(gè)問題，先要了解現(xiàn)代圖文AI（也就是視覺語言模型，Vision-Language Model，簡稱VLM）是怎么學(xué)習(xí)的。

這類AI的學(xué)習(xí)過程，可以類比成一場"連連看"大賽。系統(tǒng)面對海量的圖片和文字描述，目標(biāo)是把正確配對的圖文盡量靠近，同時(shí)把不匹配的圖文盡量推遠(yuǎn)。比如，一張貓咪照片應(yīng)該和"一只貓坐在沙發(fā)上"這句話靠近，而不是和"一輛汽車在公路上行駛"靠近。這種訓(xùn)練方式叫做"對比學(xué)習(xí)"，是當(dāng)前圖文AI的核心訓(xùn)練方法。

問題在于，在這場"連連看"大賽中，大多數(shù)"錯(cuò)誤配對"的案例都太容易分辨了。貓咪照片配上汽車描述，任何人都能一眼看出不對，AI當(dāng)然也輕松過關(guān)。這些"太容易的錯(cuò)誤"，在學(xué)術(shù)上被稱為"簡單負(fù)樣本"。

真正讓AI進(jìn)步的，是那些"難辨的錯(cuò)誤"——比如同一個(gè)場景，"男孩抱著狗"和"狗抱著男孩"的照片長得很像，AI需要真正理解語法結(jié)構(gòu)和物體關(guān)系，才能區(qū)分開來。這些被稱為"困難負(fù)樣本"。研究人員早已發(fā)現(xiàn)，在訓(xùn)練中加入困難負(fù)樣本，能大幅提升AI的理解能力。

但困難負(fù)樣本怎么來？研究團(tuán)隊(duì)發(fā)現(xiàn)，現(xiàn)有方法通常是讓大型語言模型（可以理解為一個(gè)超級智能寫作助手）自動修改描述中的某個(gè)詞，生成一個(gè)"改了一點(diǎn)但很接近"的對比描述。同時(shí)用圖像生成模型，根據(jù)修改后的描述重新生成一張圖片，形成圖文對。

這里藏著一個(gè)關(guān)鍵漏洞：改哪個(gè)詞，效果差別極大。研究團(tuán)隊(duì)注意到，如果改的是"當(dāng)代風(fēng)格的臥室里有一張大床"中的"當(dāng)代"，換成"老式風(fēng)格"，生成的新圖片可能跟原圖幾乎沒有區(qū)別——兩張臥室照片看起來可以非常相似。但如果改的是"床"這個(gè)詞，換成"沙發(fā)"，那生成的新圖片就會有明顯的結(jié)構(gòu)差異，AI一眼就能察覺到這種差別。

這個(gè)差別，正是本研究的起點(diǎn)。

二、"具體性"：一把被遺忘的鑰匙

研究團(tuán)隊(duì)引入了一個(gè)來自心理語言學(xué)（研究語言與心理活動關(guān)系的學(xué)科）的概念：**詞語的"具體性"**（Concreteness）。

簡單來說，"具體性"衡量的是一個(gè)詞對應(yīng)的概念有多直接、多可感知。"蘋果"、"椅子"、"狗"、"火車"——這些詞讓你腦海中立刻浮現(xiàn)出具體的形象，具體性高。而"當(dāng)代"、"感情"、"風(fēng)格"、"狀態(tài)"——這些詞更抽象，很難對應(yīng)一個(gè)清晰的視覺形象，具體性低。

研究人員使用了一個(gè)包含約四萬個(gè)英語詞匯具體性評分的數(shù)據(jù)庫（由心理學(xué)研究者Brysbaert等人建立），每個(gè)詞都有1到5分的評分，分?jǐn)?shù)越高代表越具體。"雞肉"（chicken）的評分是4.8，"花椰菜"（broccoli）是4.87，而"當(dāng)代"（contemporary）這類形容詞分?jǐn)?shù)則低得多。

團(tuán)隊(duì)的核心假設(shè)是：當(dāng)你在訓(xùn)練AI時(shí)，修改了一個(gè)高具體性詞語，生成的對比圖片就會產(chǎn)生明顯的視覺差異，從而給AI一個(gè)"強(qiáng)烈的學(xué)習(xí)信號"。修改低具體性詞語，則往往只產(chǎn)生模糊、微弱的變化，AI根本學(xué)不到什么。

這個(gè)假設(shè)聽起來簡單，但在學(xué)術(shù)領(lǐng)域，之前從沒有人系統(tǒng)地將詞語具體性與困難負(fù)樣本的質(zhì)量聯(lián)系起來分析。這正是本研究的原創(chuàng)性貢獻(xiàn)所在。

他們用一個(gè)直觀的例子來說明：同一張"當(dāng)代風(fēng)格臥室配一張大床"的照片，如果把"當(dāng)代"改成"老式"，生成的新圖片變化細(xì)微；但如果把"床"改成"沙發(fā)"，生成的新圖片就會有明顯的家具替換，兩張圖的差距肉眼可見。

三、ConcretePlant：專門挑"具體詞語"來搗亂的流水線

基于這個(gè)發(fā)現(xiàn)，研究團(tuán)隊(duì)設(shè)計(jì)了一套自動化的困難負(fù)樣本生成流水線，取名為**ConcretePlant**（可以理解為"具體性工廠"）。這套流水線分三個(gè)階段工作，就像一條精心設(shè)計(jì)的食品加工線：原材料進(jìn)來，經(jīng)過篩選、加工、成型，最終輸出高質(zhì)量的訓(xùn)練數(shù)據(jù)。

第一階段是"選詞"。給定一張圖片和它對應(yīng)的描述，流水線首先調(diào)用SpaCy（一個(gè)成熟的自然語言處理工具）來分析句子結(jié)構(gòu)，把句子拆解成詞語，并標(biāo)注每個(gè)詞的詞性（名詞、形容詞、動詞等）。然后，它過濾掉那些功能性詞語（比如"的"、"和"、"在"這類連接詞），只保留有實(shí)質(zhì)內(nèi)容的詞。接下來，系統(tǒng)查詢具體性評分?jǐn)?shù)據(jù)庫，給每個(gè)候選詞打分，并選出分?jǐn)?shù)最高的那部分詞作為候選"目標(biāo)詞"。

為了避免每次都只改最高分的那一個(gè)詞而導(dǎo)致數(shù)據(jù)單調(diào)，系統(tǒng)采用了"Top-K采樣"——從最高分的K個(gè)詞中隨機(jī)選一個(gè)，保持多樣性。同時(shí)，為了讓訓(xùn)練數(shù)據(jù)覆蓋不同類型的理解能力，系統(tǒng)還會根據(jù)詞語的語法角色，將生成的負(fù)樣本分為三類：屬性類（比如顏色、材質(zhì)等描述性詞語）、對象類（名詞，具體事物）、關(guān)系類（描述空間關(guān)系或互動的詞）。關(guān)系類因?yàn)樵跀?shù)據(jù)中相對稀少，會被優(yōu)先照顧；屬性類和對象類則通過配額機(jī)制保持平衡。

第二階段是"改描述"。確定了目標(biāo)詞之后，系統(tǒng)調(diào)用Qwen3-32B（一個(gè)強(qiáng)大的大語言模型）來生成修改后的描述。系統(tǒng)給Qwen3-32B的指令非常明確：把指定的詞換掉，生成一個(gè)和原場景視覺上沖突的新描述，但保持句子其他部分完全不變，且新描述必須在現(xiàn)實(shí)中合理（不能出現(xiàn)"一頂帽子戴著一個(gè)人"這種違反常識的表述）。為了讓生成效果更好，系統(tǒng)會根據(jù)不同的類別（屬性、對象、關(guān)系）提供不同的示例給大語言模型參考。

第三階段是"改圖片"。拿到修改后的描述，系統(tǒng)調(diào)用SDXL-Turbo（一個(gè)快速的圖像生成模型）對原圖進(jìn)行編輯，生成與新描述對應(yīng)的圖片。這個(gè)過程會有意設(shè)置較高的"修改強(qiáng)度"，確保生成的圖片確實(shí)反映了描述的變化，而不是只做了微小的風(fēng)格調(diào)整。

經(jīng)過這條流水線，每個(gè)原始的圖文對都會產(chǎn)生一個(gè)對應(yīng)的"困難負(fù)樣本"——一張改動了具體物體或?qū)傩缘膱D片，加上一段只改了一個(gè)關(guān)鍵詞的描述。兩者看起來很接近，卻在關(guān)鍵地方有明顯的視覺語義差異。整套數(shù)據(jù)集被研究團(tuán)隊(duì)命名為**ConcreteBatch**。

四、梯度失衡：另一個(gè)藏在訓(xùn)練過程中的隱患

發(fā)現(xiàn)了數(shù)據(jù)質(zhì)量的問題，團(tuán)隊(duì)以為找到了全部答案——直到他們仔細(xì)分析訓(xùn)練過程中的數(shù)學(xué)信號，發(fā)現(xiàn)還有另一個(gè)麻煩潛伏在里面。

對比學(xué)習(xí)的訓(xùn)練過程，本質(zhì)上是讓AI不斷調(diào)整自己的"判斷力"。每次訓(xùn)練，AI會根據(jù)"判斷錯(cuò)了多少"來更新自己的參數(shù)。這個(gè)"判斷錯(cuò)了多少"對應(yīng)的數(shù)學(xué)量，叫做"梯度"——你可以把它理解為"糾錯(cuò)信號"的強(qiáng)度。糾錯(cuò)信號越強(qiáng)，這次訓(xùn)練對AI的影響就越大。

問題在于：在一個(gè)典型的訓(xùn)練批次中，有一對"困難負(fù)樣本"，還有成百上千對"簡單負(fù)樣本"。研究團(tuán)隊(duì)通過數(shù)學(xué)推導(dǎo)發(fā)現(xiàn)，這些大量的簡單負(fù)樣本，會產(chǎn)生大量微弱但累積起來數(shù)量龐大的糾錯(cuò)信號；而困難負(fù)樣本產(chǎn)生的糾錯(cuò)信號雖然質(zhì)量高，卻被淹沒在簡單負(fù)樣本的"信號海洋"里。

打個(gè)比方：你在學(xué)鋼琴，老師讓你重點(diǎn)練一段困難的曲子，但每次練習(xí)時(shí)間里，你花了72%的時(shí)間在彈你早就熟練的簡單音階，只有不到28%的時(shí)間在認(rèn)真練那段難曲。這樣練下去，你的進(jìn)步會非常慢——因?yàn)槟愕木Χ急徊槐匾闹貜?fù)占滿了。

研究團(tuán)隊(duì)把這種現(xiàn)象稱為"梯度失衡"，并通過實(shí)驗(yàn)直接測量了這一現(xiàn)象。他們發(fā)現(xiàn)，在批次大小N=1024（意思是每次訓(xùn)練用1024對樣本）的情況下，簡單負(fù)樣本消耗了至少72%的總糾錯(cuò)信號。就算把批次縮小到N=256，失衡依然存在。

有人可能會說，那就把批次縮小唄。但研究團(tuán)隊(duì)發(fā)現(xiàn)，減小批次會帶來另一個(gè)代價(jià)：對比學(xué)習(xí)天生需要大批次才能讓AI學(xué)到多樣化的知識，避免認(rèn)知"偏食"。實(shí)驗(yàn)表明，把批次從1024縮小到256，AI在一般視覺理解任務(wù)上的表現(xiàn)下降了約2.16%，在組合理解任務(wù)上下降了約1.18%。這不是可以接受的代價(jià)。

五、Cement Loss：用物理學(xué)公式給糾錯(cuò)信號"重新分配權(quán)重"

面對梯度失衡，研究團(tuán)隊(duì)提出的解決方案既優(yōu)雅又直觀：在計(jì)算困難負(fù)樣本的"相似度得分"時(shí)，人為加上一個(gè)"邊距"（margin），讓困難負(fù)樣本在數(shù)學(xué)上"看起來更難分辨"，從而迫使AI給它更多關(guān)注。

具體來說，在訓(xùn)練的數(shù)學(xué)計(jì)算中，每對樣本都有一個(gè)相似度得分。系統(tǒng)將困難負(fù)樣本的相似度得分加上一個(gè)正值m，使它在計(jì)算中看起來"更接近正確答案"，這樣AI就不得不更努力地去區(qū)分這個(gè)困難案例。這個(gè)操作就像是在游戲中給困難關(guān)卡增加權(quán)重——不管它實(shí)際上有多容易，系統(tǒng)都會認(rèn)為它更重要。

但"邊距m應(yīng)該設(shè)多大"，這本身又是一個(gè)新問題。太大了，AI會過度關(guān)注困難負(fù)樣本，忽視一般的知識學(xué)習(xí)；太小了，效果不明顯。更關(guān)鍵的是，不同的困難負(fù)樣本，困難程度也不一樣——一張改了"雞肉"的圖片比改了"風(fēng)格"的圖片更容易辨認(rèn)，理應(yīng)得到不同強(qiáng)度的糾錯(cuò)信號。

研究團(tuán)隊(duì)從圖像數(shù)據(jù)中發(fā)現(xiàn)了一個(gè)規(guī)律：詞語的具體性得分，與模型在那對樣本上的"得分差距"（正確答案得分減去錯(cuò)誤答案得分）之間存在線性關(guān)系——具體性越高的詞，生成的負(fù)樣本對AI來說越容易區(qū)分，得分差距越大。這意味著具體性得分本身，就是判斷"這個(gè)負(fù)樣本有多有價(jià)值"的一個(gè)可靠指標(biāo)。

基于這個(gè)規(guī)律，研究團(tuán)隊(duì)用一個(gè)來自物理學(xué)的公式來建模自適應(yīng)邊距——費(fèi)米-狄拉克分布（Fermi-Dirac distribution）。這個(gè)公式原本是量子物理學(xué)中描述電子能級分布的，但它有一個(gè)非常實(shí)用的數(shù)學(xué)性質(zhì)：它能在某個(gè)閾值附近產(chǎn)生平滑的"相變"，讓輸出值從低端平滑過渡到高端，同時(shí)被約束在一個(gè)固定范圍內(nèi)。

通俗來說，就是：具體性低的詞生成的負(fù)樣本，對應(yīng)一個(gè)較小甚至為負(fù)的邊距（降低它的權(quán)重）；具體性高的詞生成的負(fù)樣本，對應(yīng)一個(gè)較大的邊距（提升它的權(quán)重）。整個(gè)過渡是平滑的，不會突然跳變。邊距的范圍被約束在[-2, 2]之間，防止任何極端情況。

這套結(jié)合了具體性評分和自適應(yīng)邊距的損失函數(shù)，被研究團(tuán)隊(duì)命名為**Cement Loss**（水泥損失函數(shù)，與"混凝土/具體性"的英文concrete呼應(yīng)），而使用ConcreteBatch數(shù)據(jù)和Cement Loss訓(xùn)練的模型，則被命名為**Slipform**（滑模成型，一種建筑工程術(shù)語，指連續(xù)澆筑混凝土的工藝——整個(gè)命名體系都在呼應(yīng)"混凝土"這個(gè)核心意象）。

六、數(shù)據(jù)集的檢驗(yàn)：真的更難嗎

在正式訓(xùn)練和評測之前，研究團(tuán)隊(duì)對自己生成的數(shù)據(jù)集做了一次全面的"體檢"，以驗(yàn)證數(shù)據(jù)質(zhì)量符合預(yù)期。

他們對比了三個(gè)數(shù)據(jù)集：Dhc（高具體性關(guān)鍵詞生成的負(fù)樣本）、Dlc（低具體性關(guān)鍵詞生成的負(fù)樣本）、Dwo（不考慮具體性隨機(jī)選詞生成的負(fù)樣本）。

在最核心的"視覺差異"指標(biāo)上，他們用DINOScore來衡量——這個(gè)指標(biāo)由DINOv2模型計(jì)算，數(shù)值越低代表兩張圖片差異越大。結(jié)果正如預(yù)期：Dhc的DINOScore最低，意味著高具體性詞生成的圖片對差異最大；Dlc的DINOScore最高，圖片對差異最?。籇wo居中。這直接驗(yàn)證了核心假設(shè)：修改具體性更高的詞，確實(shí)會生成視覺差異更大的圖片對。

在"樣本難度"上，他們用"邏輯得分差距"來衡量——這個(gè)指標(biāo)計(jì)算模型對正確圖文對和錯(cuò)誤圖文對的預(yù)測得分差。Dhc的得分差距最大（AI更容易分辨），Dlc的得分差距最小（AI更難分辨）。這看似是個(gè)矛盾——難道高具體性的數(shù)據(jù)反而更容易，那它還有訓(xùn)練價(jià)值嗎？

研究團(tuán)隊(duì)解釋，這里有一個(gè)重要的區(qū)別：這里測量的是一個(gè)已經(jīng)訓(xùn)練好的模型（PE-Core-L-14-336）對這批數(shù)據(jù)的得分，而不是被訓(xùn)練模型的表現(xiàn)。高具體性圖片對的大得分差距，恰恰說明圖片間的視覺語義差異更清晰、更容易被感知——這正是它能給訓(xùn)練提供更強(qiáng)學(xué)習(xí)信號的原因。真正"難"的，是Dlc——它生成的圖片對視覺差異微弱，模型難以分辨，但這種"難"是因?yàn)樨?fù)樣本本身質(zhì)量差（改變太不明顯），而不是因?yàn)樗N(yùn)含了有價(jià)值的組合語義差別。

另外，團(tuán)隊(duì)還檢查了一個(gè)潛在擔(dān)憂：高具體性詞（尤其是二元詞組，比如"咖啡杯"、"消防栓"）在替換后，會不會導(dǎo)致文本描述發(fā)生太大的語義漂移，使得生成的圖文對不再是有效的訓(xùn)練樣本？他們通過BERTScore（衡量兩段文字語義相似度的指標(biāo)）發(fā)現(xiàn)，高具體性詞替換確實(shí)會導(dǎo)致BERTScore下降，但這主要是因?yàn)楦呔唧w性詞往往是多詞短語，替換時(shí)會改變更多字符。從CLIPScore和DINOScore之間的相關(guān)性來看，文字變化和圖像變化之間保持著一致的對應(yīng)關(guān)系，說明生成的負(fù)樣本是有效的，而不是隨意亂改的。

七、實(shí)驗(yàn)結(jié)果：數(shù)字背后的故事

研究團(tuán)隊(duì)將Slipform與一系列已有方法進(jìn)行了對比，包括最基礎(chǔ)的CLIP模型（原始版本）、NegCLIP（加入了負(fù)樣本訓(xùn)練的版本）、TSVLC、TripletCLIP、CE-CLIP、DeGLA等多個(gè)方法。所有實(shí)驗(yàn)都基于ViT-B-32（一種常用的視覺Transformer骨干網(wǎng)絡(luò)）在單塊NVIDIA H200 GPU上完成，使用MS-COCO數(shù)據(jù)集的Karpathy訓(xùn)練分割來生成ConcreteBatch數(shù)據(jù)。

在**組合理解基準(zhǔn)測試**上，評測使用了三個(gè)權(quán)威的組合語義理解測試集：SugarCrepe（測試模型是否能區(qū)分細(xì)微的描述差異）、SugarCrepe++（SugarCrepe的升級版，包含圖到文和文到圖兩個(gè)方向）、以及Winoground（一個(gè)專門測試視覺語言組合理解的經(jīng)典挑戰(zhàn)性數(shù)據(jù)集）。

結(jié)果顯示，Slipform在這些測試上的宏觀平均準(zhǔn)確率達(dá)到了54.18，相比原始CLIP模型的47.89，提升了約13.13%（相對提升）。在所有對比方法中，Slipform取得了最高的宏觀平均分。

數(shù)據(jù)集對比方面，使用Dhc訓(xùn)練的模型（高具體性數(shù)據(jù)）在幾乎所有子任務(wù)上都優(yōu)于使用Dlc（低具體性數(shù)據(jù)）訓(xùn)練的模型，而Dwo（隨機(jī)選詞）的結(jié)果介于兩者之間。這個(gè)趨勢在不同損失函數(shù)（InfoNCE vs. Cement Loss）下都一致存在，有力地支持了"高具體性數(shù)據(jù)質(zhì)量更高"的核心論點(diǎn)。

Cement Loss對比InfoNCE的效果也很穩(wěn)定：在相同數(shù)據(jù)集下，使用Cement Loss訓(xùn)練的模型普遍優(yōu)于使用InfoNCE訓(xùn)練的模型。研究團(tuán)隊(duì)還測試了"反向邊距"（把高具體性詞對應(yīng)低邊距、低具體性詞對應(yīng)高邊距，正好與理論相反）的效果，結(jié)果如預(yù)期所示，反向邊距會降低性能，驗(yàn)證了邊距設(shè)計(jì)方向的正確性。

不過，在**一般視覺表示基準(zhǔn)測試**上（包括ImageNet-1k圖像分類、MS-COCO多標(biāo)簽分類、Flickr30k跨模態(tài)檢索、以及VTAB視覺任務(wù)適應(yīng)基準(zhǔn)），Slipform的表現(xiàn)與原始CLIP模型相比有一定的此消彼長。比如ImageNet-1k的Top-1準(zhǔn)確率（分類正確率）從CLIP的43.12%略微下降到Slipform的43.11%；在Flickr30k檢索任務(wù)上也有類似的輕微波動。

研究團(tuán)隊(duì)直接承認(rèn)了這個(gè)權(quán)衡：針對細(xì)粒度組合語義的優(yōu)化，確實(shí)會對更廣泛的視覺表示能力產(chǎn)生一定的"擠壓"效應(yīng)。這是當(dāng)前方法內(nèi)在的張力，團(tuán)隊(duì)明確將其列為未來需要解決的問題，而不是試圖回避。

在梯度失衡的實(shí)證驗(yàn)證上，圖6的數(shù)據(jù)說明得很清楚：隨著批次大小從256增加到1024，InfoNCE中困難負(fù)樣本糾錯(cuò)信號占總正樣本糾錯(cuò)信號的比率從約0.32急劇下降到不足0.20；而Cement Loss（自適應(yīng)邊距版本）在各種批次大小下都能將這個(gè)比率維持在更高水平，且相應(yīng)地，組合理解平均分也更高。

八、尚未完成的拼圖：誠實(shí)的局限與展望

研究團(tuán)隊(duì)在論文末尾對幾個(gè)尚待解決的問題做了坦率的說明，這本身值得關(guān)注。

第一個(gè)問題是具體性評分?jǐn)?shù)據(jù)庫的覆蓋范圍?，F(xiàn)有的具體性評分（Brysbaert等人建立的數(shù)據(jù)庫）是基于人類對詞語的總體感知，涵蓋了視覺、觸覺、聽覺、嗅覺、味覺等多種感知方式的綜合評分。但對于訓(xùn)練視覺AI來說，更理想的是專門針對視覺可感知性的評分——畢竟"咆哮"（roar）這個(gè)詞聽覺上很具體，視覺上卻不一定。研究團(tuán)隊(duì)指出，將視覺專屬具體性評分引入ConcretePlant，可能會進(jìn)一步提升數(shù)據(jù)質(zhì)量。

第二個(gè)問題是組合理解與一般視覺表示之間的性能權(quán)衡。如何在不犧牲廣泛視覺理解能力的前提下，持續(xù)提升組合語義理解，是一個(gè)需要更深入探索的方向。

第三個(gè)方向則是將這套方法擴(kuò)展到視頻理解、多模態(tài)下游任務(wù)等更廣泛的應(yīng)用場景，以及將生成的高質(zhì)量數(shù)據(jù)作為子模塊用于更復(fù)雜的系統(tǒng)中。

說到底，這項(xiàng)研究做的事情，其實(shí)和一個(gè)好老師教學(xué)生沒什么兩樣。好老師不會用太簡單的題目讓學(xué)生一直重復(fù)練習(xí)，也不會用完全沒有意義的題目浪費(fèi)學(xué)生的時(shí)間——他們會精心挑選那些"剛剛好有難度、剛剛好能揭示知識核心"的練習(xí)題。亞利桑那州立大學(xué)的團(tuán)隊(duì)發(fā)現(xiàn)，在給AI挑選"練習(xí)題"的時(shí)候，有一條被長期忽視的選題原則：改一道題里"最具體、最真實(shí)的那個(gè)詞"，這道題就會變得更有教育價(jià)值。

圍繞著這個(gè)發(fā)現(xiàn)，他們建了一套自動出題的系統(tǒng)（ConcretePlant），還改進(jìn)了評分機(jī)制（Cement Loss），讓AI在做練習(xí)時(shí)能把注意力更多地放在真正有挑戰(zhàn)性的題目上，而不是被大量簡單題的"噪音"分散精力。最終訓(xùn)練出來的Slipform模型，在理解"誰對誰做了什么"這類需要真正讀懂句子邏輯的任務(wù)上，比之前的方法提升了超過13%。

當(dāng)然，就像幾乎所有專注于某一方面的訓(xùn)練方式一樣，這種"專項(xiàng)強(qiáng)化"也帶來了一些對其他能力的輕微影響。這是真實(shí)存在的權(quán)衡，研究團(tuán)隊(duì)沒有回避它。

這項(xiàng)工作留下了一個(gè)有趣的延伸問題值得思考：當(dāng)我們在訓(xùn)練AI"認(rèn)識世界"的時(shí)候，我們到底希望它先學(xué)會認(rèn)識什么？是先認(rèn)識"蘋果"和"椅子"這樣具體的東西，還是先認(rèn)識"美麗"和"當(dāng)代"這樣抽象的概念？人類孩子的語言習(xí)得順序，或許真的能給AI的訓(xùn)練數(shù)據(jù)設(shè)計(jì)帶來更多啟示。感興趣的讀者可以通過arXiv:2604.13313v1獲取這篇研究的完整論文。

Q&A

Q1：困難負(fù)樣本在AI訓(xùn)練中起什么作用？

A：困難負(fù)樣本是指與正確答案在表面上非常相似、但實(shí)際上不匹配的訓(xùn)練案例，比如只改了一個(gè)詞的圖文描述對。訓(xùn)練AI時(shí)加入這類樣本，能迫使模型真正理解詞語之間的邏輯關(guān)系，而不是靠猜整體主題來匹配圖文，從而提升對細(xì)節(jié)和組合關(guān)系的理解能力。

Q2：詞語具體性評分?jǐn)?shù)據(jù)庫是什么，從哪里來的？

A：這個(gè)數(shù)據(jù)庫由心理學(xué)研究者Brysbaert等人建立，包含約四萬個(gè)常見英語詞匯的具體性評分，每個(gè)詞的分?jǐn)?shù)在1到5之間，分?jǐn)?shù)越高代表越容易與真實(shí)可感知的事物對應(yīng)，比如"雞肉"接近5分，"當(dāng)代"分?jǐn)?shù)較低。該數(shù)據(jù)庫發(fā)表于2014年的學(xué)術(shù)期刊《Behavior Research Methods》。

Q3：Cement Loss和普通的InfoNCE損失函數(shù)有什么區(qū)別？

A：普通InfoNCE在計(jì)算訓(xùn)練信號時(shí)，大量簡單負(fù)樣本會占據(jù)絕大多數(shù)的"糾錯(cuò)信號"，使困難負(fù)樣本的學(xué)習(xí)效果被稀釋。Cement Loss在此基礎(chǔ)上，根據(jù)每個(gè)負(fù)樣本對應(yīng)詞語的具體性評分，自適應(yīng)地給困難負(fù)樣本增加一個(gè)"邊距"，讓模型在訓(xùn)練時(shí)把更多注意力分配給真正有價(jià)值的困難案例，從而更高效地學(xué)習(xí)組合語義差異。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.