国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

亞利桑那州立大學(xué)告訴AI:教它認(rèn)"真實(shí)物體",才能真正看懂世界

0
分享至


這項(xiàng)由亞利桑那州立大學(xué)研究團(tuán)隊(duì)完成的研究,以預(yù)印本論文形式于2026年4月14日發(fā)布在arXiv平臺,編號為arXiv:2604.13313v1,所屬領(lǐng)域?yàn)闄C(jī)器學(xué)習(xí)(cs.LG)。對于關(guān)注人工智能視覺理解能力的讀者,可以通過該編號查詢完整論文。

當(dāng)你問一個(gè)朋友"桌上放著紅色杯子旁邊的那本書是什么顏色",他不會把"紅色"、"杯子"、"旁邊"、"書"這幾個(gè)詞分開理解,然后各自對照——他會把整句話當(dāng)成一個(gè)完整的畫面來理解。但現(xiàn)在最先進(jìn)的圖文AI系統(tǒng),恰恰常常犯這種"把詞語拆散理解"的毛病。

這就是所謂的"詞袋問題"——AI在理解圖文關(guān)系時(shí),有時(shí)更像在對照一張購物清單,逐個(gè)確認(rèn)"紅色有沒有?杯子有沒有?書有沒有?",卻完全忽略了這些詞之間的邏輯關(guān)系。于是,"男孩抱著狗"和"狗抱著男孩",對它來說可能沒什么兩樣。

亞利桑那州立大學(xué)的研究團(tuán)隊(duì)希望從根本上改變這種局面。他們的研究不是在AI的"大腦結(jié)構(gòu)"上動刀,而是從一個(gè)更基礎(chǔ)但長期被忽視的角度切入:**訓(xùn)練AI時(shí)用的"反例"數(shù)據(jù),到底應(yīng)該怎么挑選?** 他們的核心發(fā)現(xiàn),圍繞著一個(gè)來自語言學(xué)的古老概念——詞語的"具體性"。

一、AI的"詞袋毛病"從哪里來

要理解這個(gè)問題,先要了解現(xiàn)代圖文AI(也就是視覺語言模型,Vision-Language Model,簡稱VLM)是怎么學(xué)習(xí)的。

這類AI的學(xué)習(xí)過程,可以類比成一場"連連看"大賽。系統(tǒng)面對海量的圖片和文字描述,目標(biāo)是把正確配對的圖文盡量靠近,同時(shí)把不匹配的圖文盡量推遠(yuǎn)。比如,一張貓咪照片應(yīng)該和"一只貓坐在沙發(fā)上"這句話靠近,而不是和"一輛汽車在公路上行駛"靠近。這種訓(xùn)練方式叫做"對比學(xué)習(xí)",是當(dāng)前圖文AI的核心訓(xùn)練方法。

問題在于,在這場"連連看"大賽中,大多數(shù)"錯(cuò)誤配對"的案例都太容易分辨了。貓咪照片配上汽車描述,任何人都能一眼看出不對,AI當(dāng)然也輕松過關(guān)。這些"太容易的錯(cuò)誤",在學(xué)術(shù)上被稱為"簡單負(fù)樣本"。

真正讓AI進(jìn)步的,是那些"難辨的錯(cuò)誤"——比如同一個(gè)場景,"男孩抱著狗"和"狗抱著男孩"的照片長得很像,AI需要真正理解語法結(jié)構(gòu)和物體關(guān)系,才能區(qū)分開來。這些被稱為"困難負(fù)樣本"。研究人員早已發(fā)現(xiàn),在訓(xùn)練中加入困難負(fù)樣本,能大幅提升AI的理解能力。

但困難負(fù)樣本怎么來?研究團(tuán)隊(duì)發(fā)現(xiàn),現(xiàn)有方法通常是讓大型語言模型(可以理解為一個(gè)超級智能寫作助手)自動修改描述中的某個(gè)詞,生成一個(gè)"改了一點(diǎn)但很接近"的對比描述。同時(shí)用圖像生成模型,根據(jù)修改后的描述重新生成一張圖片,形成圖文對。

這里藏著一個(gè)關(guān)鍵漏洞:改哪個(gè)詞,效果差別極大。研究團(tuán)隊(duì)注意到,如果改的是"當(dāng)代風(fēng)格的臥室里有一張大床"中的"當(dāng)代",換成"老式風(fēng)格",生成的新圖片可能跟原圖幾乎沒有區(qū)別——兩張臥室照片看起來可以非常相似。但如果改的是"床"這個(gè)詞,換成"沙發(fā)",那生成的新圖片就會有明顯的結(jié)構(gòu)差異,AI一眼就能察覺到這種差別。

這個(gè)差別,正是本研究的起點(diǎn)。

二、"具體性":一把被遺忘的鑰匙

研究團(tuán)隊(duì)引入了一個(gè)來自心理語言學(xué)(研究語言與心理活動關(guān)系的學(xué)科)的概念:**詞語的"具體性"**(Concreteness)。

簡單來說,"具體性"衡量的是一個(gè)詞對應(yīng)的概念有多直接、多可感知。"蘋果"、"椅子"、"狗"、"火車"——這些詞讓你腦海中立刻浮現(xiàn)出具體的形象,具體性高。而"當(dāng)代"、"感情"、"風(fēng)格"、"狀態(tài)"——這些詞更抽象,很難對應(yīng)一個(gè)清晰的視覺形象,具體性低。

研究人員使用了一個(gè)包含約四萬個(gè)英語詞匯具體性評分的數(shù)據(jù)庫(由心理學(xué)研究者Brysbaert等人建立),每個(gè)詞都有1到5分的評分,分?jǐn)?shù)越高代表越具體。"雞肉"(chicken)的評分是4.8,"花椰菜"(broccoli)是4.87,而"當(dāng)代"(contemporary)這類形容詞分?jǐn)?shù)則低得多。

團(tuán)隊(duì)的核心假設(shè)是:當(dāng)你在訓(xùn)練AI時(shí),修改了一個(gè)高具體性詞語,生成的對比圖片就會產(chǎn)生明顯的視覺差異,從而給AI一個(gè)"強(qiáng)烈的學(xué)習(xí)信號"。修改低具體性詞語,則往往只產(chǎn)生模糊、微弱的變化,AI根本學(xué)不到什么。

這個(gè)假設(shè)聽起來簡單,但在學(xué)術(shù)領(lǐng)域,之前從沒有人系統(tǒng)地將詞語具體性與困難負(fù)樣本的質(zhì)量聯(lián)系起來分析。這正是本研究的原創(chuàng)性貢獻(xiàn)所在。

他們用一個(gè)直觀的例子來說明:同一張"當(dāng)代風(fēng)格臥室配一張大床"的照片,如果把"當(dāng)代"改成"老式",生成的新圖片變化細(xì)微;但如果把"床"改成"沙發(fā)",生成的新圖片就會有明顯的家具替換,兩張圖的差距肉眼可見。

三、ConcretePlant:專門挑"具體詞語"來搗亂的流水線

基于這個(gè)發(fā)現(xiàn),研究團(tuán)隊(duì)設(shè)計(jì)了一套自動化的困難負(fù)樣本生成流水線,取名為**ConcretePlant**(可以理解為"具體性工廠")。這套流水線分三個(gè)階段工作,就像一條精心設(shè)計(jì)的食品加工線:原材料進(jìn)來,經(jīng)過篩選、加工、成型,最終輸出高質(zhì)量的訓(xùn)練數(shù)據(jù)。

第一階段是"選詞"。給定一張圖片和它對應(yīng)的描述,流水線首先調(diào)用SpaCy(一個(gè)成熟的自然語言處理工具)來分析句子結(jié)構(gòu),把句子拆解成詞語,并標(biāo)注每個(gè)詞的詞性(名詞、形容詞、動詞等)。然后,它過濾掉那些功能性詞語(比如"的"、"和"、"在"這類連接詞),只保留有實(shí)質(zhì)內(nèi)容的詞。接下來,系統(tǒng)查詢具體性評分?jǐn)?shù)據(jù)庫,給每個(gè)候選詞打分,并選出分?jǐn)?shù)最高的那部分詞作為候選"目標(biāo)詞"。

為了避免每次都只改最高分的那一個(gè)詞而導(dǎo)致數(shù)據(jù)單調(diào),系統(tǒng)采用了"Top-K采樣"——從最高分的K個(gè)詞中隨機(jī)選一個(gè),保持多樣性。同時(shí),為了讓訓(xùn)練數(shù)據(jù)覆蓋不同類型的理解能力,系統(tǒng)還會根據(jù)詞語的語法角色,將生成的負(fù)樣本分為三類:屬性類(比如顏色、材質(zhì)等描述性詞語)、對象類(名詞,具體事物)、關(guān)系類(描述空間關(guān)系或互動的詞)。關(guān)系類因?yàn)樵跀?shù)據(jù)中相對稀少,會被優(yōu)先照顧;屬性類和對象類則通過配額機(jī)制保持平衡。

第二階段是"改描述"。確定了目標(biāo)詞之后,系統(tǒng)調(diào)用Qwen3-32B(一個(gè)強(qiáng)大的大語言模型)來生成修改后的描述。系統(tǒng)給Qwen3-32B的指令非常明確:把指定的詞換掉,生成一個(gè)和原場景視覺上沖突的新描述,但保持句子其他部分完全不變,且新描述必須在現(xiàn)實(shí)中合理(不能出現(xiàn)"一頂帽子戴著一個(gè)人"這種違反常識的表述)。為了讓生成效果更好,系統(tǒng)會根據(jù)不同的類別(屬性、對象、關(guān)系)提供不同的示例給大語言模型參考。

第三階段是"改圖片"。拿到修改后的描述,系統(tǒng)調(diào)用SDXL-Turbo(一個(gè)快速的圖像生成模型)對原圖進(jìn)行編輯,生成與新描述對應(yīng)的圖片。這個(gè)過程會有意設(shè)置較高的"修改強(qiáng)度",確保生成的圖片確實(shí)反映了描述的變化,而不是只做了微小的風(fēng)格調(diào)整。

經(jīng)過這條流水線,每個(gè)原始的圖文對都會產(chǎn)生一個(gè)對應(yīng)的"困難負(fù)樣本"——一張改動了具體物體或?qū)傩缘膱D片,加上一段只改了一個(gè)關(guān)鍵詞的描述。兩者看起來很接近,卻在關(guān)鍵地方有明顯的視覺語義差異。整套數(shù)據(jù)集被研究團(tuán)隊(duì)命名為**ConcreteBatch**。

四、梯度失衡:另一個(gè)藏在訓(xùn)練過程中的隱患

發(fā)現(xiàn)了數(shù)據(jù)質(zhì)量的問題,團(tuán)隊(duì)以為找到了全部答案——直到他們仔細(xì)分析訓(xùn)練過程中的數(shù)學(xué)信號,發(fā)現(xiàn)還有另一個(gè)麻煩潛伏在里面。

對比學(xué)習(xí)的訓(xùn)練過程,本質(zhì)上是讓AI不斷調(diào)整自己的"判斷力"。每次訓(xùn)練,AI會根據(jù)"判斷錯(cuò)了多少"來更新自己的參數(shù)。這個(gè)"判斷錯(cuò)了多少"對應(yīng)的數(shù)學(xué)量,叫做"梯度"——你可以把它理解為"糾錯(cuò)信號"的強(qiáng)度。糾錯(cuò)信號越強(qiáng),這次訓(xùn)練對AI的影響就越大。

問題在于:在一個(gè)典型的訓(xùn)練批次中,有一對"困難負(fù)樣本",還有成百上千對"簡單負(fù)樣本"。研究團(tuán)隊(duì)通過數(shù)學(xué)推導(dǎo)發(fā)現(xiàn),這些大量的簡單負(fù)樣本,會產(chǎn)生大量微弱但累積起來數(shù)量龐大的糾錯(cuò)信號;而困難負(fù)樣本產(chǎn)生的糾錯(cuò)信號雖然質(zhì)量高,卻被淹沒在簡單負(fù)樣本的"信號海洋"里。

打個(gè)比方:你在學(xué)鋼琴,老師讓你重點(diǎn)練一段困難的曲子,但每次練習(xí)時(shí)間里,你花了72%的時(shí)間在彈你早就熟練的簡單音階,只有不到28%的時(shí)間在認(rèn)真練那段難曲。這樣練下去,你的進(jìn)步會非常慢——因?yàn)槟愕木Χ急徊槐匾闹貜?fù)占滿了。

研究團(tuán)隊(duì)把這種現(xiàn)象稱為"梯度失衡",并通過實(shí)驗(yàn)直接測量了這一現(xiàn)象。他們發(fā)現(xiàn),在批次大小N=1024(意思是每次訓(xùn)練用1024對樣本)的情況下,簡單負(fù)樣本消耗了至少72%的總糾錯(cuò)信號。就算把批次縮小到N=256,失衡依然存在。

有人可能會說,那就把批次縮小唄。但研究團(tuán)隊(duì)發(fā)現(xiàn),減小批次會帶來另一個(gè)代價(jià):對比學(xué)習(xí)天生需要大批次才能讓AI學(xué)到多樣化的知識,避免認(rèn)知"偏食"。實(shí)驗(yàn)表明,把批次從1024縮小到256,AI在一般視覺理解任務(wù)上的表現(xiàn)下降了約2.16%,在組合理解任務(wù)上下降了約1.18%。這不是可以接受的代價(jià)。

五、Cement Loss:用物理學(xué)公式給糾錯(cuò)信號"重新分配權(quán)重"

面對梯度失衡,研究團(tuán)隊(duì)提出的解決方案既優(yōu)雅又直觀:在計(jì)算困難負(fù)樣本的"相似度得分"時(shí),人為加上一個(gè)"邊距"(margin),讓困難負(fù)樣本在數(shù)學(xué)上"看起來更難分辨",從而迫使AI給它更多關(guān)注。

具體來說,在訓(xùn)練的數(shù)學(xué)計(jì)算中,每對樣本都有一個(gè)相似度得分。系統(tǒng)將困難負(fù)樣本的相似度得分加上一個(gè)正值m,使它在計(jì)算中看起來"更接近正確答案",這樣AI就不得不更努力地去區(qū)分這個(gè)困難案例。這個(gè)操作就像是在游戲中給困難關(guān)卡增加權(quán)重——不管它實(shí)際上有多容易,系統(tǒng)都會認(rèn)為它更重要。

但"邊距m應(yīng)該設(shè)多大",這本身又是一個(gè)新問題。太大了,AI會過度關(guān)注困難負(fù)樣本,忽視一般的知識學(xué)習(xí);太小了,效果不明顯。更關(guān)鍵的是,不同的困難負(fù)樣本,困難程度也不一樣——一張改了"雞肉"的圖片比改了"風(fēng)格"的圖片更容易辨認(rèn),理應(yīng)得到不同強(qiáng)度的糾錯(cuò)信號。

研究團(tuán)隊(duì)從圖像數(shù)據(jù)中發(fā)現(xiàn)了一個(gè)規(guī)律:詞語的具體性得分,與模型在那對樣本上的"得分差距"(正確答案得分減去錯(cuò)誤答案得分)之間存在線性關(guān)系——具體性越高的詞,生成的負(fù)樣本對AI來說越容易區(qū)分,得分差距越大。這意味著具體性得分本身,就是判斷"這個(gè)負(fù)樣本有多有價(jià)值"的一個(gè)可靠指標(biāo)。

基于這個(gè)規(guī)律,研究團(tuán)隊(duì)用一個(gè)來自物理學(xué)的公式來建模自適應(yīng)邊距——費(fèi)米-狄拉克分布(Fermi-Dirac distribution)。這個(gè)公式原本是量子物理學(xué)中描述電子能級分布的,但它有一個(gè)非常實(shí)用的數(shù)學(xué)性質(zhì):它能在某個(gè)閾值附近產(chǎn)生平滑的"相變",讓輸出值從低端平滑過渡到高端,同時(shí)被約束在一個(gè)固定范圍內(nèi)。

通俗來說,就是:具體性低的詞生成的負(fù)樣本,對應(yīng)一個(gè)較小甚至為負(fù)的邊距(降低它的權(quán)重);具體性高的詞生成的負(fù)樣本,對應(yīng)一個(gè)較大的邊距(提升它的權(quán)重)。整個(gè)過渡是平滑的,不會突然跳變。邊距的范圍被約束在[-2, 2]之間,防止任何極端情況。

這套結(jié)合了具體性評分和自適應(yīng)邊距的損失函數(shù),被研究團(tuán)隊(duì)命名為**Cement Loss**(水泥損失函數(shù),與"混凝土/具體性"的英文concrete呼應(yīng)),而使用ConcreteBatch數(shù)據(jù)和Cement Loss訓(xùn)練的模型,則被命名為**Slipform**(滑模成型,一種建筑工程術(shù)語,指連續(xù)澆筑混凝土的工藝——整個(gè)命名體系都在呼應(yīng)"混凝土"這個(gè)核心意象)。

六、數(shù)據(jù)集的檢驗(yàn):真的更難嗎

在正式訓(xùn)練和評測之前,研究團(tuán)隊(duì)對自己生成的數(shù)據(jù)集做了一次全面的"體檢",以驗(yàn)證數(shù)據(jù)質(zhì)量符合預(yù)期。

他們對比了三個(gè)數(shù)據(jù)集:Dhc(高具體性關(guān)鍵詞生成的負(fù)樣本)、Dlc(低具體性關(guān)鍵詞生成的負(fù)樣本)、Dwo(不考慮具體性隨機(jī)選詞生成的負(fù)樣本)。

在最核心的"視覺差異"指標(biāo)上,他們用DINOScore來衡量——這個(gè)指標(biāo)由DINOv2模型計(jì)算,數(shù)值越低代表兩張圖片差異越大。結(jié)果正如預(yù)期:Dhc的DINOScore最低,意味著高具體性詞生成的圖片對差異最大;Dlc的DINOScore最高,圖片對差異最?。籇wo居中。這直接驗(yàn)證了核心假設(shè):修改具體性更高的詞,確實(shí)會生成視覺差異更大的圖片對。

在"樣本難度"上,他們用"邏輯得分差距"來衡量——這個(gè)指標(biāo)計(jì)算模型對正確圖文對和錯(cuò)誤圖文對的預(yù)測得分差。Dhc的得分差距最大(AI更容易分辨),Dlc的得分差距最小(AI更難分辨)。這看似是個(gè)矛盾——難道高具體性的數(shù)據(jù)反而更容易,那它還有訓(xùn)練價(jià)值嗎?

研究團(tuán)隊(duì)解釋,這里有一個(gè)重要的區(qū)別:這里測量的是一個(gè)已經(jīng)訓(xùn)練好的模型(PE-Core-L-14-336)對這批數(shù)據(jù)的得分,而不是被訓(xùn)練模型的表現(xiàn)。高具體性圖片對的大得分差距,恰恰說明圖片間的視覺語義差異更清晰、更容易被感知——這正是它能給訓(xùn)練提供更強(qiáng)學(xué)習(xí)信號的原因。真正"難"的,是Dlc——它生成的圖片對視覺差異微弱,模型難以分辨,但這種"難"是因?yàn)樨?fù)樣本本身質(zhì)量差(改變太不明顯),而不是因?yàn)樗N(yùn)含了有價(jià)值的組合語義差別。

另外,團(tuán)隊(duì)還檢查了一個(gè)潛在擔(dān)憂:高具體性詞(尤其是二元詞組,比如"咖啡杯"、"消防栓")在替換后,會不會導(dǎo)致文本描述發(fā)生太大的語義漂移,使得生成的圖文對不再是有效的訓(xùn)練樣本?他們通過BERTScore(衡量兩段文字語義相似度的指標(biāo))發(fā)現(xiàn),高具體性詞替換確實(shí)會導(dǎo)致BERTScore下降,但這主要是因?yàn)楦呔唧w性詞往往是多詞短語,替換時(shí)會改變更多字符。從CLIPScore和DINOScore之間的相關(guān)性來看,文字變化和圖像變化之間保持著一致的對應(yīng)關(guān)系,說明生成的負(fù)樣本是有效的,而不是隨意亂改的。

七、實(shí)驗(yàn)結(jié)果:數(shù)字背后的故事

研究團(tuán)隊(duì)將Slipform與一系列已有方法進(jìn)行了對比,包括最基礎(chǔ)的CLIP模型(原始版本)、NegCLIP(加入了負(fù)樣本訓(xùn)練的版本)、TSVLC、TripletCLIP、CE-CLIP、DeGLA等多個(gè)方法。所有實(shí)驗(yàn)都基于ViT-B-32(一種常用的視覺Transformer骨干網(wǎng)絡(luò))在單塊NVIDIA H200 GPU上完成,使用MS-COCO數(shù)據(jù)集的Karpathy訓(xùn)練分割來生成ConcreteBatch數(shù)據(jù)。

在**組合理解基準(zhǔn)測試**上,評測使用了三個(gè)權(quán)威的組合語義理解測試集:SugarCrepe(測試模型是否能區(qū)分細(xì)微的描述差異)、SugarCrepe++(SugarCrepe的升級版,包含圖到文和文到圖兩個(gè)方向)、以及Winoground(一個(gè)專門測試視覺語言組合理解的經(jīng)典挑戰(zhàn)性數(shù)據(jù)集)。

結(jié)果顯示,Slipform在這些測試上的宏觀平均準(zhǔn)確率達(dá)到了54.18,相比原始CLIP模型的47.89,提升了約13.13%(相對提升)。在所有對比方法中,Slipform取得了最高的宏觀平均分。

數(shù)據(jù)集對比方面,使用Dhc訓(xùn)練的模型(高具體性數(shù)據(jù))在幾乎所有子任務(wù)上都優(yōu)于使用Dlc(低具體性數(shù)據(jù))訓(xùn)練的模型,而Dwo(隨機(jī)選詞)的結(jié)果介于兩者之間。這個(gè)趨勢在不同損失函數(shù)(InfoNCE vs. Cement Loss)下都一致存在,有力地支持了"高具體性數(shù)據(jù)質(zhì)量更高"的核心論點(diǎn)。

Cement Loss對比InfoNCE的效果也很穩(wěn)定:在相同數(shù)據(jù)集下,使用Cement Loss訓(xùn)練的模型普遍優(yōu)于使用InfoNCE訓(xùn)練的模型。研究團(tuán)隊(duì)還測試了"反向邊距"(把高具體性詞對應(yīng)低邊距、低具體性詞對應(yīng)高邊距,正好與理論相反)的效果,結(jié)果如預(yù)期所示,反向邊距會降低性能,驗(yàn)證了邊距設(shè)計(jì)方向的正確性。

不過,在**一般視覺表示基準(zhǔn)測試**上(包括ImageNet-1k圖像分類、MS-COCO多標(biāo)簽分類、Flickr30k跨模態(tài)檢索、以及VTAB視覺任務(wù)適應(yīng)基準(zhǔn)),Slipform的表現(xiàn)與原始CLIP模型相比有一定的此消彼長。比如ImageNet-1k的Top-1準(zhǔn)確率(分類正確率)從CLIP的43.12%略微下降到Slipform的43.11%;在Flickr30k檢索任務(wù)上也有類似的輕微波動。

研究團(tuán)隊(duì)直接承認(rèn)了這個(gè)權(quán)衡:針對細(xì)粒度組合語義的優(yōu)化,確實(shí)會對更廣泛的視覺表示能力產(chǎn)生一定的"擠壓"效應(yīng)。這是當(dāng)前方法內(nèi)在的張力,團(tuán)隊(duì)明確將其列為未來需要解決的問題,而不是試圖回避。

在梯度失衡的實(shí)證驗(yàn)證上,圖6的數(shù)據(jù)說明得很清楚:隨著批次大小從256增加到1024,InfoNCE中困難負(fù)樣本糾錯(cuò)信號占總正樣本糾錯(cuò)信號的比率從約0.32急劇下降到不足0.20;而Cement Loss(自適應(yīng)邊距版本)在各種批次大小下都能將這個(gè)比率維持在更高水平,且相應(yīng)地,組合理解平均分也更高。

八、尚未完成的拼圖:誠實(shí)的局限與展望

研究團(tuán)隊(duì)在論文末尾對幾個(gè)尚待解決的問題做了坦率的說明,這本身值得關(guān)注。

第一個(gè)問題是具體性評分?jǐn)?shù)據(jù)庫的覆蓋范圍?,F(xiàn)有的具體性評分(Brysbaert等人建立的數(shù)據(jù)庫)是基于人類對詞語的總體感知,涵蓋了視覺、觸覺、聽覺、嗅覺、味覺等多種感知方式的綜合評分。但對于訓(xùn)練視覺AI來說,更理想的是專門針對視覺可感知性的評分——畢竟"咆哮"(roar)這個(gè)詞聽覺上很具體,視覺上卻不一定。研究團(tuán)隊(duì)指出,將視覺專屬具體性評分引入ConcretePlant,可能會進(jìn)一步提升數(shù)據(jù)質(zhì)量。

第二個(gè)問題是組合理解與一般視覺表示之間的性能權(quán)衡。如何在不犧牲廣泛視覺理解能力的前提下,持續(xù)提升組合語義理解,是一個(gè)需要更深入探索的方向。

第三個(gè)方向則是將這套方法擴(kuò)展到視頻理解、多模態(tài)下游任務(wù)等更廣泛的應(yīng)用場景,以及將生成的高質(zhì)量數(shù)據(jù)作為子模塊用于更復(fù)雜的系統(tǒng)中。

說到底,這項(xiàng)研究做的事情,其實(shí)和一個(gè)好老師教學(xué)生沒什么兩樣。好老師不會用太簡單的題目讓學(xué)生一直重復(fù)練習(xí),也不會用完全沒有意義的題目浪費(fèi)學(xué)生的時(shí)間——他們會精心挑選那些"剛剛好有難度、剛剛好能揭示知識核心"的練習(xí)題。亞利桑那州立大學(xué)的團(tuán)隊(duì)發(fā)現(xiàn),在給AI挑選"練習(xí)題"的時(shí)候,有一條被長期忽視的選題原則:改一道題里"最具體、最真實(shí)的那個(gè)詞",這道題就會變得更有教育價(jià)值。

圍繞著這個(gè)發(fā)現(xiàn),他們建了一套自動出題的系統(tǒng)(ConcretePlant),還改進(jìn)了評分機(jī)制(Cement Loss),讓AI在做練習(xí)時(shí)能把注意力更多地放在真正有挑戰(zhàn)性的題目上,而不是被大量簡單題的"噪音"分散精力。最終訓(xùn)練出來的Slipform模型,在理解"誰對誰做了什么"這類需要真正讀懂句子邏輯的任務(wù)上,比之前的方法提升了超過13%。

當(dāng)然,就像幾乎所有專注于某一方面的訓(xùn)練方式一樣,這種"專項(xiàng)強(qiáng)化"也帶來了一些對其他能力的輕微影響。這是真實(shí)存在的權(quán)衡,研究團(tuán)隊(duì)沒有回避它。

這項(xiàng)工作留下了一個(gè)有趣的延伸問題值得思考:當(dāng)我們在訓(xùn)練AI"認(rèn)識世界"的時(shí)候,我們到底希望它先學(xué)會認(rèn)識什么?是先認(rèn)識"蘋果"和"椅子"這樣具體的東西,還是先認(rèn)識"美麗"和"當(dāng)代"這樣抽象的概念?人類孩子的語言習(xí)得順序,或許真的能給AI的訓(xùn)練數(shù)據(jù)設(shè)計(jì)帶來更多啟示。感興趣的讀者可以通過arXiv:2604.13313v1獲取這篇研究的完整論文。

Q&A

Q1:困難負(fù)樣本在AI訓(xùn)練中起什么作用?

A:困難負(fù)樣本是指與正確答案在表面上非常相似、但實(shí)際上不匹配的訓(xùn)練案例,比如只改了一個(gè)詞的圖文描述對。訓(xùn)練AI時(shí)加入這類樣本,能迫使模型真正理解詞語之間的邏輯關(guān)系,而不是靠猜整體主題來匹配圖文,從而提升對細(xì)節(jié)和組合關(guān)系的理解能力。

Q2:詞語具體性評分?jǐn)?shù)據(jù)庫是什么,從哪里來的?

A:這個(gè)數(shù)據(jù)庫由心理學(xué)研究者Brysbaert等人建立,包含約四萬個(gè)常見英語詞匯的具體性評分,每個(gè)詞的分?jǐn)?shù)在1到5之間,分?jǐn)?shù)越高代表越容易與真實(shí)可感知的事物對應(yīng),比如"雞肉"接近5分,"當(dāng)代"分?jǐn)?shù)較低。該數(shù)據(jù)庫發(fā)表于2014年的學(xué)術(shù)期刊《Behavior Research Methods》。

Q3:Cement Loss和普通的InfoNCE損失函數(shù)有什么區(qū)別?

A:普通InfoNCE在計(jì)算訓(xùn)練信號時(shí),大量簡單負(fù)樣本會占據(jù)絕大多數(shù)的"糾錯(cuò)信號",使困難負(fù)樣本的學(xué)習(xí)效果被稀釋。Cement Loss在此基礎(chǔ)上,根據(jù)每個(gè)負(fù)樣本對應(yīng)詞語的具體性評分,自適應(yīng)地給困難負(fù)樣本增加一個(gè)"邊距",讓模型在訓(xùn)練時(shí)把更多注意力分配給真正有價(jià)值的困難案例,從而更高效地學(xué)習(xí)組合語義差異。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
50歲男子肌肉溶解離世,醫(yī)生痛心提醒:長期吃降脂藥犯了5個(gè)錯(cuò)誤

50歲男子肌肉溶解離世,醫(yī)生痛心提醒:長期吃降脂藥犯了5個(gè)錯(cuò)誤

垚垚分享健康
2026-04-28 11:15:14
隨著特魯姆普爆冷12-13,吳宜澤13-11,斯諾克世錦賽8強(qiáng)對陣出爐

隨著特魯姆普爆冷12-13,吳宜澤13-11,斯諾克世錦賽8強(qiáng)對陣出爐

側(cè)身凌空斬
2026-04-28 05:28:25
中共自然資源部黨組關(guān)于趙培劍、丁明柱、趙鳴、宋振亞、周鋒任職的通知

中共自然資源部黨組關(guān)于趙培劍、丁明柱、趙鳴、宋振亞、周鋒任職的通知

海洋知圈
2026-04-27 21:39:53
警惕經(jīng)濟(jì)的“無就業(yè)增長”

警惕經(jīng)濟(jì)的“無就業(yè)增長”

沈素明
2026-04-28 07:23:38
《妻子的浪漫旅行2026》孫楊回應(yīng)與妻子張豆豆相處模式引爭議:由于職業(yè)原因,像這樣的旅行是第一次,看到了不足,有一個(gè)好老婆很重要

《妻子的浪漫旅行2026》孫楊回應(yīng)與妻子張豆豆相處模式引爭議:由于職業(yè)原因,像這樣的旅行是第一次,看到了不足,有一個(gè)好老婆很重要

魯中晨報(bào)
2026-04-28 09:53:07
伊朗最高法院維持死刑判決 父親被判死刑女兒獲刑25年

伊朗最高法院維持死刑判決 父親被判死刑女兒獲刑25年

桂系007
2026-04-27 23:59:53
名記:杜蘭特或已打完火箭生涯最后一場球,下家是紐約和熱火

名記:杜蘭特或已打完火箭生涯最后一場球,下家是紐約和熱火

懂球帝
2026-04-28 09:32:05
戚薇這腳趾看著好辛苦,隔著屏幕都替她累得慌

戚薇這腳趾看著好辛苦,隔著屏幕都替她累得慌

東方不敗然多多
2026-04-23 10:37:33
互聯(lián)網(wǎng)是有記憶的,她的黑歷史一大堆??!

互聯(lián)網(wǎng)是有記憶的,她的黑歷史一大堆??!

BenSir本色說
2026-04-15 22:38:07
放棄克洛普!皇馬換帥突生變數(shù),伯納烏或?qū)⒂瓉怼白约胰?>
    </a>
        <h3>
      <a href=奶蓋熊本熊
2026-04-29 00:05:53
600678,將被“ST”!

600678,將被“ST”!

中國基金報(bào)
2026-04-28 23:15:48
美股三大指數(shù)集體收跌,道指跌0.06%,納指跌0.9%,標(biāo)普500指數(shù)跌0.49%,熱門科技股多數(shù)下跌,博通跌超4%,英偉達(dá)跌超1%。

美股三大指數(shù)集體收跌,道指跌0.06%,納指跌0.9%,標(biāo)普500指數(shù)跌0.49%,熱門科技股多數(shù)下跌,博通跌超4%,英偉達(dá)跌超1%。

財(cái)聯(lián)社
2026-04-29 04:08:08
新娘確實(shí)漂亮,但我更喜歡戴眼鏡那個(gè)。

新娘確實(shí)漂亮,但我更喜歡戴眼鏡那個(gè)。

動物奇奇怪怪
2026-04-12 12:44:36
三連鞭后五連鞭,趙心童3:5墨菲暫時(shí)落后

三連鞭后五連鞭,趙心童3:5墨菲暫時(shí)落后

佳佳說奇事故事
2026-04-29 03:43:45
林志玲自曝和公婆住一起:換了一個(gè)比較大的房子,老公每天傍晚準(zhǔn)時(shí)回家,陪兒子一起吃飯

林志玲自曝和公婆住一起:換了一個(gè)比較大的房子,老公每天傍晚準(zhǔn)時(shí)回家,陪兒子一起吃飯

臺州交通廣播
2026-04-28 13:46:36
鋰電池板塊業(yè)績炸裂,多家公司凈利漲超1000%,最高漲超2297%

鋰電池板塊業(yè)績炸裂,多家公司凈利漲超1000%,最高漲超2297%

21世紀(jì)經(jīng)濟(jì)報(bào)道
2026-04-28 22:55:26
動真格了,國安部出手,揪出鼓吹躺平的境外勢力,評論區(qū)意味深長

動真格了,國安部出手,揪出鼓吹躺平的境外勢力,評論區(qū)意味深長

譚談社會
2026-04-28 15:10:51
7天第3艘,美軍開始在印度洋獵殺伊朗油輪,目的地是中國舟山

7天第3艘,美軍開始在印度洋獵殺伊朗油輪,目的地是中國舟山

矚望云霄
2026-04-28 13:04:41
廣東男籃主場17分負(fù)廣州,杜鋒難受,正義必勝!

廣東男籃主場17分負(fù)廣州,杜鋒難受,正義必勝!

二爺臺球解說
2026-04-29 03:36:39
跑馬人最慘遭遇:酒店不隔音,隔壁情侶的“聲音”讓我徹底崩潰

跑馬人最慘遭遇:酒店不隔音,隔壁情侶的“聲音”讓我徹底崩潰

馬拉松跑步健身
2026-04-26 21:41:40
2026-04-29 04:44:49
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
8183文章數(shù) 563關(guān)注度
往期回顧 全部

科技要聞

10億周活目標(biāo)落空!傳OpenAI爆發(fā)內(nèi)部分歧

頭條要聞

19歲中國女孩被困緬甸 交20萬贖金園區(qū)仍未放人

頭條要聞

19歲中國女孩被困緬甸 交20萬贖金園區(qū)仍未放人

體育要聞

魔術(shù)黑八活塞,一步之遙?!

娛樂要聞

蔡卓妍官宣結(jié)婚,老公比她小10歲

財(cái)經(jīng)要聞

中央政治局會議定調(diào),八大看點(diǎn)速覽!

汽車要聞

拒絕瘋狂套娃!現(xiàn)代艾尼氪金星長在未來審美點(diǎn)上

態(tài)度原創(chuàng)

教育
健康
家居
親子
藝術(shù)

教育要聞

教育部通知,今年9月份開始,上學(xué)的規(guī)則全變了

干細(xì)胞治療燒燙傷三大優(yōu)勢!

家居要聞

江景風(fēng)格 流動的秩序

親子要聞

拍這期視頻時(shí)眼淚止不住地流

藝術(shù)要聞

京東浙江總部公示,99.99米高,中國第一民企落子民營大?。?/h3>

無障礙瀏覽 進(jìn)入關(guān)懷版