国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

Cohere、SEACrowd等機(jī)構(gòu)的視覺(jué)語(yǔ)言模型區(qū)域化適配研究全解析

0
分享至


這項(xiàng)由Cohere、SEACrowd、AI Singapore、MBZUAI、卡內(nèi)基梅隆大學(xué)、斯坦福大學(xué)、布朗大學(xué)等數(shù)十家機(jī)構(gòu)聯(lián)合完成的研究,發(fā)表于2026年4月,論文編號(hào)為arXiv:2604.11490,有興趣深入了解的讀者可以通過(guò)該編號(hào)查詢完整論文。研究聚焦于一個(gè)聽(tīng)起來(lái)有些抽象但其實(shí)與每個(gè)人都息息相關(guān)的問(wèn)題:當(dāng)人工智能走向全球,它真的能理解不同地區(qū)的文化嗎?

你有沒(méi)有想過(guò),當(dāng)一個(gè)東南亞人對(duì)著手機(jī)AI助手展示一張炸香蕉餅或者宋卡湖的照片時(shí),AI是否真的"認(rèn)識(shí)"這些東西?或者當(dāng)一個(gè)泰國(guó)人問(wèn)AI"這道菜是什么",AI是否能給出真正符合當(dāng)?shù)匚幕尘暗幕卮??事?shí)往往令人失望:絕大多數(shù)AI系統(tǒng)是在以英語(yǔ)為主的西方數(shù)據(jù)上訓(xùn)練的,它們對(duì)非洲、印度、中東、東南亞等地區(qū)的文化認(rèn)知,可以說(shuō)相當(dāng)貧乏。

正是為了解決這個(gè)現(xiàn)實(shí)問(wèn)題,來(lái)自全球超過(guò)30所頂尖機(jī)構(gòu)的研究人員聯(lián)手,提出了一套全新的框架和方法。他們的核心主張是:AI不僅要"聰明",還要"有文化",而且這兩件事不應(yīng)該互相矛盾。

一、為什么AI會(huì)"水土不服",以及這件事有多嚴(yán)重

以餐廳的服務(wù)員做比較,能解釋清楚這個(gè)問(wèn)題的根源。一位在紐約五星級(jí)酒店培訓(xùn)了多年的服務(wù)員,去到東南亞鄉(xiāng)村小館子,可能完全不知道如何向顧客推薦椰漿飯,也不懂得當(dāng)?shù)氐娘嬍澄幕Y儀。這并不是因?yàn)樗粔蚵斆?,而是他從?lái)沒(méi)有接受過(guò)這方面的訓(xùn)練。

當(dāng)今最強(qiáng)大的視覺(jué)語(yǔ)言模型——也就是那些既能"看圖"又能"說(shuō)話"的AI系統(tǒng)——面臨的恰恰是同樣的困境。這類(lèi)模型的訓(xùn)練數(shù)據(jù)絕大部分來(lái)自互聯(lián)網(wǎng)上以英語(yǔ)為主的內(nèi)容,而互聯(lián)網(wǎng)上的內(nèi)容本身就極度不均衡:西方國(guó)家、東亞發(fā)達(dá)地區(qū)產(chǎn)出的數(shù)字內(nèi)容遠(yuǎn)遠(yuǎn)多于東南亞、南亞、非洲等地區(qū)。結(jié)果就是,AI系統(tǒng)在被問(wèn)到歐美文化內(nèi)容時(shí)表現(xiàn)出色,一旦遇到東南亞的傳統(tǒng)服飾、地方建筑、本土食物,就開(kāi)始"答非所問(wèn)"甚至給出帶有刻板印象的回答。

研究團(tuán)隊(duì)對(duì)此做了系統(tǒng)性觀察。他們發(fā)現(xiàn),現(xiàn)有的多語(yǔ)言視覺(jué)語(yǔ)言模型,包括MAYA-8B、PaliGemma-2-10B、Pangea-7B、Qwen2-VL-7B、Gemma-3等一系列知名系統(tǒng),在面對(duì)專(zhuān)門(mén)為東南亞文化設(shè)計(jì)的測(cè)試題目時(shí),表現(xiàn)都不盡如人意。這些測(cè)試包括SEAVQA(東南亞視覺(jué)問(wèn)答)、CVQA(文化多樣性視覺(jué)問(wèn)答)和World Cuisines(全球菜肴識(shí)別)等基準(zhǔn)測(cè)試。

與此同時(shí),確實(shí)存在一些專(zhuān)門(mén)為特定地區(qū)定制的AI模型,比如專(zhuān)為阿拉伯語(yǔ)設(shè)計(jì)的VIOLET、為韓語(yǔ)優(yōu)化的VARCO-VISION、以及面向東南亞的SEA-LION-VL。這些"本土專(zhuān)家"在自己的主場(chǎng)表現(xiàn)很好,但一旦被問(wèn)到更廣泛的全球性問(wèn)題,它們就顯得力不從心了。這就像一位精通川菜的廚師,突然被要求制作法式大餐時(shí)會(huì)手忙腳亂。

于是,研究者們面對(duì)一個(gè)兩難困境:要么是"全能選手"(全球模型)——什么都會(huì)一點(diǎn)但對(duì)東南亞文化一知半解;要么是"地方專(zhuān)家"(區(qū)域模型)——本地文化了解透徹但出了自己的地盤(pán)就不行了。這項(xiàng)研究的核心,就是找到一條同時(shí)兼顧兩者的道路。

二、"擬人化區(qū)域適配":給AI量身定制的文化融合框架

研究團(tuán)隊(duì)提出了一個(gè)聽(tīng)起來(lái)有點(diǎn)學(xué)術(shù)但本質(zhì)上非常直觀的框架,稱(chēng)為"擬人化區(qū)域適配"(Anthropogenic Regional Adaptation)。"擬人化"這個(gè)詞在這里的意思是,AI的目標(biāo)是理解人類(lèi)文化和社會(huì)活動(dòng),而不僅僅是識(shí)別圖像中的物理特征。

從數(shù)學(xué)上說(shuō),研究者把整個(gè)世界劃分成若干個(gè)"區(qū)域",每個(gè)區(qū)域有自己獨(dú)特的評(píng)價(jià)標(biāo)準(zhǔn)和文化特征。模型的目標(biāo)是在優(yōu)化特定目標(biāo)區(qū)域表現(xiàn)的同時(shí),不能讓全球范圍內(nèi)的整體表現(xiàn)大幅下滑。為了量化這種平衡,他們引入了一個(gè)叫做"全球化因子"的參數(shù),用希臘字母α表示,取值在0到1之間。當(dāng)α接近1時(shí),模型更注重維持全球通用能力;當(dāng)α接近0時(shí),模型更專(zhuān)注于強(qiáng)化某個(gè)特定區(qū)域的表現(xiàn)。

更巧妙的是,研究團(tuán)隊(duì)并沒(méi)有憑空設(shè)定這個(gè)參數(shù),而是借用了一個(gè)來(lái)自社會(huì)科學(xué)領(lǐng)域的工具——KOF全球化指數(shù)(Konjunkturforschungsstelle Globalization Index)。這個(gè)指數(shù)由瑞士蘇黎世聯(lián)邦理工學(xué)院每年更新,衡量全球190個(gè)國(guó)家在政治、經(jīng)濟(jì)、社會(huì)等多個(gè)維度上的全球化程度。

用一個(gè)直觀的例子來(lái)理解:新加坡是一個(gè)高度全球化的城市國(guó)家,與國(guó)際接軌程度極高,所以針對(duì)新加坡優(yōu)化的AI模型應(yīng)該設(shè)置一個(gè)較高的α值,確保其保持強(qiáng)大的全球通用能力。相比之下,緬甸或老撾的全球化程度相對(duì)較低,社會(huì)文化更具本地特色,針對(duì)這些國(guó)家的模型可以把α設(shè)得低一些,更側(cè)重本地文化的表達(dá)。

研究團(tuán)隊(duì)以2023年KOF全球化指數(shù)中的"事實(shí)人際交往"分項(xiàng)作為基準(zhǔn),計(jì)算東南亞區(qū)域所有國(guó)家的平均值,得出α=0.43。這意味著在評(píng)估東南亞模型時(shí),43%的權(quán)重給全球通用表現(xiàn),57%的權(quán)重給東南亞地區(qū)特定表現(xiàn)。這個(gè)比例的確定不是研究者拍腦袋定的,而是有可量化、可復(fù)現(xiàn)的社會(huì)科學(xué)依據(jù)。

研究者還指出,隨著時(shí)間推移,全球化指數(shù)本身也在變化——從1993年到2023年,東南亞地區(qū)的全球化指數(shù)從36.04穩(wěn)步上升到43.40。這意味著這套評(píng)價(jià)體系會(huì)隨時(shí)代變化而自然調(diào)整,不會(huì)一成不變。

三、"GG-EZ":讓AI輕松實(shí)現(xiàn)文化適配的兩步走方法

框架有了,具體怎么做呢?研究團(tuán)隊(duì)設(shè)計(jì)了一套名為"GG-EZ"的方法,全稱(chēng)是"地理泛化輕松實(shí)現(xiàn)"(Geographical Generalization Made Easy)。這個(gè)名字帶著一絲幽默感,暗指這個(gè)方法的操作相對(duì)簡(jiǎn)單卻效果顯著。

GG-EZ的核心思路可以用改造一位廚師來(lái)比喻。假設(shè)你有一位接受過(guò)嚴(yán)格法式料理訓(xùn)練的廚師(全球模型),現(xiàn)在你希望他也能做出地道的東南亞菜肴,同時(shí)不要忘掉他原本掌握的法式技藝。GG-EZ分兩步走完成這個(gè)改造。

第一步叫做"區(qū)域質(zhì)量過(guò)濾"。這一步的任務(wù)是精心挑選用于培訓(xùn)的食材和食譜。具體來(lái)說(shuō),研究團(tuán)隊(duì)首先用一個(gè)地理過(guò)濾器,從海量數(shù)據(jù)中篩選出真正屬于東南亞文化背景的內(nèi)容。一張?jiān)侥虾臃鄣膱D片和一篇關(guān)于菲律賓節(jié)日的文字,會(huì)被保留下來(lái);而一張通用的意大利面圖片就會(huì)被過(guò)濾掉。

光靠地理標(biāo)簽還不夠,因?yàn)榛ヂ?lián)網(wǎng)上東南亞相關(guān)的內(nèi)容質(zhì)量良莠不齊。研究團(tuán)隊(duì)還引入了一個(gè)專(zhuān)門(mén)評(píng)估數(shù)據(jù)質(zhì)量的"獎(jiǎng)勵(lì)模型"(UnifiedReward),為每條數(shù)據(jù)打分,只保留得分在3分及以上的高質(zhì)量?jī)?nèi)容。他們對(duì)比了四種不同的質(zhì)量評(píng)估工具:ImageReward、HPSv2、VisionReward-Image和UnifiedReward,最終選擇UnifiedReward的原因是它在與人類(lèi)評(píng)判一致性方面表現(xiàn)良好(正確率44.2%),同時(shí)支持批量高效處理,適合大規(guī)模數(shù)據(jù)過(guò)濾。

除了篩選現(xiàn)有數(shù)據(jù),團(tuán)隊(duì)還做了一件重要的事:把高質(zhì)量的英語(yǔ)數(shù)據(jù)翻譯成東南亞地區(qū)的主要語(yǔ)言,包括印度尼西亞語(yǔ)、馬來(lái)語(yǔ)、泰語(yǔ)、越南語(yǔ)、菲律賓語(yǔ)、高棉語(yǔ)、老撾語(yǔ)、中文和泰米爾語(yǔ)。對(duì)于高棉語(yǔ)和老撾語(yǔ)這樣的小語(yǔ)種,他們專(zhuān)門(mén)測(cè)試了多種翻譯工具的效果,最終為不同語(yǔ)言選擇了最合適的翻譯系統(tǒng)——Gemini-2.5-Flash被用于泰語(yǔ)、緬甸語(yǔ)、老撾語(yǔ)、高棉語(yǔ)和泰米爾語(yǔ),而Gemma-3-27B則被用于印度尼西亞語(yǔ)、越南語(yǔ)、標(biāo)準(zhǔn)馬來(lái)語(yǔ)、菲律賓語(yǔ)和中文。

第二步叫做"全球-區(qū)域精煉",分為兩個(gè)環(huán)節(jié):先用精心篩選的東南亞數(shù)據(jù)對(duì)全球模型進(jìn)行微調(diào)訓(xùn)練,把它變成一個(gè)東南亞文化專(zhuān)家;然后用一種叫做"模型合并"的技術(shù),把這個(gè)新培訓(xùn)出來(lái)的區(qū)域?qū)<夷P团c原始的全球模型進(jìn)行線性融合。融合的比例用參數(shù)β來(lái)控制:β=1意味著完全用區(qū)域?qū)<夷P?,?0意味著完全用原始全球模型,而β=0.1則表示10%區(qū)域模型加90%原始全球模型的組合。

模型合并這個(gè)概念值得多解釋幾句。當(dāng)你對(duì)一個(gè)AI模型進(jìn)行專(zhuān)門(mén)訓(xùn)練時(shí),它在新領(lǐng)域的表現(xiàn)會(huì)提升,但往往會(huì)"忘記"一些原本掌握的能力,這個(gè)現(xiàn)象叫做"災(zāi)難性遺忘"——就好比那位廚師學(xué)了兩年?yáng)|南亞菜之后,突然發(fā)現(xiàn)自己連紅酒燉牛肉都做不好了。模型合并的作用,就是讓兩個(gè)版本的"知識(shí)"融合在一起,既保住了原有能力,又融入了新學(xué)到的文化知識(shí)。

四、三種架構(gòu)、十一個(gè)國(guó)家、一場(chǎng)大規(guī)模實(shí)驗(yàn)

研究團(tuán)隊(duì)沒(méi)有滿足于在一種AI架構(gòu)上驗(yàn)證方法,而是在三種截然不同的視覺(jué)語(yǔ)言模型架構(gòu)上同時(shí)進(jìn)行了實(shí)驗(yàn),以東南亞地區(qū)(涵蓋新加坡、印度尼西亞、馬來(lái)西亞、文萊、泰國(guó)、菲律賓、越南、緬甸、柬埔寨、老撾、東帝汶共11個(gè)國(guó)家,總?cè)丝诩s7億)作為案例研究對(duì)象。

第一種是大規(guī)模視覺(jué)語(yǔ)言模型SEA-VLM,基于Google的Gemma-3 27B模型(一個(gè)擁有270億參數(shù)的龐大系統(tǒng))。這個(gè)模型被用來(lái)回答關(guān)于圖像內(nèi)容的問(wèn)題,比如識(shí)別東南亞傳統(tǒng)服飾、理解本地文化習(xí)俗。訓(xùn)練時(shí)使用了批次大小64、學(xué)習(xí)率2e-5、權(quán)重衰減0.01,訓(xùn)練了3個(gè)完整輪次。在此之前,還對(duì)Gemma-3進(jìn)行了持續(xù)預(yù)訓(xùn)練,使用了SEA-VL、XM3600和Flickr30k等數(shù)據(jù)集的東南亞語(yǔ)言翻譯版本。

第二種是文字轉(zhuǎn)圖片的擴(kuò)散模型SEA-ImageGen,基于Stability AI的SDXL(3.5B參數(shù))。這類(lèi)模型的任務(wù)是根據(jù)文字描述生成圖片——比如你輸入"一盤(pán)馬來(lái)西亞椰漿飯",它就應(yīng)該生成一張真實(shí)、準(zhǔn)確、有文化細(xì)節(jié)的椰漿飯圖片。訓(xùn)練時(shí)只微調(diào)了模型中的UNet模塊,保留了VAE模塊不變,使用批次大小32、學(xué)習(xí)率1e-5,訓(xùn)練了4個(gè)輪次。

第三種是視覺(jué)語(yǔ)言嵌入模型SEA-VL Embed,基于Google的SigLIP-2(1B參數(shù))。這類(lèi)模型的功能是理解圖文之間的關(guān)聯(lián)性,比如判斷一張圖片和一段文字描述是否匹配。這個(gè)模型進(jìn)行了完整的全參數(shù)微調(diào),使用批次大小128、學(xué)習(xí)率5e-6、權(quán)重衰減0.001,訓(xùn)練了2個(gè)輪次。

為了評(píng)估模型的表現(xiàn),研究團(tuán)隊(duì)還專(zhuān)門(mén)構(gòu)建了兩個(gè)人工標(biāo)注的測(cè)試集。第一個(gè)叫SEA-VL VQA,包含約1100道視覺(jué)問(wèn)答題,覆蓋馬來(lái)語(yǔ)、越南語(yǔ)、泰語(yǔ)、印度尼西亞語(yǔ)、菲律賓語(yǔ)、泰米爾語(yǔ)、高棉語(yǔ)、中文、緬甸語(yǔ)共9種語(yǔ)言,所有題目都由母語(yǔ)使用者創(chuàng)作,并經(jīng)過(guò)兩位額外的母語(yǔ)使用者審核。題目要求緊密結(jié)合圖像中的文化元素,比如傳統(tǒng)服飾、本地美食、宗教習(xí)俗、建筑風(fēng)格,而不是泛泛的"圖中有什么"這類(lèi)通用問(wèn)題。第二個(gè)叫SEA AYA,是將Aya Vision Benchmark中的135道視覺(jué)語(yǔ)言題目翻譯成6種東南亞語(yǔ)言(泰語(yǔ)、馬來(lái)語(yǔ)、菲律賓語(yǔ)、泰米爾語(yǔ)、中文、緬甸語(yǔ)),覆蓋圖像描述、圖表理解、視覺(jué)推理等9種任務(wù)類(lèi)型。

五、實(shí)驗(yàn)結(jié)果:小改動(dòng),大效果

實(shí)驗(yàn)結(jié)果驗(yàn)證了GG-EZ方法的有效性,但也揭示了一些出人意料的細(xì)節(jié)。

在大規(guī)模視覺(jué)語(yǔ)言模型方面,未經(jīng)過(guò)模型合并的純微調(diào)版本SEA-Gemma-3表現(xiàn)呈現(xiàn)出矛盾的特征。在專(zhuān)門(mén)針對(duì)東南亞文化的SEAVQA測(cè)試中,它的得分從41.0提升到41.9,顯示出對(duì)區(qū)域文化有所掌握。然而,在更通用的CVQA和WorldCuisine測(cè)試中,它的表現(xiàn)卻大幅下滑,CVQA均分從67.2跌至35.6,WorldCuisine從59.8跌至48.5。這正是"災(zāi)難性遺忘"的體現(xiàn)——專(zhuān)攻東南亞之后,它在更廣泛的文化理解上退步了。

加入模型合并之后,情況發(fā)生了戲劇性的改變。將10%的區(qū)域微調(diào)模型與90%的原始Gemma-3合并后(即SEA-Gemma-3 10%),模型在所有指標(biāo)上都超過(guò)了原始Gemma-3:全球通用表現(xiàn)從63.5提升到64.4,東南亞專(zhuān)項(xiàng)表現(xiàn)從56.3提升到63.8,綜合的"全球-區(qū)域平衡分"(GRP分)從59.4提升到64.1。這相當(dāng)于用僅僅10%的區(qū)域知識(shí)"點(diǎn)綴",就讓模型既保住了全球能力,又獲得了東南亞文化加持。

5%合并比例(SEA-Gemma-3 5%)也展現(xiàn)了相似的提升,GRP分達(dá)到64.0。而50%和70%的合并比例則出現(xiàn)了不同程度的整體下滑,說(shuō)明區(qū)域知識(shí)的比例并非越多越好,過(guò)多的區(qū)域?qū)m?xiàng)訓(xùn)練會(huì)在全球表現(xiàn)上造成損失,合并比例需要仔細(xì)調(diào)整。

人工評(píng)估的結(jié)果提供了更細(xì)膩的視角。評(píng)估者(每種語(yǔ)言均為母語(yǔ)使用者)對(duì)三個(gè)模型的回答進(jìn)行了排名:SEA-Gemma-3(無(wú)合并)在東南亞語(yǔ)言中整體排名最高,尤其在菲律賓語(yǔ)(2.75分)、印度尼西亞語(yǔ)(2.29分)、泰語(yǔ)(2.33分)方面表現(xiàn)出色,證明純區(qū)域微調(diào)確實(shí)讓模型在本地語(yǔ)言上更接地氣。而原始Gemma-3在全球任務(wù)上依然最強(qiáng)(2.54分)。SEA-Gemma-3 10%則在越南語(yǔ)(2.61分,最高)和馬來(lái)語(yǔ)(2.25分)方面取得最佳,綜合GRP分為2.31,高于原始Gemma-3的2.29,在全球表現(xiàn)(2.42分)略低于原版的情況下,實(shí)現(xiàn)了整體最優(yōu)的平衡。

在圖片生成模型方面,即便是沒(méi)有模型合并的純微調(diào)版SEA-SDXL,在通用圖像生成基準(zhǔn)DPGBench上的總分也略有提升(從73.75升至74.32),這說(shuō)明東南亞區(qū)域訓(xùn)練對(duì)圖像生成質(zhì)量沒(méi)有拖累。經(jīng)過(guò)25%合并后的SEA-SDXL 25%,DPGBench總分達(dá)到74.75,是所有變體中最高的。在專(zhuān)門(mén)評(píng)估東南亞文化準(zhǔn)確性的人工評(píng)估中,SEA-SDXL 25%在傳統(tǒng)服飾、地標(biāo)建筑、本地美食三個(gè)維度的正確性和自然度上,全面超過(guò)了原始SDXL和純微調(diào)版SEA-SDXL。以椰漿飯為例,原始SDXL生成的圖片雖然也有白飯和雞蛋,但缺少黃瓜、花生和鳳尾魚(yú)這些關(guān)鍵配料;而SEA-SDXL 25%生成的圖片則包含了這些細(xì)節(jié),更接近真實(shí)的馬來(lái)西亞椰漿飯。

在視覺(jué)語(yǔ)言嵌入模型方面,有一個(gè)值得關(guān)注的有趣現(xiàn)象:純微調(diào)的SEA-SigLIP2不僅在東南亞區(qū)域測(cè)試上超過(guò)了原始SigLIP2,甚至在非東南亞地區(qū)的測(cè)試上也有所提升。這可能意味著東南亞文化訓(xùn)練數(shù)據(jù)中包含的視覺(jué)多樣性,對(duì)模型的整體理解能力有正向遷移作用。經(jīng)過(guò)75%合并的SEA-SigLIP2 75%表現(xiàn)最為均衡,SEAVQA總分29.66,在印度尼西亞(30.05)和越南(28.75)數(shù)據(jù)上創(chuàng)下最高分,同時(shí)全球CVQA分依然保持在27.12的較高水準(zhǔn),綜合GRP分達(dá)到27.96,遠(yuǎn)超原始模型的25.17。

六、數(shù)據(jù)配方的學(xué)問(wèn):并非越多越好

研究者們對(duì)數(shù)據(jù)配方做了一系列細(xì)致的消融實(shí)驗(yàn),結(jié)果揭示了一個(gè)重要教訓(xùn):在AI訓(xùn)練中,數(shù)據(jù)的質(zhì)量和形式比數(shù)量更重要。

基準(zhǔn)數(shù)據(jù)集是將MAmmoTH-VL指令數(shù)據(jù)翻譯成10種東南亞語(yǔ)言(共約25萬(wàn)條數(shù)據(jù))的完整版本,在SEA-VQA測(cè)試中得到39.6分。當(dāng)研究者嘗試只使用其中20%的數(shù)據(jù)時(shí),分?jǐn)?shù)驟降至13.0分,下滑幅度超過(guò)70%,證明數(shù)據(jù)規(guī)模是基礎(chǔ)保障,不能隨意壓縮。

接下來(lái),研究者在基準(zhǔn)數(shù)據(jù)集的基礎(chǔ)上,分別加入了不同類(lèi)型的額外文化數(shù)據(jù),結(jié)果大相徑庭。加入CulturalGround數(shù)據(jù)集(來(lái)自斯坦福大學(xué)與卡內(nèi)基梅隆大學(xué)合作構(gòu)建的多文化圖文數(shù)據(jù)集)的開(kāi)放式問(wèn)答版本,分?jǐn)?shù)從39.6升至41.9,帶來(lái)了溫和但積極的提升。然而,加入同一數(shù)據(jù)集的多項(xiàng)選擇題版本,分?jǐn)?shù)卻大幅下滑至21.6——同樣的圖片,只是換了問(wèn)題形式,效果竟然完全相反!研究者認(rèn)為,多項(xiàng)選擇題的格式可能與預(yù)訓(xùn)練時(shí)使用的問(wèn)答格式存在沖突,導(dǎo)致模型混淆。

加入WorldCuisine美食數(shù)據(jù)集的結(jié)果同樣令人意外:分?jǐn)?shù)降至30.4,比基準(zhǔn)還低。研究者的解釋是,WorldCuisine專(zhuān)注于食物識(shí)別這一個(gè)細(xì)分領(lǐng)域,過(guò)于單一的訓(xùn)練數(shù)據(jù)使模型的注意力過(guò)度集中在菜肴上,反而削弱了它對(duì)其他文化元素(如地標(biāo)、傳統(tǒng)習(xí)俗、歷史文化)的理解能力。

這個(gè)發(fā)現(xiàn)的實(shí)踐意義在于:在區(qū)域適配過(guò)程中,不能簡(jiǎn)單地"往鍋里扔越多食材越好",而要精心考量每種數(shù)據(jù)的類(lèi)型、格式、領(lǐng)域覆蓋范圍,以及它們與目標(biāo)任務(wù)的匹配程度。

七、全球化因子的深層意義:AI也需要與時(shí)俱進(jìn)

研究中還有一個(gè)常被忽視但頗具哲學(xué)深度的討論:如何決定一個(gè)模型應(yīng)該在多大程度上"入鄉(xiāng)隨俗",在多大程度上保持"全球視野"?

研究團(tuán)隊(duì)的答案是,這不應(yīng)該是一個(gè)固定的主觀判斷,而應(yīng)該反映目標(biāo)區(qū)域的實(shí)際社會(huì)狀態(tài)。他們展示了一組全球各地區(qū)從1993年到2023年的KOF全球化指數(shù)變化曲線。歐洲和中亞地區(qū)的全球化指數(shù)始終最高,穩(wěn)定在70分以上;北美緊隨其后;東南亞從1993年的36分穩(wěn)步上升到2023年的43分;南亞和撒哈拉以南非洲則相對(duì)滯后。

從實(shí)際操作角度來(lái)看,α值的設(shè)置對(duì)模型的最終效果有顯著影響。實(shí)驗(yàn)顯示,在不同α值下,三個(gè)模型(原始Gemma-3、SEA-Gemma-3 10%和SEA-Gemma-3無(wú)合并版)的GRP分排名會(huì)發(fā)生變化。當(dāng)α接近0時(shí),純區(qū)域微調(diào)模型占優(yōu);當(dāng)α接近1時(shí),原始全球模型占優(yōu);而在α=0.43附近,SEA-Gemma-3 10%取得了最高的GRP分。這說(shuō)明,如果你用一個(gè)不符合目標(biāo)區(qū)域?qū)嶋H全球化程度的α值來(lái)評(píng)估模型,很可能得出錯(cuò)誤的結(jié)論。

隨著全球化指數(shù)隨時(shí)間變化,評(píng)估模型的標(biāo)準(zhǔn)也應(yīng)該動(dòng)態(tài)調(diào)整。研究團(tuán)隊(duì)認(rèn)為,這種與社會(huì)現(xiàn)實(shí)掛鉤的動(dòng)態(tài)評(píng)估體系,比任何靜態(tài)的主觀設(shè)定都更具科學(xué)性。

歸根結(jié)底,這項(xiàng)研究解決的其實(shí)是一個(gè)關(guān)于"包容性"的問(wèn)題:全球化的AI技術(shù)不能只服務(wù)于數(shù)字富裕地區(qū)的用戶,也應(yīng)該能夠理解和服務(wù)于那些文化獨(dú)特、語(yǔ)言多樣的地區(qū)。GG-EZ證明了這件事不需要從頭開(kāi)發(fā)一個(gè)全新的模型,只需要對(duì)現(xiàn)有強(qiáng)大模型進(jìn)行精心的"文化改造",就能讓它既保持全球競(jìng)爭(zhēng)力,又獲得對(duì)特定地區(qū)的深刻理解。

更重要的是,這套方法是架構(gòu)無(wú)關(guān)的——無(wú)論是文字問(wèn)答模型、圖片生成模型還是圖文匹配模型,GG-EZ都能派上用場(chǎng)。這意味著它具有廣泛的推廣潛力,未來(lái)可以用于非洲、南亞、中東等其他代表性不足的地區(qū),幫助更多人獲得真正"懂自己文化"的AI服務(wù)。

當(dāng)然,研究也存在一些局限和尚待探索的方向。模型合并的最優(yōu)β值在不同架構(gòu)之間存在差異(VLM的最優(yōu)值約為10%,Embed模型約為75%,擴(kuò)散模型約為25%),目前還沒(méi)有一個(gè)能自動(dòng)預(yù)測(cè)最優(yōu)β的通用方法。此外,實(shí)驗(yàn)主要集中在東南亞地區(qū),方法在其他區(qū)域的效果仍有待驗(yàn)證。對(duì)于感興趣的讀者,可以通過(guò)arXiv:2604.11490獲取完整論文,研究團(tuán)隊(duì)也在Hugging Face上公開(kāi)了所有訓(xùn)練數(shù)據(jù)、評(píng)估數(shù)據(jù)集和模型權(quán)重,供研究者直接使用和進(jìn)一步探索。

Q&A

Q1:GG-EZ方法的兩個(gè)步驟分別是什么,為什么需要模型合并?

A:GG-EZ分兩步走。第一步是用地理過(guò)濾器和質(zhì)量評(píng)分模型,從海量數(shù)據(jù)中篩選出高質(zhì)量的區(qū)域文化數(shù)據(jù),同時(shí)把英語(yǔ)數(shù)據(jù)翻譯成目標(biāo)語(yǔ)言。第二步是先用這些數(shù)據(jù)對(duì)全球模型進(jìn)行微調(diào),再把微調(diào)后的區(qū)域模型和原始全球模型按比例線性融合。模型合并的必要性在于,純微調(diào)往往會(huì)讓模型"忘記"原本掌握的通用能力,合并能把區(qū)域知識(shí)和全球知識(shí)同時(shí)保留在模型里。

Q2:全球化因子α=0.43是怎么確定的,為什么不直接用固定值?

A:α的值來(lái)源于2023年KOF全球化指數(shù)中東南亞各國(guó)"事實(shí)人際交往"分項(xiàng)的平均值。選擇這個(gè)指數(shù)而非固定值,是因?yàn)樗芸陀^反映一個(gè)地區(qū)與全球社會(huì)的實(shí)際融合程度——全球化程度高的地區(qū)(如新加坡)應(yīng)該更注重保持全球通用能力,而全球化程度低的地區(qū)可以更側(cè)重本地文化。此外,全球化指數(shù)會(huì)隨時(shí)間變化,評(píng)估標(biāo)準(zhǔn)也能隨之動(dòng)態(tài)更新,避免了主觀判斷帶來(lái)的偏差。

Q3:為什么加入更多東南亞文化數(shù)據(jù)反而會(huì)讓模型變差?

A:研究發(fā)現(xiàn),不是所有數(shù)據(jù)都有正向效果。加入同一數(shù)據(jù)集的多項(xiàng)選擇題版本會(huì)拖累模型,可能是因?yàn)楦袷脚c預(yù)訓(xùn)練產(chǎn)生沖突。加入專(zhuān)門(mén)的美食識(shí)別數(shù)據(jù)集WorldCuisine后,模型過(guò)于專(zhuān)注食物識(shí)別,反而削弱了對(duì)地標(biāo)、傳統(tǒng)服飾、歷史文化等其他方面的理解。這說(shuō)明區(qū)域數(shù)據(jù)的類(lèi)型、格式、領(lǐng)域覆蓋范圍都需要精心設(shè)計(jì),盲目堆砌數(shù)據(jù)會(huì)適得其反。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
騙走50億!用小鮮肉的血抗衰,被央視曝光的“撈金女王”,真栽了

騙走50億!用小鮮肉的血抗衰,被央視曝光的“撈金女王”,真栽了

凡知
2026-04-07 21:16:54
解鎖夫妻“爽”感密碼:3個(gè)讓高潮更持久的床上技巧

解鎖夫妻“爽”感密碼:3個(gè)讓高潮更持久的床上技巧

精彩分享快樂(lè)
2026-03-18 07:00:03
奧一報(bào)道的深圳“超尷尬”地鐵站整改了:加了60處標(biāo)識(shí)!

奧一報(bào)道的深圳“超尷尬”地鐵站整改了:加了60處標(biāo)識(shí)!

南方都市報(bào)
2026-04-28 18:52:13
竇靖童宋妍霏分吃一碗粉!從擋雨到牽手遛狗,多次被拍細(xì)節(jié)藏不住

竇靖童宋妍霏分吃一碗粉!從擋雨到牽手遛狗,多次被拍細(xì)節(jié)藏不住

小徐講八卦
2026-04-27 09:23:46
北京公交專(zhuān)用道行駛時(shí)間,又有新調(diào)整!

北京公交專(zhuān)用道行駛時(shí)間,又有新調(diào)整!

BRTV新聞
2026-04-28 12:40:41
女兒是一線明星,她開(kāi)豪車(chē)住豪宅,晚年卻自殺5次最終從12樓跳下

女兒是一線明星,她開(kāi)豪車(chē)住豪宅,晚年卻自殺5次最終從12樓跳下

漫婷侃娛樂(lè)
2026-04-27 21:53:40
國(guó)家下死命令:2027年城投清零!中小城市的公交、供水會(huì)漲價(jià)嗎?

國(guó)家下死命令:2027年城投清零!中小城市的公交、供水會(huì)漲價(jià)嗎?

顧史
2026-04-21 05:44:11
女子白天睡老公,晚上睡男同事,2019年上夜班的老公將她同事殺死

女子白天睡老公,晚上睡男同事,2019年上夜班的老公將她同事殺死

漢史趣聞
2026-04-26 16:27:51
以軍稱(chēng)投下超2500枚炸彈 摧毀約600個(gè)伊朗目標(biāo)

以軍稱(chēng)投下超2500枚炸彈 摧毀約600個(gè)伊朗目標(biāo)

新浪財(cái)經(jīng)
2026-03-02 21:18:48
日本解禁軍售,背負(fù)中國(guó)人血債的三菱重工又得瑟了

日本解禁軍售,背負(fù)中國(guó)人血債的三菱重工又得瑟了

補(bǔ)壹刀
2026-04-27 23:49:25
埃里克森為何在阿莫林下課前公開(kāi)"拆臺(tái)"

埃里克森為何在阿莫林下課前公開(kāi)"拆臺(tái)"

綠茵狂熱者
2026-04-28 01:23:45
10億都救不了一命!京東副總裁蔡磊,生命進(jìn)入倒計(jì)時(shí)

10億都救不了一命!京東副總裁蔡磊,生命進(jìn)入倒計(jì)時(shí)

聽(tīng)風(fēng)喃
2026-04-06 11:16:04
140年來(lái)最強(qiáng)厄爾尼諾要出現(xiàn)了?氣溫將沖擊高溫極限,真的嗎?

140年來(lái)最強(qiáng)厄爾尼諾要出現(xiàn)了?氣溫將沖擊高溫極限,真的嗎?

臨云史策
2026-04-28 11:02:36
別再吵王菲春晚唱功了 謝霆鋒那只20年的金鐲子 早已說(shuō)明了一切

別再吵王菲春晚唱功了 謝霆鋒那只20年的金鐲子 早已說(shuō)明了一切

小邵說(shuō)劇
2026-04-27 21:02:11
曼聯(lián)的天亮了!單賽季或5人英超進(jìn)球上雙,這神跡竟塵封了61年?

曼聯(lián)的天亮了!單賽季或5人英超進(jìn)球上雙,這神跡竟塵封了61年?

仰臥撐FTUer
2026-04-28 20:11:03
機(jī)場(chǎng)出租車(chē)故意以車(chē)輛故障等要求乘客換車(chē),每單可獲50至85元“好處費(fèi)”,10人被處罰

機(jī)場(chǎng)出租車(chē)故意以車(chē)輛故障等要求乘客換車(chē),每單可獲50至85元“好處費(fèi)”,10人被處罰

紅星新聞
2026-04-27 16:51:18
4000萬(wàn)粉絲網(wǎng)紅偷稅被查,細(xì)節(jié)公布!本人出鏡認(rèn)錯(cuò)

4000萬(wàn)粉絲網(wǎng)紅偷稅被查,細(xì)節(jié)公布!本人出鏡認(rèn)錯(cuò)

深圳晚報(bào)
2026-04-28 12:43:24
出差歸來(lái)推開(kāi)門(mén),見(jiàn)妻子和男閨蜜共處一室,多年感情徹底走向終結(jié)

出差歸來(lái)推開(kāi)門(mén),見(jiàn)妻子和男閨蜜共處一室,多年感情徹底走向終結(jié)

朗威談星座
2026-04-22 00:10:37
五萬(wàn)戶股東踩雷!002779、603360,被立案后雙雙“一字”跌停

五萬(wàn)戶股東踩雷!002779、603360,被立案后雙雙“一字”跌停

大眾證券報(bào)
2026-04-28 19:27:08
東航7月15日起開(kāi)通上海浦東—第比利斯直飛航線

東航7月15日起開(kāi)通上海浦東—第比利斯直飛航線

北京商報(bào)
2026-04-28 16:47:54
2026-04-29 03:16:49
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
8183文章數(shù) 563關(guān)注度
往期回顧 全部

科技要聞

10億周活目標(biāo)落空!傳OpenAI爆發(fā)內(nèi)部分歧

頭條要聞

19歲中國(guó)女孩被困緬甸 交20萬(wàn)贖金園區(qū)仍未放人

頭條要聞

19歲中國(guó)女孩被困緬甸 交20萬(wàn)贖金園區(qū)仍未放人

體育要聞

魔術(shù)黑八活塞,一步之遙?!

娛樂(lè)要聞

蔡卓妍官宣結(jié)婚,老公比她小10歲

財(cái)經(jīng)要聞

中央政治局會(huì)議定調(diào),八大看點(diǎn)速覽!

汽車(chē)要聞

拒絕瘋狂套娃!現(xiàn)代艾尼氪金星長(zhǎng)在未來(lái)審美點(diǎn)上

態(tài)度原創(chuàng)

健康
家居
親子
旅游
手機(jī)

干細(xì)胞治療燒燙傷三大優(yōu)勢(shì)!

家居要聞

江景風(fēng)格 流動(dòng)的秩序

親子要聞

有一點(diǎn)點(diǎn)近視,到底要不要戴眼鏡?

旅游要聞

莫讓內(nèi)卷式競(jìng)爭(zhēng)削弱旅游消費(fèi)信心

手機(jī)要聞

三星裸眼3D屏來(lái)了,廣告牌能“跳”出來(lái)

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版