網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

Cohere、SEACrowd等機(jī)構(gòu)的視覺(jué)語(yǔ)言模型區(qū)域化適配研究全解析

2026-04-26 19:15:36　來(lái)源: 科技行者

天津舉報(bào)

分享至

這項(xiàng)由Cohere、SEACrowd、AI Singapore、MBZUAI、卡內(nèi)基梅隆大學(xué)、斯坦福大學(xué)、布朗大學(xué)等數(shù)十家機(jī)構(gòu)聯(lián)合完成的研究，發(fā)表于2026年4月，論文編號(hào)為arXiv:2604.11490，有興趣深入了解的讀者可以通過(guò)該編號(hào)查詢完整論文。研究聚焦于一個(gè)聽(tīng)起來(lái)有些抽象但其實(shí)與每個(gè)人都息息相關(guān)的問(wèn)題：當(dāng)人工智能走向全球，它真的能理解不同地區(qū)的文化嗎？

你有沒(méi)有想過(guò)，當(dāng)一個(gè)東南亞人對(duì)著手機(jī)AI助手展示一張炸香蕉餅或者宋卡湖的照片時(shí)，AI是否真的"認(rèn)識(shí)"這些東西？或者當(dāng)一個(gè)泰國(guó)人問(wèn)AI"這道菜是什么"，AI是否能給出真正符合當(dāng)?shù)匚幕尘暗幕卮?？事?shí)往往令人失望：絕大多數(shù)AI系統(tǒng)是在以英語(yǔ)為主的西方數(shù)據(jù)上訓(xùn)練的，它們對(duì)非洲、印度、中東、東南亞等地區(qū)的文化認(rèn)知，可以說(shuō)相當(dāng)貧乏。

正是為了解決這個(gè)現(xiàn)實(shí)問(wèn)題，來(lái)自全球超過(guò)30所頂尖機(jī)構(gòu)的研究人員聯(lián)手，提出了一套全新的框架和方法。他們的核心主張是：AI不僅要"聰明"，還要"有文化"，而且這兩件事不應(yīng)該互相矛盾。

一、為什么AI會(huì)"水土不服"，以及這件事有多嚴(yán)重

以餐廳的服務(wù)員做比較，能解釋清楚這個(gè)問(wèn)題的根源。一位在紐約五星級(jí)酒店培訓(xùn)了多年的服務(wù)員，去到東南亞鄉(xiāng)村小館子，可能完全不知道如何向顧客推薦椰漿飯，也不懂得當(dāng)?shù)氐娘嬍澄幕Y儀。這并不是因?yàn)樗粔蚵斆?，而是他從?lái)沒(méi)有接受過(guò)這方面的訓(xùn)練。

當(dāng)今最強(qiáng)大的視覺(jué)語(yǔ)言模型——也就是那些既能"看圖"又能"說(shuō)話"的AI系統(tǒng)——面臨的恰恰是同樣的困境。這類(lèi)模型的訓(xùn)練數(shù)據(jù)絕大部分來(lái)自互聯(lián)網(wǎng)上以英語(yǔ)為主的內(nèi)容，而互聯(lián)網(wǎng)上的內(nèi)容本身就極度不均衡：西方國(guó)家、東亞發(fā)達(dá)地區(qū)產(chǎn)出的數(shù)字內(nèi)容遠(yuǎn)遠(yuǎn)多于東南亞、南亞、非洲等地區(qū)。結(jié)果就是，AI系統(tǒng)在被問(wèn)到歐美文化內(nèi)容時(shí)表現(xiàn)出色，一旦遇到東南亞的傳統(tǒng)服飾、地方建筑、本土食物，就開(kāi)始"答非所問(wèn)"甚至給出帶有刻板印象的回答。

研究團(tuán)隊(duì)對(duì)此做了系統(tǒng)性觀察。他們發(fā)現(xiàn)，現(xiàn)有的多語(yǔ)言視覺(jué)語(yǔ)言模型，包括MAYA-8B、PaliGemma-2-10B、Pangea-7B、Qwen2-VL-7B、Gemma-3等一系列知名系統(tǒng)，在面對(duì)專(zhuān)門(mén)為東南亞文化設(shè)計(jì)的測(cè)試題目時(shí)，表現(xiàn)都不盡如人意。這些測(cè)試包括SEAVQA（東南亞視覺(jué)問(wèn)答）、CVQA（文化多樣性視覺(jué)問(wèn)答）和World Cuisines（全球菜肴識(shí)別）等基準(zhǔn)測(cè)試。

與此同時(shí)，確實(shí)存在一些專(zhuān)門(mén)為特定地區(qū)定制的AI模型，比如專(zhuān)為阿拉伯語(yǔ)設(shè)計(jì)的VIOLET、為韓語(yǔ)優(yōu)化的VARCO-VISION、以及面向東南亞的SEA-LION-VL。這些"本土專(zhuān)家"在自己的主場(chǎng)表現(xiàn)很好，但一旦被問(wèn)到更廣泛的全球性問(wèn)題，它們就顯得力不從心了。這就像一位精通川菜的廚師，突然被要求制作法式大餐時(shí)會(huì)手忙腳亂。

于是，研究者們面對(duì)一個(gè)兩難困境：要么是"全能選手"（全球模型）——什么都會(huì)一點(diǎn)但對(duì)東南亞文化一知半解；要么是"地方專(zhuān)家"（區(qū)域模型）——本地文化了解透徹但出了自己的地盤(pán)就不行了。這項(xiàng)研究的核心，就是找到一條同時(shí)兼顧兩者的道路。

二、"擬人化區(qū)域適配"：給AI量身定制的文化融合框架

研究團(tuán)隊(duì)提出了一個(gè)聽(tīng)起來(lái)有點(diǎn)學(xué)術(shù)但本質(zhì)上非常直觀的框架，稱(chēng)為"擬人化區(qū)域適配"（Anthropogenic Regional Adaptation）。"擬人化"這個(gè)詞在這里的意思是，AI的目標(biāo)是理解人類(lèi)文化和社會(huì)活動(dòng)，而不僅僅是識(shí)別圖像中的物理特征。

從數(shù)學(xué)上說(shuō)，研究者把整個(gè)世界劃分成若干個(gè)"區(qū)域"，每個(gè)區(qū)域有自己獨(dú)特的評(píng)價(jià)標(biāo)準(zhǔn)和文化特征。模型的目標(biāo)是在優(yōu)化特定目標(biāo)區(qū)域表現(xiàn)的同時(shí)，不能讓全球范圍內(nèi)的整體表現(xiàn)大幅下滑。為了量化這種平衡，他們引入了一個(gè)叫做"全球化因子"的參數(shù)，用希臘字母α表示，取值在0到1之間。當(dāng)α接近1時(shí)，模型更注重維持全球通用能力；當(dāng)α接近0時(shí)，模型更專(zhuān)注于強(qiáng)化某個(gè)特定區(qū)域的表現(xiàn)。

更巧妙的是，研究團(tuán)隊(duì)并沒(méi)有憑空設(shè)定這個(gè)參數(shù)，而是借用了一個(gè)來(lái)自社會(huì)科學(xué)領(lǐng)域的工具——KOF全球化指數(shù)（Konjunkturforschungsstelle Globalization Index）。這個(gè)指數(shù)由瑞士蘇黎世聯(lián)邦理工學(xué)院每年更新，衡量全球190個(gè)國(guó)家在政治、經(jīng)濟(jì)、社會(huì)等多個(gè)維度上的全球化程度。

用一個(gè)直觀的例子來(lái)理解：新加坡是一個(gè)高度全球化的城市國(guó)家，與國(guó)際接軌程度極高，所以針對(duì)新加坡優(yōu)化的AI模型應(yīng)該設(shè)置一個(gè)較高的α值，確保其保持強(qiáng)大的全球通用能力。相比之下，緬甸或老撾的全球化程度相對(duì)較低，社會(huì)文化更具本地特色，針對(duì)這些國(guó)家的模型可以把α設(shè)得低一些，更側(cè)重本地文化的表達(dá)。

研究團(tuán)隊(duì)以2023年KOF全球化指數(shù)中的"事實(shí)人際交往"分項(xiàng)作為基準(zhǔn)，計(jì)算東南亞區(qū)域所有國(guó)家的平均值，得出α=0.43。這意味著在評(píng)估東南亞模型時(shí)，43%的權(quán)重給全球通用表現(xiàn)，57%的權(quán)重給東南亞地區(qū)特定表現(xiàn)。這個(gè)比例的確定不是研究者拍腦袋定的，而是有可量化、可復(fù)現(xiàn)的社會(huì)科學(xué)依據(jù)。

研究者還指出，隨著時(shí)間推移，全球化指數(shù)本身也在變化——從1993年到2023年，東南亞地區(qū)的全球化指數(shù)從36.04穩(wěn)步上升到43.40。這意味著這套評(píng)價(jià)體系會(huì)隨時(shí)代變化而自然調(diào)整，不會(huì)一成不變。

三、"GG-EZ"：讓AI輕松實(shí)現(xiàn)文化適配的兩步走方法

框架有了，具體怎么做呢？研究團(tuán)隊(duì)設(shè)計(jì)了一套名為"GG-EZ"的方法，全稱(chēng)是"地理泛化輕松實(shí)現(xiàn)"（Geographical Generalization Made Easy）。這個(gè)名字帶著一絲幽默感，暗指這個(gè)方法的操作相對(duì)簡(jiǎn)單卻效果顯著。

GG-EZ的核心思路可以用改造一位廚師來(lái)比喻。假設(shè)你有一位接受過(guò)嚴(yán)格法式料理訓(xùn)練的廚師（全球模型），現(xiàn)在你希望他也能做出地道的東南亞菜肴，同時(shí)不要忘掉他原本掌握的法式技藝。GG-EZ分兩步走完成這個(gè)改造。

第一步叫做"區(qū)域質(zhì)量過(guò)濾"。這一步的任務(wù)是精心挑選用于培訓(xùn)的食材和食譜。具體來(lái)說(shuō)，研究團(tuán)隊(duì)首先用一個(gè)地理過(guò)濾器，從海量數(shù)據(jù)中篩選出真正屬于東南亞文化背景的內(nèi)容。一張?jiān)侥虾臃鄣膱D片和一篇關(guān)于菲律賓節(jié)日的文字，會(huì)被保留下來(lái)；而一張通用的意大利面圖片就會(huì)被過(guò)濾掉。

光靠地理標(biāo)簽還不夠，因?yàn)榛ヂ?lián)網(wǎng)上東南亞相關(guān)的內(nèi)容質(zhì)量良莠不齊。研究團(tuán)隊(duì)還引入了一個(gè)專(zhuān)門(mén)評(píng)估數(shù)據(jù)質(zhì)量的"獎(jiǎng)勵(lì)模型"（UnifiedReward），為每條數(shù)據(jù)打分，只保留得分在3分及以上的高質(zhì)量?jī)?nèi)容。他們對(duì)比了四種不同的質(zhì)量評(píng)估工具：ImageReward、HPSv2、VisionReward-Image和UnifiedReward，最終選擇UnifiedReward的原因是它在與人類(lèi)評(píng)判一致性方面表現(xiàn)良好（正確率44.2%），同時(shí)支持批量高效處理，適合大規(guī)模數(shù)據(jù)過(guò)濾。

除了篩選現(xiàn)有數(shù)據(jù)，團(tuán)隊(duì)還做了一件重要的事：把高質(zhì)量的英語(yǔ)數(shù)據(jù)翻譯成東南亞地區(qū)的主要語(yǔ)言，包括印度尼西亞語(yǔ)、馬來(lái)語(yǔ)、泰語(yǔ)、越南語(yǔ)、菲律賓語(yǔ)、高棉語(yǔ)、老撾語(yǔ)、中文和泰米爾語(yǔ)。對(duì)于高棉語(yǔ)和老撾語(yǔ)這樣的小語(yǔ)種，他們專(zhuān)門(mén)測(cè)試了多種翻譯工具的效果，最終為不同語(yǔ)言選擇了最合適的翻譯系統(tǒng)——Gemini-2.5-Flash被用于泰語(yǔ)、緬甸語(yǔ)、老撾語(yǔ)、高棉語(yǔ)和泰米爾語(yǔ)，而Gemma-3-27B則被用于印度尼西亞語(yǔ)、越南語(yǔ)、標(biāo)準(zhǔn)馬來(lái)語(yǔ)、菲律賓語(yǔ)和中文。

第二步叫做"全球-區(qū)域精煉"，分為兩個(gè)環(huán)節(jié)：先用精心篩選的東南亞數(shù)據(jù)對(duì)全球模型進(jìn)行微調(diào)訓(xùn)練，把它變成一個(gè)東南亞文化專(zhuān)家；然后用一種叫做"模型合并"的技術(shù)，把這個(gè)新培訓(xùn)出來(lái)的區(qū)域?qū)＜夷Ｐ团c原始的全球模型進(jìn)行線性融合。融合的比例用參數(shù)β來(lái)控制：β=1意味著完全用區(qū)域?qū)＜夷Ｐ?，?0意味著完全用原始全球模型，而β=0.1則表示10%區(qū)域模型加90%原始全球模型的組合。

模型合并這個(gè)概念值得多解釋幾句。當(dāng)你對(duì)一個(gè)AI模型進(jìn)行專(zhuān)門(mén)訓(xùn)練時(shí)，它在新領(lǐng)域的表現(xiàn)會(huì)提升，但往往會(huì)"忘記"一些原本掌握的能力，這個(gè)現(xiàn)象叫做"災(zāi)難性遺忘"——就好比那位廚師學(xué)了兩年?yáng)|南亞菜之后，突然發(fā)現(xiàn)自己連紅酒燉牛肉都做不好了。模型合并的作用，就是讓兩個(gè)版本的"知識(shí)"融合在一起，既保住了原有能力，又融入了新學(xué)到的文化知識(shí)。

四、三種架構(gòu)、十一個(gè)國(guó)家、一場(chǎng)大規(guī)模實(shí)驗(yàn)

研究團(tuán)隊(duì)沒(méi)有滿足于在一種AI架構(gòu)上驗(yàn)證方法，而是在三種截然不同的視覺(jué)語(yǔ)言模型架構(gòu)上同時(shí)進(jìn)行了實(shí)驗(yàn)，以東南亞地區(qū)（涵蓋新加坡、印度尼西亞、馬來(lái)西亞、文萊、泰國(guó)、菲律賓、越南、緬甸、柬埔寨、老撾、東帝汶共11個(gè)國(guó)家，總?cè)丝诩s7億）作為案例研究對(duì)象。

第一種是大規(guī)模視覺(jué)語(yǔ)言模型SEA-VLM，基于Google的Gemma-3 27B模型（一個(gè)擁有270億參數(shù)的龐大系統(tǒng)）。這個(gè)模型被用來(lái)回答關(guān)于圖像內(nèi)容的問(wèn)題，比如識(shí)別東南亞傳統(tǒng)服飾、理解本地文化習(xí)俗。訓(xùn)練時(shí)使用了批次大小64、學(xué)習(xí)率2e-5、權(quán)重衰減0.01，訓(xùn)練了3個(gè)完整輪次。在此之前，還對(duì)Gemma-3進(jìn)行了持續(xù)預(yù)訓(xùn)練，使用了SEA-VL、XM3600和Flickr30k等數(shù)據(jù)集的東南亞語(yǔ)言翻譯版本。

第二種是文字轉(zhuǎn)圖片的擴(kuò)散模型SEA-ImageGen，基于Stability AI的SDXL（3.5B參數(shù)）。這類(lèi)模型的任務(wù)是根據(jù)文字描述生成圖片——比如你輸入"一盤(pán)馬來(lái)西亞椰漿飯"，它就應(yīng)該生成一張真實(shí)、準(zhǔn)確、有文化細(xì)節(jié)的椰漿飯圖片。訓(xùn)練時(shí)只微調(diào)了模型中的UNet模塊，保留了VAE模塊不變，使用批次大小32、學(xué)習(xí)率1e-5，訓(xùn)練了4個(gè)輪次。

第三種是視覺(jué)語(yǔ)言嵌入模型SEA-VL Embed，基于Google的SigLIP-2（1B參數(shù)）。這類(lèi)模型的功能是理解圖文之間的關(guān)聯(lián)性，比如判斷一張圖片和一段文字描述是否匹配。這個(gè)模型進(jìn)行了完整的全參數(shù)微調(diào)，使用批次大小128、學(xué)習(xí)率5e-6、權(quán)重衰減0.001，訓(xùn)練了2個(gè)輪次。

為了評(píng)估模型的表現(xiàn)，研究團(tuán)隊(duì)還專(zhuān)門(mén)構(gòu)建了兩個(gè)人工標(biāo)注的測(cè)試集。第一個(gè)叫SEA-VL VQA，包含約1100道視覺(jué)問(wèn)答題，覆蓋馬來(lái)語(yǔ)、越南語(yǔ)、泰語(yǔ)、印度尼西亞語(yǔ)、菲律賓語(yǔ)、泰米爾語(yǔ)、高棉語(yǔ)、中文、緬甸語(yǔ)共9種語(yǔ)言，所有題目都由母語(yǔ)使用者創(chuàng)作，并經(jīng)過(guò)兩位額外的母語(yǔ)使用者審核。題目要求緊密結(jié)合圖像中的文化元素，比如傳統(tǒng)服飾、本地美食、宗教習(xí)俗、建筑風(fēng)格，而不是泛泛的"圖中有什么"這類(lèi)通用問(wèn)題。第二個(gè)叫SEA AYA，是將Aya Vision Benchmark中的135道視覺(jué)語(yǔ)言題目翻譯成6種東南亞語(yǔ)言（泰語(yǔ)、馬來(lái)語(yǔ)、菲律賓語(yǔ)、泰米爾語(yǔ)、中文、緬甸語(yǔ)），覆蓋圖像描述、圖表理解、視覺(jué)推理等9種任務(wù)類(lèi)型。

五、實(shí)驗(yàn)結(jié)果：小改動(dòng)，大效果

實(shí)驗(yàn)結(jié)果驗(yàn)證了GG-EZ方法的有效性，但也揭示了一些出人意料的細(xì)節(jié)。

在大規(guī)模視覺(jué)語(yǔ)言模型方面，未經(jīng)過(guò)模型合并的純微調(diào)版本SEA-Gemma-3表現(xiàn)呈現(xiàn)出矛盾的特征。在專(zhuān)門(mén)針對(duì)東南亞文化的SEAVQA測(cè)試中，它的得分從41.0提升到41.9，顯示出對(duì)區(qū)域文化有所掌握。然而，在更通用的CVQA和WorldCuisine測(cè)試中，它的表現(xiàn)卻大幅下滑，CVQA均分從67.2跌至35.6，WorldCuisine從59.8跌至48.5。這正是"災(zāi)難性遺忘"的體現(xiàn)——專(zhuān)攻東南亞之后，它在更廣泛的文化理解上退步了。

加入模型合并之后，情況發(fā)生了戲劇性的改變。將10%的區(qū)域微調(diào)模型與90%的原始Gemma-3合并后（即SEA-Gemma-3 10%），模型在所有指標(biāo)上都超過(guò)了原始Gemma-3：全球通用表現(xiàn)從63.5提升到64.4，東南亞專(zhuān)項(xiàng)表現(xiàn)從56.3提升到63.8，綜合的"全球-區(qū)域平衡分"（GRP分）從59.4提升到64.1。這相當(dāng)于用僅僅10%的區(qū)域知識(shí)"點(diǎn)綴"，就讓模型既保住了全球能力，又獲得了東南亞文化加持。

5%合并比例（SEA-Gemma-3 5%）也展現(xiàn)了相似的提升，GRP分達(dá)到64.0。而50%和70%的合并比例則出現(xiàn)了不同程度的整體下滑，說(shuō)明區(qū)域知識(shí)的比例并非越多越好，過(guò)多的區(qū)域?qū)ｍ?xiàng)訓(xùn)練會(huì)在全球表現(xiàn)上造成損失，合并比例需要仔細(xì)調(diào)整。

人工評(píng)估的結(jié)果提供了更細(xì)膩的視角。評(píng)估者（每種語(yǔ)言均為母語(yǔ)使用者）對(duì)三個(gè)模型的回答進(jìn)行了排名：SEA-Gemma-3（無(wú)合并）在東南亞語(yǔ)言中整體排名最高，尤其在菲律賓語(yǔ)（2.75分）、印度尼西亞語(yǔ)（2.29分）、泰語(yǔ)（2.33分）方面表現(xiàn)出色，證明純區(qū)域微調(diào)確實(shí)讓模型在本地語(yǔ)言上更接地氣。而原始Gemma-3在全球任務(wù)上依然最強(qiáng)（2.54分）。SEA-Gemma-3 10%則在越南語(yǔ)（2.61分，最高）和馬來(lái)語(yǔ)（2.25分）方面取得最佳，綜合GRP分為2.31，高于原始Gemma-3的2.29，在全球表現(xiàn)（2.42分）略低于原版的情況下，實(shí)現(xiàn)了整體最優(yōu)的平衡。

在圖片生成模型方面，即便是沒(méi)有模型合并的純微調(diào)版SEA-SDXL，在通用圖像生成基準(zhǔn)DPGBench上的總分也略有提升（從73.75升至74.32），這說(shuō)明東南亞區(qū)域訓(xùn)練對(duì)圖像生成質(zhì)量沒(méi)有拖累。經(jīng)過(guò)25%合并后的SEA-SDXL 25%，DPGBench總分達(dá)到74.75，是所有變體中最高的。在專(zhuān)門(mén)評(píng)估東南亞文化準(zhǔn)確性的人工評(píng)估中，SEA-SDXL 25%在傳統(tǒng)服飾、地標(biāo)建筑、本地美食三個(gè)維度的正確性和自然度上，全面超過(guò)了原始SDXL和純微調(diào)版SEA-SDXL。以椰漿飯為例，原始SDXL生成的圖片雖然也有白飯和雞蛋，但缺少黃瓜、花生和鳳尾魚(yú)這些關(guān)鍵配料；而SEA-SDXL 25%生成的圖片則包含了這些細(xì)節(jié)，更接近真實(shí)的馬來(lái)西亞椰漿飯。

在視覺(jué)語(yǔ)言嵌入模型方面，有一個(gè)值得關(guān)注的有趣現(xiàn)象：純微調(diào)的SEA-SigLIP2不僅在東南亞區(qū)域測(cè)試上超過(guò)了原始SigLIP2，甚至在非東南亞地區(qū)的測(cè)試上也有所提升。這可能意味著東南亞文化訓(xùn)練數(shù)據(jù)中包含的視覺(jué)多樣性，對(duì)模型的整體理解能力有正向遷移作用。經(jīng)過(guò)75%合并的SEA-SigLIP2 75%表現(xiàn)最為均衡，SEAVQA總分29.66，在印度尼西亞（30.05）和越南（28.75）數(shù)據(jù)上創(chuàng)下最高分，同時(shí)全球CVQA分依然保持在27.12的較高水準(zhǔn)，綜合GRP分達(dá)到27.96，遠(yuǎn)超原始模型的25.17。

六、數(shù)據(jù)配方的學(xué)問(wèn)：并非越多越好

研究者們對(duì)數(shù)據(jù)配方做了一系列細(xì)致的消融實(shí)驗(yàn)，結(jié)果揭示了一個(gè)重要教訓(xùn)：在AI訓(xùn)練中，數(shù)據(jù)的質(zhì)量和形式比數(shù)量更重要。

基準(zhǔn)數(shù)據(jù)集是將MAmmoTH-VL指令數(shù)據(jù)翻譯成10種東南亞語(yǔ)言（共約25萬(wàn)條數(shù)據(jù)）的完整版本，在SEA-VQA測(cè)試中得到39.6分。當(dāng)研究者嘗試只使用其中20%的數(shù)據(jù)時(shí)，分?jǐn)?shù)驟降至13.0分，下滑幅度超過(guò)70%，證明數(shù)據(jù)規(guī)模是基礎(chǔ)保障，不能隨意壓縮。

接下來(lái)，研究者在基準(zhǔn)數(shù)據(jù)集的基礎(chǔ)上，分別加入了不同類(lèi)型的額外文化數(shù)據(jù)，結(jié)果大相徑庭。加入CulturalGround數(shù)據(jù)集（來(lái)自斯坦福大學(xué)與卡內(nèi)基梅隆大學(xué)合作構(gòu)建的多文化圖文數(shù)據(jù)集）的開(kāi)放式問(wèn)答版本，分?jǐn)?shù)從39.6升至41.9，帶來(lái)了溫和但積極的提升。然而，加入同一數(shù)據(jù)集的多項(xiàng)選擇題版本，分?jǐn)?shù)卻大幅下滑至21.6——同樣的圖片，只是換了問(wèn)題形式，效果竟然完全相反！研究者認(rèn)為，多項(xiàng)選擇題的格式可能與預(yù)訓(xùn)練時(shí)使用的問(wèn)答格式存在沖突，導(dǎo)致模型混淆。

加入WorldCuisine美食數(shù)據(jù)集的結(jié)果同樣令人意外：分?jǐn)?shù)降至30.4，比基準(zhǔn)還低。研究者的解釋是，WorldCuisine專(zhuān)注于食物識(shí)別這一個(gè)細(xì)分領(lǐng)域，過(guò)于單一的訓(xùn)練數(shù)據(jù)使模型的注意力過(guò)度集中在菜肴上，反而削弱了它對(duì)其他文化元素（如地標(biāo)、傳統(tǒng)習(xí)俗、歷史文化）的理解能力。

這個(gè)發(fā)現(xiàn)的實(shí)踐意義在于：在區(qū)域適配過(guò)程中，不能簡(jiǎn)單地"往鍋里扔越多食材越好"，而要精心考量每種數(shù)據(jù)的類(lèi)型、格式、領(lǐng)域覆蓋范圍，以及它們與目標(biāo)任務(wù)的匹配程度。

七、全球化因子的深層意義：AI也需要與時(shí)俱進(jìn)

研究中還有一個(gè)常被忽視但頗具哲學(xué)深度的討論：如何決定一個(gè)模型應(yīng)該在多大程度上"入鄉(xiāng)隨俗"，在多大程度上保持"全球視野"？

研究團(tuán)隊(duì)的答案是，這不應(yīng)該是一個(gè)固定的主觀判斷，而應(yīng)該反映目標(biāo)區(qū)域的實(shí)際社會(huì)狀態(tài)。他們展示了一組全球各地區(qū)從1993年到2023年的KOF全球化指數(shù)變化曲線。歐洲和中亞地區(qū)的全球化指數(shù)始終最高，穩(wěn)定在70分以上；北美緊隨其后；東南亞從1993年的36分穩(wěn)步上升到2023年的43分；南亞和撒哈拉以南非洲則相對(duì)滯后。

從實(shí)際操作角度來(lái)看，α值的設(shè)置對(duì)模型的最終效果有顯著影響。實(shí)驗(yàn)顯示，在不同α值下，三個(gè)模型（原始Gemma-3、SEA-Gemma-3 10%和SEA-Gemma-3無(wú)合并版）的GRP分排名會(huì)發(fā)生變化。當(dāng)α接近0時(shí)，純區(qū)域微調(diào)模型占優(yōu)；當(dāng)α接近1時(shí)，原始全球模型占優(yōu)；而在α=0.43附近，SEA-Gemma-3 10%取得了最高的GRP分。這說(shuō)明，如果你用一個(gè)不符合目標(biāo)區(qū)域?qū)嶋H全球化程度的α值來(lái)評(píng)估模型，很可能得出錯(cuò)誤的結(jié)論。

隨著全球化指數(shù)隨時(shí)間變化，評(píng)估模型的標(biāo)準(zhǔn)也應(yīng)該動(dòng)態(tài)調(diào)整。研究團(tuán)隊(duì)認(rèn)為，這種與社會(huì)現(xiàn)實(shí)掛鉤的動(dòng)態(tài)評(píng)估體系，比任何靜態(tài)的主觀設(shè)定都更具科學(xué)性。

歸根結(jié)底，這項(xiàng)研究解決的其實(shí)是一個(gè)關(guān)于"包容性"的問(wèn)題：全球化的AI技術(shù)不能只服務(wù)于數(shù)字富裕地區(qū)的用戶，也應(yīng)該能夠理解和服務(wù)于那些文化獨(dú)特、語(yǔ)言多樣的地區(qū)。GG-EZ證明了這件事不需要從頭開(kāi)發(fā)一個(gè)全新的模型，只需要對(duì)現(xiàn)有強(qiáng)大模型進(jìn)行精心的"文化改造"，就能讓它既保持全球競(jìng)爭(zhēng)力，又獲得對(duì)特定地區(qū)的深刻理解。

更重要的是，這套方法是架構(gòu)無(wú)關(guān)的——無(wú)論是文字問(wèn)答模型、圖片生成模型還是圖文匹配模型，GG-EZ都能派上用場(chǎng)。這意味著它具有廣泛的推廣潛力，未來(lái)可以用于非洲、南亞、中東等其他代表性不足的地區(qū)，幫助更多人獲得真正"懂自己文化"的AI服務(wù)。

當(dāng)然，研究也存在一些局限和尚待探索的方向。模型合并的最優(yōu)β值在不同架構(gòu)之間存在差異（VLM的最優(yōu)值約為10%，Embed模型約為75%，擴(kuò)散模型約為25%），目前還沒(méi)有一個(gè)能自動(dòng)預(yù)測(cè)最優(yōu)β的通用方法。此外，實(shí)驗(yàn)主要集中在東南亞地區(qū)，方法在其他區(qū)域的效果仍有待驗(yàn)證。對(duì)于感興趣的讀者，可以通過(guò)arXiv:2604.11490獲取完整論文，研究團(tuán)隊(duì)也在Hugging Face上公開(kāi)了所有訓(xùn)練數(shù)據(jù)、評(píng)估數(shù)據(jù)集和模型權(quán)重，供研究者直接使用和進(jìn)一步探索。

Q&A

Q1：GG-EZ方法的兩個(gè)步驟分別是什么，為什么需要模型合并？

A：GG-EZ分兩步走。第一步是用地理過(guò)濾器和質(zhì)量評(píng)分模型，從海量數(shù)據(jù)中篩選出高質(zhì)量的區(qū)域文化數(shù)據(jù)，同時(shí)把英語(yǔ)數(shù)據(jù)翻譯成目標(biāo)語(yǔ)言。第二步是先用這些數(shù)據(jù)對(duì)全球模型進(jìn)行微調(diào)，再把微調(diào)后的區(qū)域模型和原始全球模型按比例線性融合。模型合并的必要性在于，純微調(diào)往往會(huì)讓模型"忘記"原本掌握的通用能力，合并能把區(qū)域知識(shí)和全球知識(shí)同時(shí)保留在模型里。

Q2：全球化因子α=0.43是怎么確定的，為什么不直接用固定值？

A：α的值來(lái)源于2023年KOF全球化指數(shù)中東南亞各國(guó)"事實(shí)人際交往"分項(xiàng)的平均值。選擇這個(gè)指數(shù)而非固定值，是因?yàn)樗芸陀^反映一個(gè)地區(qū)與全球社會(huì)的實(shí)際融合程度——全球化程度高的地區(qū)（如新加坡）應(yīng)該更注重保持全球通用能力，而全球化程度低的地區(qū)可以更側(cè)重本地文化。此外，全球化指數(shù)會(huì)隨時(shí)間變化，評(píng)估標(biāo)準(zhǔn)也能隨之動(dòng)態(tài)更新，避免了主觀判斷帶來(lái)的偏差。

Q3：為什么加入更多東南亞文化數(shù)據(jù)反而會(huì)讓模型變差？

A：研究發(fā)現(xiàn)，不是所有數(shù)據(jù)都有正向效果。加入同一數(shù)據(jù)集的多項(xiàng)選擇題版本會(huì)拖累模型，可能是因?yàn)楦袷脚c預(yù)訓(xùn)練產(chǎn)生沖突。加入專(zhuān)門(mén)的美食識(shí)別數(shù)據(jù)集WorldCuisine后，模型過(guò)于專(zhuān)注食物識(shí)別，反而削弱了對(duì)地標(biāo)、傳統(tǒng)服飾、歷史文化等其他方面的理解。這說(shuō)明區(qū)域數(shù)據(jù)的類(lèi)型、格式、領(lǐng)域覆蓋范圍都需要精心設(shè)計(jì)，盲目堆砌數(shù)據(jù)會(huì)適得其反。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.