網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

PNAS：大語(yǔ)言模型如何在不同語(yǔ)言中加劇知識(shí)鴻溝

2025-12-25 19:05:53　來(lái)源: 人工智能學(xué)家

北京舉報(bào)

分享至

導(dǎo)語(yǔ)

一項(xiàng)于12月18日發(fā)布在PNAS的研究聚焦于大型語(yǔ)言模型（LLM）在不同語(yǔ)言環(huán)境下學(xué)習(xí)新知識(shí)時(shí)的不平等現(xiàn)象。研究團(tuán)隊(duì)針對(duì) 19 種語(yǔ)言和 4 個(gè)主流模型（包括 GPT-4o-Mini、Llama-3.1-8B 等）構(gòu)建了多語(yǔ)言平行數(shù)據(jù)集，通過(guò)上下文學(xué)習(xí)和微調(diào)兩種方式，系統(tǒng)性地觀(guān)測(cè)了基于語(yǔ)言的性能差異。研究發(fā)現(xiàn)，LLM 在處理低資源語(yǔ)言時(shí)，在新知識(shí)學(xué)習(xí)的效率、跨語(yǔ)言遷移、知識(shí)沖突的優(yōu)先級(jí)處理以及魯棒性四個(gè)維度上相較高資源語(yǔ)言均存在顯著差距。此外，研究進(jìn)一步分析了造成這種不平等的底層機(jī)制，涉及語(yǔ)言自身屬性、預(yù)訓(xùn)練數(shù)據(jù)規(guī)模與工程優(yōu)化、分詞器設(shè)計(jì)，以及模型內(nèi)部負(fù)責(zé)跨語(yǔ)言知識(shí)流動(dòng)的“語(yǔ)言神經(jīng)元”分布特征。

關(guān)鍵詞：大語(yǔ)言模型（LLM），語(yǔ)言不平等 (Linguistic inequality)，高/中/低資源語(yǔ)言(High-/Medium-/Low-resource languages)，跨語(yǔ)言知識(shí)遷移，知識(shí)優(yōu)先級(jí)，語(yǔ)言神經(jīng)元(Linguistic Neurons)，魯棒性 (Robustness)

來(lái)源：集智俱樂(lè)部

作者：任筱芃

審校：王成龍（論文一作）、黃俊銘、宮兆亞

論文題目：Uncovering inequalities in new knowledge learning by large language models across different languages 論文鏈接：https://www.pnas.org/doi/10.1073/pnas.2514626122 發(fā)表時(shí)間：2025年12月18日論文來(lái)源：PNAS

楔子：AI時(shí)代的“語(yǔ)言馬太效應(yīng)”

想象這樣一個(gè)場(chǎng)景：2048年，一種全新的健康監(jiān)測(cè)技術(shù)"基因分析"問(wèn)世。當(dāng)一位英語(yǔ)用戶(hù)詢(xún)問(wèn)AI助手時(shí)，它能迅速學(xué)習(xí)并給出準(zhǔn)確答案；但換成一位斯瓦希里語(yǔ)用戶(hù)，AI卻要么回答錯(cuò)誤，要么需要更長(zhǎng)時(shí)間學(xué)習(xí)才能掌握這一概念。更微妙的是，實(shí)驗(yàn)把同一技術(shù)同時(shí)用斯瓦希里語(yǔ)和英語(yǔ)注入模型，可當(dāng)?shù)谌Z(yǔ)言提問(wèn)時(shí)，它仍?xún)?yōu)先輸出英語(yǔ)版本的答案。簡(jiǎn)而言之，AI在英語(yǔ)環(huán)境中可能表現(xiàn)得像個(gè)天才，但在斯瓦希里語(yǔ)環(huán)境中卻可能像個(gè)學(xué)渣。這種在獲取新知識(shí)過(guò)程中的不平等，正在數(shù)字世界中構(gòu)建一種隱形的“馬太效應(yīng)”。

這并非科幻想象，而是發(fā)生在大語(yǔ)言模型（LLMs）內(nèi)部的真實(shí)困境。隨著ChatGPT等工具在全球擁有7億周活躍用戶(hù)，越來(lái)越多非英語(yǔ)母語(yǔ)者依賴(lài)這些系統(tǒng)獲取信息、解決問(wèn)題。傳統(tǒng)研究多關(guān)注LLMs靜態(tài)知識(shí)庫(kù)中的語(yǔ)言不平等——比如低資源語(yǔ)言因訓(xùn)練數(shù)據(jù)少而基礎(chǔ)性能差。但在PNAS發(fā)表的最新研究指出，以往的關(guān)注點(diǎn)多集中在模型富集了多少已有知識(shí)（靜態(tài)儲(chǔ)備），卻忽視了模型是如何學(xué)習(xí)新知識(shí)的？

這種差異具體表現(xiàn)在四個(gè)維度：效率差異（能否快速學(xué)習(xí)新知識(shí)）、遷移差異（知識(shí)的跨語(yǔ)言流動(dòng)性）、優(yōu)先級(jí)差異（知識(shí)沖突）、魯棒性差異（能否抵抗錯(cuò)誤信息）。研究團(tuán)隊(duì)通過(guò)19種語(yǔ)言、4個(gè)主流模型的系統(tǒng)性實(shí)驗(yàn)，首次量化了這種不平等的程度，并揭示了其背后令人不安的機(jī)制——AI正在復(fù)制甚至放大人類(lèi)社會(huì)的語(yǔ)言不平等。

研究背景與問(wèn)題

大語(yǔ)言模型的知識(shí)更新依賴(lài)兩種主要方式：上下文學(xué)習(xí)（in-context learning）和微調(diào)（fine-tuning）。前者通過(guò)提示詞臨時(shí)注入新知識(shí)，后者則通過(guò)持續(xù)訓(xùn)練將知識(shí)固化到模型參數(shù)中。無(wú)論哪種方式，理想狀態(tài)都應(yīng)是語(yǔ)言中立的——即同樣質(zhì)量的知識(shí)，不論用英語(yǔ)、泰語(yǔ)還是威爾士語(yǔ)呈現(xiàn)，AI都應(yīng)同等對(duì)待。

但現(xiàn)實(shí)遠(yuǎn)非如此。傳統(tǒng)研究已證實(shí)，由于訓(xùn)練數(shù)據(jù)中斯瓦希里語(yǔ)等語(yǔ)言不足0.1%，導(dǎo)致模型在現(xiàn)存的知識(shí)上存在巨大鴻溝。這種靜態(tài)差距被稱(chēng)為"預(yù)訓(xùn)練不平等"。然而，研究團(tuán)隊(duì)指出一個(gè)被長(zhǎng)期忽視的問(wèn)題：AI是持續(xù)進(jìn)化的系統(tǒng)，當(dāng)它不斷吸收新知識(shí)時(shí)，這種不平等會(huì)自我強(qiáng)化還是自我修正？

答案是令人擔(dān)憂(yōu)的。試想當(dāng)同一議題的“低資源語(yǔ)言答案”與“英語(yǔ)答案”在模型里并存時(shí)，只要用任意第三語(yǔ)言提問(wèn)，模型仍會(huì)大概率輸出英語(yǔ)知識(shí)，這種動(dòng)態(tài)學(xué)習(xí)過(guò)程中的不平等，意味著低資源語(yǔ)言社區(qū)不僅在起跑線(xiàn)上落后，更在比賽進(jìn)行中不斷被折磨。

實(shí)驗(yàn)測(cè)量：四重不平等分析

為了捕捉這種微妙的不平等，研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)精妙的實(shí)驗(yàn)框架，涵蓋19種語(yǔ)言（按照開(kāi)放網(wǎng)頁(yè)數(shù)據(jù)集中占比分為高、中、低資源語(yǔ)言）和4個(gè)主流模型（GPT-4o-Mini、Llama-3.1-8B、Qwen3-8B、Aya-Expanse-8B）。關(guān)鍵在于他們構(gòu)建了多語(yǔ)言平行數(shù)據(jù)集——同一組問(wèn)題被翻譯成所有語(yǔ)言，確保知識(shí)"質(zhì)量"完全相同，從而隔離出語(yǔ)言本身的影響。

實(shí)驗(yàn)使用四類(lèi)數(shù)據(jù)集：

虛構(gòu)新知識(shí)：例如設(shè)定在2048年的未來(lái)場(chǎng)景，包含200個(gè)問(wèn)答對(duì)（如"如何用基因分析追蹤健康"）
真實(shí)醫(yī)學(xué)知識(shí)：從MultiMedQA篩選的專(zhuān)業(yè)醫(yī)學(xué)問(wèn)題，確保對(duì)模型是"全新"的
通用常識(shí)對(duì)抗集：人類(lèi)構(gòu)造的常識(shí)問(wèn)題，用于測(cè)試抗錯(cuò)誤信息能力
生成的常識(shí)對(duì)抗集：AI生成的常識(shí)問(wèn)題，用于測(cè)試抗錯(cuò)誤信息能力

通過(guò)這兩種知識(shí)類(lèi)型的對(duì)比，研究能清晰區(qū)分：是新知識(shí)本身難學(xué)，還是語(yǔ)言導(dǎo)致了學(xué)習(xí)差異？實(shí)驗(yàn)在兩種場(chǎng)景下進(jìn)行：上下文學(xué)習(xí)（知識(shí)放在提示詞中）和微調(diào)（知識(shí)寫(xiě)入?yún)?shù)），全面覆蓋實(shí)際應(yīng)用情況。

正是在考慮控制變量后的觀(guān)察窗口中，不平等的四重面向逐漸清晰。

微調(diào)實(shí)驗(yàn)暴露了學(xué)習(xí)效率的差異。所有模型在高資源語(yǔ)言中學(xué)習(xí)新知識(shí)時(shí)，通常4個(gè)訓(xùn)練輪次就能達(dá)到60-90%準(zhǔn)確率，但在低資源語(yǔ)言中需要8輪以上才能接近同等水平。更殘酷的是學(xué)習(xí)效率的上限差異——即使訓(xùn)練12輪后，GPT-4o-Mini在英語(yǔ)、中文上的準(zhǔn)確率超90%，而在低資源語(yǔ)言中停滯在60-80%。這就像給兩個(gè)學(xué)生同樣的教材：英語(yǔ)學(xué)生讀一遍就懂，斯瓦希里語(yǔ)學(xué)生卻需要反復(fù)讀三遍，且最終理解程度仍不如前者。這種"學(xué)習(xí)效率"的差異，直接導(dǎo)致低資源語(yǔ)言社區(qū)需要支付更高的計(jì)算成本和時(shí)間成本，才能獲得同等質(zhì)量的知識(shí)服務(wù)。

圖1：四個(gè)模型在兩個(gè)數(shù)據(jù)集上學(xué)習(xí)新知識(shí)的性能。與高資源語(yǔ)言（橙色曲線(xiàn)）相比，大語(yǔ)言模型（LLMs）在低資源語(yǔ)言（藍(lán)色曲線(xiàn)）中學(xué)習(xí)新知識(shí)時(shí)面臨更大的挑戰(zhàn)，無(wú)論是在效率還是準(zhǔn)確性方面。

更具結(jié)構(gòu)性的不公體現(xiàn)在知識(shí)遷移差異上。無(wú)論模型最初通過(guò)何種語(yǔ)言材料學(xué)習(xí)"基因分析"這一概念，當(dāng)使用高資源語(yǔ)言進(jìn)行提問(wèn)時(shí)，其準(zhǔn)確率始終高于低資源語(yǔ)言。這一現(xiàn)象表明，知識(shí)從其他語(yǔ)言遷移至高資源語(yǔ)言通常比遷移至低資源語(yǔ)言更為容易，語(yǔ)言之間難以形成對(duì)等的知識(shí)交換關(guān)系。

圖2：在四個(gè)模型和兩個(gè)數(shù)據(jù)集的上下文學(xué)習(xí)設(shè)置下，研究了新知識(shí)傳遞的不平等性。角度軸表示新知識(shí)被注入的語(yǔ)言，而三種曲線(xiàn)顯示了模型在高、中和低資源語(yǔ)言中的平均準(zhǔn)確率。結(jié)果顯示，當(dāng)新知識(shí)被引入到其他語(yǔ)言時(shí)，低資源語(yǔ)言的用戶(hù)會(huì)受到顯著的不利影響。

語(yǔ)言親緣關(guān)系進(jìn)一步影響遷移效果：法語(yǔ)、西班牙語(yǔ)等羅曼語(yǔ)族語(yǔ)言之間的遷移相對(duì)順暢，而跨語(yǔ)系遷移（如英語(yǔ)至泰米爾語(yǔ)）則面臨顯著困難。這種遷移壁壘植根于模型內(nèi)部的"語(yǔ)言領(lǐng)地"——特定神經(jīng)元專(zhuān)司特定語(yǔ)言，其重疊程度直接決定知識(shí)能否跨語(yǔ)言通行。這種不對(duì)稱(chēng)性意味著，低資源語(yǔ)言的知識(shí)生產(chǎn)者處于系統(tǒng)性劣勢(shì)之中，例如，他們無(wú)法像高資源語(yǔ)言使用者那樣，平等地從其他語(yǔ)言中獲取知識(shí)。

當(dāng)需要對(duì)不同語(yǔ)言下沖突信息進(jìn)行取舍時(shí)，模型的優(yōu)先級(jí)差異或者說(shuō)隱性語(yǔ)言等級(jí)結(jié)構(gòu)顯露無(wú)遺。

圖3：GPT-4o-Mini在上下文學(xué)習(xí)設(shè)置下針對(duì)虛構(gòu)新知識(shí)數(shù)據(jù)集的具體知識(shí)沖突場(chǎng)景。當(dāng)高資源語(yǔ)言引入的知識(shí)與低資源語(yǔ)言沖突時(shí)，模型在其他語(yǔ)言中的輸出主要與高資源語(yǔ)言的知識(shí)一致。

當(dāng)同一問(wèn)題的答案在英語(yǔ)和泰米爾語(yǔ)中矛盾時(shí)（假設(shè)英語(yǔ)語(yǔ)料說(shuō)“健康追蹤用基因分析”，泰米爾語(yǔ)語(yǔ)料說(shuō)“健康追蹤用可穿戴設(shè)備”），模型在第三語(yǔ)言（假設(shè)丹麥語(yǔ)）中作答時(shí)，87%的概率會(huì)選擇英語(yǔ)版本。這種“優(yōu)先級(jí)偏見(jiàn)”在72種沖突場(chǎng)景下持續(xù)存在。模型似乎內(nèi)置了隱性的語(yǔ)言等級(jí)制度。即使兩種知識(shí)質(zhì)量完全相同——因場(chǎng)景虛構(gòu)、答案無(wú)客觀(guān)對(duì)錯(cuò)——模型仍認(rèn)為高資源語(yǔ)言更“權(quán)威”。這不僅涉及技術(shù)缺陷，更折射出語(yǔ)言在真實(shí)世界中的不對(duì)等性。

最后，在抵抗錯(cuò)誤信息魯棒性測(cè)試中，低資源語(yǔ)言同樣脆弱。當(dāng)研究者嘗試在訓(xùn)練數(shù)據(jù)中注入錯(cuò)誤知識(shí)（例如“水凝結(jié)成水蒸氣”）時(shí)，英語(yǔ)、法語(yǔ)等高資源語(yǔ)言的模型能堅(jiān)守正確知識(shí)，準(zhǔn)確率下降緩慢；但低資源語(yǔ)言的準(zhǔn)確率卻斷崖式下跌。

圖4-A：微調(diào)(fine-tuning)設(shè)置下魯棒性測(cè)試。隨著模型在錯(cuò)誤知識(shí)上進(jìn)行微調(diào)，其整體準(zhǔn)確率下降。然而，這種下降在低資源語(yǔ)言中更為明顯。

圖4-B：上下文學(xué)習(xí)設(shè)置下魯棒性測(cè)試。此處，半徑徑軸表示有無(wú)錯(cuò)誤信息時(shí)的準(zhǔn)確率比率，顏色越深表示相對(duì)準(zhǔn)確率越低。LLMs在高資源語(yǔ)言中往往比在低資源語(yǔ)言中表現(xiàn)出更強(qiáng)的錯(cuò)誤信息抵抗力。

這如同給不同語(yǔ)言用戶(hù)安裝了不同質(zhì)量的"防護(hù)設(shè)備"：以英語(yǔ)為代表的高資源語(yǔ)言用戶(hù)獲得的是防彈玻璃，而以祖魯語(yǔ)為代表的低資源語(yǔ)言用戶(hù)只有瓦楞紙。

“語(yǔ)言馬太效應(yīng)”：成因與干預(yù)嘗試

這種不平等并非模型的偶然失誤，而是系統(tǒng)性因素層層疊加的必然結(jié)果。

首當(dāng)其沖的是訓(xùn)練數(shù)據(jù)的馬太效應(yīng)——語(yǔ)言在CommonCrawl等語(yǔ)料庫(kù)中的占比與模型性能相關(guān)系數(shù)高達(dá)0.907，英語(yǔ)因CommonCrawl語(yǔ)料庫(kù)中高占比被劃為高資源語(yǔ)言（>1%閾值），而威爾士語(yǔ)等占比不足0.1%即被歸為低資源語(yǔ)言。這種數(shù)據(jù)鴻溝不僅決定了模型對(duì)語(yǔ)法、習(xí)語(yǔ)和表達(dá)模式的熟悉程度，更深層地塑造了其學(xué)習(xí)新知識(shí)的可塑性——高資源語(yǔ)言的用戶(hù)僅需少量樣本就能教會(huì)AI新概念，而低資源語(yǔ)言社區(qū)必須付出成倍的數(shù)據(jù)與計(jì)算成本，才能獲得不那么雞肋的輸出。

更深層的制約來(lái)自分詞器（Tokenizer）的信息密度差異。優(yōu)質(zhì)分詞器能將文本壓縮為信息密集的token序列。

圖5：這張圖片展示了論文中分析分詞相關(guān)因素（Tokenization-related Factors）的其中兩個(gè)關(guān)鍵維度。1. 分詞器在不同語(yǔ)言上的信息密度有差異；2. 分詞邊界是否與語(yǔ)言的形態(tài)學(xué)邊界（Morpheme Boundaries）對(duì)齊。

而研究發(fā)現(xiàn)，英語(yǔ)表達(dá)相同內(nèi)容所需的token數(shù)顯著更少，分布也更均勻，這直接拓展了模型的有效上下文長(zhǎng)度與學(xué)習(xí)效能。低資源語(yǔ)言往往被分詞器過(guò)度切割為冗余的token序列，如同使用低效的信源編碼。同樣的語(yǔ)義內(nèi)容，在英語(yǔ)中可被壓縮為緊湊的信號(hào)，在泰米爾語(yǔ)等語(yǔ)言中卻不得不以成倍長(zhǎng)度的碎片化符號(hào)來(lái)傳遞。這種編碼效率的差異，導(dǎo)致模型在處理低資源語(yǔ)言時(shí)，同等字符數(shù)承載的有效信息大幅減少，直接侵蝕了上下文窗口的實(shí)際有效容量與學(xué)習(xí)效能。它并非簡(jiǎn)單的速度滯后，而是模型認(rèn)知架構(gòu)層面的結(jié)構(gòu)性損耗。好比傳輸?shù)蛪嚎s率格式的影音文件，數(shù)據(jù)流量雖然龐大，實(shí)際畫(huà)面未見(jiàn)得更好。最終表現(xiàn)為模型在處理這些語(yǔ)言時(shí)，如同在狹窄的信道里強(qiáng)行吞吐過(guò)量數(shù)據(jù)，不可避免地陷入擁塞與性能衰減。

模型神經(jīng)元還持有潛藏的"語(yǔ)言領(lǐng)地"。模型內(nèi)部存在"語(yǔ)言神經(jīng)元"，專(zhuān)門(mén)處理特定語(yǔ)言的詞匯和語(yǔ)法。

圖6：上半部分的矩陣展示了模型神經(jīng)元在處理不同語(yǔ)言（如英語(yǔ)、法語(yǔ)、印地語(yǔ)）時(shí)的激活情況。圖中標(biāo)記的 "1-K Overlap" 和 "1-2 Overlap" 指代不同語(yǔ)言之間存在共享的活躍神經(jīng)元。神經(jīng)元的重疊程度直接決定了知識(shí)能否在語(yǔ)言之間順暢遷移。圖表下半部分展示了研究人員采用的干預(yù)手段。通過(guò)人為地“增強(qiáng)”或“抑制”這些特定神經(jīng)元，觀(guān)察模型表現(xiàn)的變化，從而證實(shí)了這些神經(jīng)元確實(shí)是“專(zhuān)門(mén)處理特定語(yǔ)言”的關(guān)鍵組件。

通過(guò)分析這些神經(jīng)元的重疊程度，研究發(fā)現(xiàn)法語(yǔ)與西班牙語(yǔ)因神經(jīng)元高度重疊而遷移順暢，但跨語(yǔ)系（如英語(yǔ)→泰米爾語(yǔ)）的遷移則舉步維艱。實(shí)驗(yàn)表明，人為增強(qiáng)重疊神經(jīng)元的激活能部分提升遷移能力，但無(wú)法完全消除。這印證了不平等性已深植于模型架構(gòu)底層。

研究人員進(jìn)行了神經(jīng)元層面的干預(yù)實(shí)驗(yàn)。通過(guò)對(duì)跨語(yǔ)言重疊神經(jīng)元進(jìn)行強(qiáng)制激活或抑制，研究發(fā)現(xiàn)：抑制這些神經(jīng)元會(huì)導(dǎo)致跨語(yǔ)言知識(shí)遷移能力顯著下降，證明了它們是知識(shí)流動(dòng)的關(guān)鍵橋梁；而激活雖然能帶來(lái)適度的性能提升，但其收益幅度遠(yuǎn)小于抑制所造成的損失。這表明，雖然神經(jīng)元干預(yù)能一定程度上調(diào)節(jié)知識(shí)遷移，但無(wú)法徹底消除根植于模型設(shè)計(jì)與訓(xùn)練中的不平等。要從根本上解決這一問(wèn)題，不能僅靠后期的小修小補(bǔ)，而必須回溯到模型開(kāi)發(fā)階段（如平衡預(yù)訓(xùn)練數(shù)據(jù)、優(yōu)化分詞器設(shè)計(jì)），進(jìn)行更底層的預(yù)防性設(shè)計(jì)。

研究者坦承三大局限：一是實(shí)驗(yàn)僅覆蓋19種語(yǔ)言和4個(gè)模型，二是神經(jīng)元干預(yù)只是初步探索，三是未能觸及數(shù)據(jù)不平衡的根本問(wèn)題。但他們強(qiáng)調(diào)，真正的解決需要"預(yù)防性設(shè)計(jì)"：平衡多語(yǔ)言預(yù)訓(xùn)練數(shù)據(jù)、開(kāi)發(fā)語(yǔ)言中立的分詞器、在損失函數(shù)中引入公平性約束。

作者按：走向真正的多語(yǔ)言智能

（以下內(nèi)容為解讀者觀(guān)點(diǎn)，非原文結(jié)論）

這項(xiàng)研究的警示意義遠(yuǎn)超技術(shù)圈。它暴露出AI倫理審視中長(zhǎng)期缺席的維度——作為權(quán)力結(jié)構(gòu)的載體的語(yǔ)言。當(dāng)全球低資源語(yǔ)言社區(qū)（數(shù)字資源少而使用人口可能多）依賴(lài)以強(qiáng)勢(shì)語(yǔ)言為中心的AI系統(tǒng)時(shí)，他們不僅面臨信息延遲，更面臨知識(shí)代表性的不平等——本土智慧被邊緣化，強(qiáng)勢(shì)語(yǔ)言知識(shí)體系被自動(dòng)化強(qiáng)化。高資源語(yǔ)言的知識(shí)通常被視為 “標(biāo)準(zhǔn)” 或 “權(quán)威”，而低資源語(yǔ)言的知識(shí)則被邊緣化。這強(qiáng)化了高級(jí)資源語(yǔ)言在全球知識(shí)體系中的主導(dǎo)地位，同時(shí)削弱了低級(jí)資源語(yǔ)言的代表性。我們需要意識(shí)到，語(yǔ)言公平不是本地化包裝的附加選項(xiàng)，而是數(shù)字時(shí)代包容性發(fā)展的核心組件。為了解決這個(gè)問(wèn)題，政策制定者可以建立多語(yǔ)言AI性能監(jiān)測(cè)機(jī)制，將低資源語(yǔ)言的準(zhǔn)確率、魯棒性與遷移能力納入產(chǎn)品評(píng)估體系，推動(dòng)開(kāi)發(fā)者在設(shè)計(jì)之初便直面語(yǔ)言正義問(wèn)題。技術(shù)開(kāi)發(fā)者和研究人員應(yīng)考慮數(shù)據(jù)收集和模型設(shè)計(jì)（例如強(qiáng)制激活神經(jīng)元）上的公平性，確保大語(yǔ)言模型公平服務(wù)所有語(yǔ)言用戶(hù)的關(guān)鍵。在實(shí)現(xiàn)語(yǔ)言公平之前，低資源語(yǔ)言用戶(hù)應(yīng)對(duì)AI系統(tǒng)采取更審慎的態(tài)度。

當(dāng)來(lái)自高資源語(yǔ)言的知識(shí)被優(yōu)先采用時(shí)，就會(huì)延續(xù)語(yǔ)言霸權(quán)。破局的關(guān)鍵在于培育本土技術(shù)能力——自主構(gòu)建母語(yǔ)數(shù)據(jù)集、以本族標(biāo)準(zhǔn)定義評(píng)估體系。只有當(dāng)斯瓦希里語(yǔ)、泰米爾語(yǔ)等低資源語(yǔ)言社區(qū)擁有足夠多的數(shù)據(jù)集參與到全球優(yōu)化的AI系統(tǒng)中，AI才能真正擺脫單向度的知識(shí)流動(dòng)，轉(zhuǎn)向多元共生的技術(shù)生態(tài)。唯有如此，AI 才能從鞏固技術(shù)壁壘的枷鎖，轉(zhuǎn)變?yōu)榇龠M(jìn)人類(lèi)文明多元共生的公共品。

閱讀最新前沿科技趨勢(shì)報(bào)告，請(qǐng)?jiān)L問(wèn)歐米伽研究所的“未來(lái)知識(shí)庫(kù)”

https://wx.zsxq.com/group/454854145828

未來(lái)知識(shí)庫(kù)是“ 歐米伽未來(lái)研究所”建立的在線(xiàn)知識(shí)庫(kù)平臺(tái)，收藏的資料范圍包括人工智能、腦科學(xué)、互聯(lián)網(wǎng)、超級(jí)智能，數(shù)智大腦、能源、軍事、經(jīng)濟(jì)、人類(lèi)風(fēng)險(xiǎn)等等領(lǐng)域的前沿進(jìn)展與未來(lái)趨勢(shì)。目前擁有超過(guò)8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。歡迎掃描二維碼或訪(fǎng)問(wèn)https://wx.zsxq.com/group/454854145828進(jìn)入。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.