国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

PNAS:大語(yǔ)言模型如何在不同語(yǔ)言中加劇知識(shí)鴻溝

0
分享至


導(dǎo)語(yǔ)

一項(xiàng)于12月18日發(fā)布在PNAS的研究聚焦于大型語(yǔ)言模型(LLM)在不同語(yǔ)言環(huán)境下學(xué)習(xí)新知識(shí)時(shí)的不平等現(xiàn)象。研究團(tuán)隊(duì)針對(duì) 19 種語(yǔ)言和 4 個(gè)主流模型(包括 GPT-4o-Mini、Llama-3.1-8B 等)構(gòu)建了多語(yǔ)言平行數(shù)據(jù)集,通過(guò)上下文學(xué)習(xí)和微調(diào)兩種方式,系統(tǒng)性地觀(guān)測(cè)了基于語(yǔ)言的性能差異。研究發(fā)現(xiàn),LLM 在處理低資源語(yǔ)言時(shí),在新知識(shí)學(xué)習(xí)的效率、跨語(yǔ)言遷移、知識(shí)沖突的優(yōu)先級(jí)處理以及魯棒性四個(gè)維度上相較高資源語(yǔ)言均存在顯著差距。此外,研究進(jìn)一步分析了造成這種不平等的底層機(jī)制,涉及語(yǔ)言自身屬性、預(yù)訓(xùn)練數(shù)據(jù)規(guī)模與工程優(yōu)化、分詞器設(shè)計(jì),以及模型內(nèi)部負(fù)責(zé)跨語(yǔ)言知識(shí)流動(dòng)的“語(yǔ)言神經(jīng)元”分布特征。

關(guān)鍵詞:大語(yǔ)言模型(LLM),語(yǔ)言不平等 (Linguistic inequality),高/中/低資源語(yǔ)言(High-/Medium-/Low-resource languages),跨語(yǔ)言知識(shí)遷移,知識(shí)優(yōu)先級(jí),語(yǔ)言神經(jīng)元(Linguistic Neurons),魯棒性 (Robustness)

來(lái)源:集智俱樂(lè)部

作者:任筱芃

審校:王成龍(論文一作)、黃俊銘、宮兆亞


論文題目:Uncovering inequalities in new knowledge learning by large language models across different languages 論文鏈接:https://www.pnas.org/doi/10.1073/pnas.2514626122 發(fā)表時(shí)間:2025年12月18日 論文來(lái)源:PNAS

楔子:AI時(shí)代的“語(yǔ)言馬太效應(yīng)”

想象這樣一個(gè)場(chǎng)景:2048年,一種全新的健康監(jiān)測(cè)技術(shù)"基因分析"問(wèn)世。當(dāng)一位英語(yǔ)用戶(hù)詢(xún)問(wèn)AI助手時(shí),它能迅速學(xué)習(xí)并給出準(zhǔn)確答案;但換成一位斯瓦希里語(yǔ)用戶(hù),AI卻要么回答錯(cuò)誤,要么需要更長(zhǎng)時(shí)間學(xué)習(xí)才能掌握這一概念。更微妙的是,實(shí)驗(yàn)把同一技術(shù)同時(shí)用斯瓦希里語(yǔ)和英語(yǔ)注入模型,可當(dāng)?shù)谌Z(yǔ)言提問(wèn)時(shí),它仍?xún)?yōu)先輸出英語(yǔ)版本的答案。簡(jiǎn)而言之,AI在英語(yǔ)環(huán)境中可能表現(xiàn)得像個(gè)天才,但在斯瓦希里語(yǔ)環(huán)境中卻可能像個(gè)學(xué)渣。這種在獲取新知識(shí)過(guò)程中的不平等,正在數(shù)字世界中構(gòu)建一種隱形的“馬太效應(yīng)”。

這并非科幻想象,而是發(fā)生在大語(yǔ)言模型(LLMs)內(nèi)部的真實(shí)困境。隨著ChatGPT等工具在全球擁有7億周活躍用戶(hù),越來(lái)越多非英語(yǔ)母語(yǔ)者依賴(lài)這些系統(tǒng)獲取信息、解決問(wèn)題。傳統(tǒng)研究多關(guān)注LLMs靜態(tài)知識(shí)庫(kù)中的語(yǔ)言不平等——比如低資源語(yǔ)言因訓(xùn)練數(shù)據(jù)少而基礎(chǔ)性能差。但在PNAS發(fā)表的最新研究指出,以往的關(guān)注點(diǎn)多集中在模型富集了多少已有知識(shí)(靜態(tài)儲(chǔ)備),卻忽視了模型是如何學(xué)習(xí)新知識(shí)的?

這種差異具體表現(xiàn)在四個(gè)維度:效率差異(能否快速學(xué)習(xí)新知識(shí))、遷移差異(知識(shí)的跨語(yǔ)言流動(dòng)性)、優(yōu)先級(jí)差異(知識(shí)沖突)、魯棒性差異(能否抵抗錯(cuò)誤信息)。研究團(tuán)隊(duì)通過(guò)19種語(yǔ)言、4個(gè)主流模型的系統(tǒng)性實(shí)驗(yàn),首次量化了這種不平等的程度,并揭示了其背后令人不安的機(jī)制——AI正在復(fù)制甚至放大人類(lèi)社會(huì)的語(yǔ)言不平等。

研究背景與問(wèn)題

大語(yǔ)言模型的知識(shí)更新依賴(lài)兩種主要方式:上下文學(xué)習(xí)in-context learning)和微調(diào)fine-tuning)。前者通過(guò)提示詞臨時(shí)注入新知識(shí),后者則通過(guò)持續(xù)訓(xùn)練將知識(shí)固化到模型參數(shù)中。無(wú)論哪種方式,理想狀態(tài)都應(yīng)是語(yǔ)言中立的——即同樣質(zhì)量的知識(shí),不論用英語(yǔ)、泰語(yǔ)還是威爾士語(yǔ)呈現(xiàn),AI都應(yīng)同等對(duì)待。

但現(xiàn)實(shí)遠(yuǎn)非如此。傳統(tǒng)研究已證實(shí),由于訓(xùn)練數(shù)據(jù)中斯瓦希里語(yǔ)等語(yǔ)言不足0.1%,導(dǎo)致模型在現(xiàn)存的知識(shí)上存在巨大鴻溝。這種靜態(tài)差距被稱(chēng)為"預(yù)訓(xùn)練不平等"。然而,研究團(tuán)隊(duì)指出一個(gè)被長(zhǎng)期忽視的問(wèn)題:AI是持續(xù)進(jìn)化的系統(tǒng),當(dāng)它不斷吸收新知識(shí)時(shí),這種不平等會(huì)自我強(qiáng)化還是自我修正?

答案是令人擔(dān)憂(yōu)的。試想當(dāng)同一議題的“低資源語(yǔ)言答案”與“英語(yǔ)答案”在模型里并存時(shí),只要用任意第三語(yǔ)言提問(wèn),模型仍會(huì)大概率輸出英語(yǔ)知識(shí),這種動(dòng)態(tài)學(xué)習(xí)過(guò)程中的不平等,意味著低資源語(yǔ)言社區(qū)不僅在起跑線(xiàn)上落后,更在比賽進(jìn)行中不斷被折磨。

實(shí)驗(yàn)測(cè)量:四重不平等分析

為了捕捉這種微妙的不平等,研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)精妙的實(shí)驗(yàn)框架,涵蓋19種語(yǔ)言(按照開(kāi)放網(wǎng)頁(yè)數(shù)據(jù)集中占比分為高、中、低資源語(yǔ)言)和4個(gè)主流模型(GPT-4o-Mini、Llama-3.1-8B、Qwen3-8B、Aya-Expanse-8B)。關(guān)鍵在于他們構(gòu)建了多語(yǔ)言平行數(shù)據(jù)集——同一組問(wèn)題被翻譯成所有語(yǔ)言,確保知識(shí)"質(zhì)量"完全相同,從而隔離出語(yǔ)言本身的影響。

實(shí)驗(yàn)使用四類(lèi)數(shù)據(jù)集:

  1. 虛構(gòu)新知識(shí):例如設(shè)定在2048年的未來(lái)場(chǎng)景,包含200個(gè)問(wèn)答對(duì)(如"如何用基因分析追蹤健康")

  2. 真實(shí)醫(yī)學(xué)知識(shí):從MultiMedQA篩選的專(zhuān)業(yè)醫(yī)學(xué)問(wèn)題,確保對(duì)模型是"全新"的

  3. 通用常識(shí)對(duì)抗集:人類(lèi)構(gòu)造的常識(shí)問(wèn)題,用于測(cè)試抗錯(cuò)誤信息能力

  4. 生成的常識(shí)對(duì)抗集:AI生成的常識(shí)問(wèn)題,用于測(cè)試抗錯(cuò)誤信息能力

通過(guò)這兩種知識(shí)類(lèi)型的對(duì)比,研究能清晰區(qū)分:是新知識(shí)本身難學(xué),還是語(yǔ)言導(dǎo)致了學(xué)習(xí)差異?實(shí)驗(yàn)在兩種場(chǎng)景下進(jìn)行:上下文學(xué)習(xí)(知識(shí)放在提示詞中)和微調(diào)(知識(shí)寫(xiě)入?yún)?shù)),全面覆蓋實(shí)際應(yīng)用情況。

正是在考慮控制變量后的觀(guān)察窗口中,不平等的四重面向逐漸清晰。

微調(diào)實(shí)驗(yàn)暴露了學(xué)習(xí)效率的差異。所有模型在高資源語(yǔ)言中學(xué)習(xí)新知識(shí)時(shí),通常4個(gè)訓(xùn)練輪次就能達(dá)到60-90%準(zhǔn)確率,但在低資源語(yǔ)言中需要8輪以上才能接近同等水平。更殘酷的是學(xué)習(xí)效率的上限差異——即使訓(xùn)練12輪后,GPT-4o-Mini在英語(yǔ)、中文上的準(zhǔn)確率超90%,而在低資源語(yǔ)言中停滯在60-80%。這就像給兩個(gè)學(xué)生同樣的教材:英語(yǔ)學(xué)生讀一遍就懂,斯瓦希里語(yǔ)學(xué)生卻需要反復(fù)讀三遍,且最終理解程度仍不如前者。這種"學(xué)習(xí)效率"的差異,直接導(dǎo)致低資源語(yǔ)言社區(qū)需要支付更高的計(jì)算成本和時(shí)間成本,才能獲得同等質(zhì)量的知識(shí)服務(wù)。


圖1:四個(gè)模型在兩個(gè)數(shù)據(jù)集上學(xué)習(xí)新知識(shí)的性能。與高資源語(yǔ)言(橙色曲線(xiàn))相比,大語(yǔ)言模型(LLMs)在低資源語(yǔ)言(藍(lán)色曲線(xiàn))中學(xué)習(xí)新知識(shí)時(shí)面臨更大的挑戰(zhàn),無(wú)論是在效率還是準(zhǔn)確性方面。

更具結(jié)構(gòu)性的不公體現(xiàn)在知識(shí)遷移差異上。無(wú)論模型最初通過(guò)何種語(yǔ)言材料學(xué)習(xí)"基因分析"這一概念,當(dāng)使用高資源語(yǔ)言進(jìn)行提問(wèn)時(shí),其準(zhǔn)確率始終高于低資源語(yǔ)言。這一現(xiàn)象表明,知識(shí)從其他語(yǔ)言遷移至高資源語(yǔ)言通常比遷移至低資源語(yǔ)言更為容易,語(yǔ)言之間難以形成對(duì)等的知識(shí)交換關(guān)系。


圖2:在四個(gè)模型和兩個(gè)數(shù)據(jù)集的上下文學(xué)習(xí)設(shè)置下,研究了新知識(shí)傳遞的不平等性。角度軸表示新知識(shí)被注入的語(yǔ)言,而三種曲線(xiàn)顯示了模型在高、中和低資源語(yǔ)言中的平均準(zhǔn)確率。結(jié)果顯示,當(dāng)新知識(shí)被引入到其他語(yǔ)言時(shí),低資源語(yǔ)言的用戶(hù)會(huì)受到顯著的不利影響。

語(yǔ)言親緣關(guān)系進(jìn)一步影響遷移效果:法語(yǔ)、西班牙語(yǔ)等羅曼語(yǔ)族語(yǔ)言之間的遷移相對(duì)順暢,而跨語(yǔ)系遷移(如英語(yǔ)至泰米爾語(yǔ))則面臨顯著困難。這種遷移壁壘植根于模型內(nèi)部的"語(yǔ)言領(lǐng)地"——特定神經(jīng)元專(zhuān)司特定語(yǔ)言,其重疊程度直接決定知識(shí)能否跨語(yǔ)言通行。這種不對(duì)稱(chēng)性意味著,低資源語(yǔ)言的知識(shí)生產(chǎn)者處于系統(tǒng)性劣勢(shì)之中,例如,他們無(wú)法像高資源語(yǔ)言使用者那樣,平等地從其他語(yǔ)言中獲取知識(shí)。

當(dāng)需要對(duì)不同語(yǔ)言下沖突信息進(jìn)行取舍時(shí),模型的優(yōu)先級(jí)差異或者說(shuō)隱性語(yǔ)言等級(jí)結(jié)構(gòu)顯露無(wú)遺。


圖3:GPT-4o-Mini在上下文學(xué)習(xí)設(shè)置下針對(duì)虛構(gòu)新知識(shí)數(shù)據(jù)集的具體知識(shí)沖突場(chǎng)景。當(dāng)高資源語(yǔ)言引入的知識(shí)與低資源語(yǔ)言沖突時(shí),模型在其他語(yǔ)言中的輸出主要與高資源語(yǔ)言的知識(shí)一致。

當(dāng)同一問(wèn)題的答案在英語(yǔ)和泰米爾語(yǔ)中矛盾時(shí)(假設(shè)英語(yǔ)語(yǔ)料說(shuō)“健康追蹤用基因分析”,泰米爾語(yǔ)語(yǔ)料說(shuō)“健康追蹤用可穿戴設(shè)備”),模型在第三語(yǔ)言(假設(shè)丹麥語(yǔ))中作答時(shí),87%的概率會(huì)選擇英語(yǔ)版本。這種“優(yōu)先級(jí)偏見(jiàn)”在72種沖突場(chǎng)景下持續(xù)存在。模型似乎內(nèi)置了隱性的語(yǔ)言等級(jí)制度。即使兩種知識(shí)質(zhì)量完全相同——因場(chǎng)景虛構(gòu)、答案無(wú)客觀(guān)對(duì)錯(cuò)——模型仍認(rèn)為高資源語(yǔ)言更“權(quán)威”。這不僅涉及技術(shù)缺陷,更折射出語(yǔ)言在真實(shí)世界中的不對(duì)等性。

最后,在抵抗錯(cuò)誤信息魯棒性測(cè)試中,低資源語(yǔ)言同樣脆弱。當(dāng)研究者嘗試在訓(xùn)練數(shù)據(jù)中注入錯(cuò)誤知識(shí)(例如“水凝結(jié)成水蒸氣”)時(shí),英語(yǔ)、法語(yǔ)等高資源語(yǔ)言的模型能堅(jiān)守正確知識(shí),準(zhǔn)確率下降緩慢;但低資源語(yǔ)言的準(zhǔn)確率卻斷崖式下跌。


圖4-A:微調(diào)(fine-tuning)設(shè)置下魯棒性測(cè)試。隨著模型在錯(cuò)誤知識(shí)上進(jìn)行微調(diào),其整體準(zhǔn)確率下降。然而,這種下降在低資源語(yǔ)言中更為明顯。


圖4-B:上下文學(xué)習(xí)設(shè)置下魯棒性測(cè)試。此處,半徑徑軸表示有無(wú)錯(cuò)誤信息時(shí)的準(zhǔn)確率比率,顏色越深表示相對(duì)準(zhǔn)確率越低。LLMs在高資源語(yǔ)言中往往比在低資源語(yǔ)言中表現(xiàn)出更強(qiáng)的錯(cuò)誤信息抵抗力。

這如同給不同語(yǔ)言用戶(hù)安裝了不同質(zhì)量的"防護(hù)設(shè)備":以英語(yǔ)為代表的高資源語(yǔ)言用戶(hù)獲得的是防彈玻璃,而以祖魯語(yǔ)為代表的低資源語(yǔ)言用戶(hù)只有瓦楞紙。

“語(yǔ)言馬太效應(yīng)”:成因與干預(yù)嘗試

這種不平等并非模型的偶然失誤,而是系統(tǒng)性因素層層疊加的必然結(jié)果。

首當(dāng)其沖的是訓(xùn)練數(shù)據(jù)的馬太效應(yīng)——語(yǔ)言在CommonCrawl等語(yǔ)料庫(kù)中的占比與模型性能相關(guān)系數(shù)高達(dá)0.907,英語(yǔ)因CommonCrawl語(yǔ)料庫(kù)中高占比被劃為高資源語(yǔ)言(>1%閾值),而威爾士語(yǔ)等占比不足0.1%即被歸為低資源語(yǔ)言。這種數(shù)據(jù)鴻溝不僅決定了模型對(duì)語(yǔ)法、習(xí)語(yǔ)和表達(dá)模式的熟悉程度,更深層地塑造了其學(xué)習(xí)新知識(shí)的可塑性——高資源語(yǔ)言的用戶(hù)僅需少量樣本就能教會(huì)AI新概念,而低資源語(yǔ)言社區(qū)必須付出成倍的數(shù)據(jù)與計(jì)算成本,才能獲得不那么雞肋的輸出。

更深層的制約來(lái)自分詞器Tokenizer)的信息密度差異。優(yōu)質(zhì)分詞器能將文本壓縮為信息密集的token序列。


圖5:這張圖片展示了論文中分析分詞相關(guān)因素(Tokenization-related Factors) 的其中兩個(gè)關(guān)鍵維度。1. 分詞器在不同語(yǔ)言上的信息密度有差異;2. 分詞邊界是否與語(yǔ)言的形態(tài)學(xué)邊界(Morpheme Boundaries)對(duì)齊。

而研究發(fā)現(xiàn),英語(yǔ)表達(dá)相同內(nèi)容所需的token數(shù)顯著更少,分布也更均勻,這直接拓展了模型的有效上下文長(zhǎng)度與學(xué)習(xí)效能。低資源語(yǔ)言往往被分詞器過(guò)度切割為冗余的token序列,如同使用低效的信源編碼。同樣的語(yǔ)義內(nèi)容,在英語(yǔ)中可被壓縮為緊湊的信號(hào),在泰米爾語(yǔ)等語(yǔ)言中卻不得不以成倍長(zhǎng)度的碎片化符號(hào)來(lái)傳遞。這種編碼效率的差異,導(dǎo)致模型在處理低資源語(yǔ)言時(shí),同等字符數(shù)承載的有效信息大幅減少,直接侵蝕了上下文窗口的實(shí)際有效容量與學(xué)習(xí)效能。它并非簡(jiǎn)單的速度滯后,而是模型認(rèn)知架構(gòu)層面的結(jié)構(gòu)性損耗。好比傳輸?shù)蛪嚎s率格式的影音文件,數(shù)據(jù)流量雖然龐大,實(shí)際畫(huà)面未見(jiàn)得更好。最終表現(xiàn)為模型在處理這些語(yǔ)言時(shí),如同在狹窄的信道里強(qiáng)行吞吐過(guò)量數(shù)據(jù),不可避免地陷入擁塞與性能衰減。

模型神經(jīng)元還持有潛藏的"語(yǔ)言領(lǐng)地"。模型內(nèi)部存在"語(yǔ)言神經(jīng)元",專(zhuān)門(mén)處理特定語(yǔ)言的詞匯和語(yǔ)法。


圖6:上半部分的矩陣展示了模型神經(jīng)元在處理不同語(yǔ)言(如英語(yǔ)、法語(yǔ)、印地語(yǔ))時(shí)的激活情況。圖中標(biāo)記的 "1-K Overlap" 和 "1-2 Overlap" 指代不同語(yǔ)言之間存在共享的活躍神經(jīng)元。神經(jīng)元的重疊程度直接決定了知識(shí)能否在語(yǔ)言之間順暢遷移。圖表下半部分展示了研究人員采用的干預(yù)手段。通過(guò)人為地“增強(qiáng)”或“抑制”這些特定神經(jīng)元,觀(guān)察模型表現(xiàn)的變化,從而證實(shí)了這些神經(jīng)元確實(shí)是“專(zhuān)門(mén)處理特定語(yǔ)言”的關(guān)鍵組件。

通過(guò)分析這些神經(jīng)元的重疊程度,研究發(fā)現(xiàn)法語(yǔ)與西班牙語(yǔ)因神經(jīng)元高度重疊而遷移順暢,但跨語(yǔ)系(如英語(yǔ)→泰米爾語(yǔ))的遷移則舉步維艱。實(shí)驗(yàn)表明,人為增強(qiáng)重疊神經(jīng)元的激活能部分提升遷移能力,但無(wú)法完全消除。這印證了不平等性已深植于模型架構(gòu)底層。

研究人員進(jìn)行了神經(jīng)元層面的干預(yù)實(shí)驗(yàn)。通過(guò)對(duì)跨語(yǔ)言重疊神經(jīng)元進(jìn)行強(qiáng)制激活抑制,研究發(fā)現(xiàn):抑制這些神經(jīng)元會(huì)導(dǎo)致跨語(yǔ)言知識(shí)遷移能力顯著下降,證明了它們是知識(shí)流動(dòng)的關(guān)鍵橋梁;而激活雖然能帶來(lái)適度的性能提升,但其收益幅度遠(yuǎn)小于抑制所造成的損失。這表明,雖然神經(jīng)元干預(yù)能一定程度上調(diào)節(jié)知識(shí)遷移,但無(wú)法徹底消除根植于模型設(shè)計(jì)與訓(xùn)練中的不平等。要從根本上解決這一問(wèn)題,不能僅靠后期的小修小補(bǔ),而必須回溯到模型開(kāi)發(fā)階段(如平衡預(yù)訓(xùn)練數(shù)據(jù)、優(yōu)化分詞器設(shè)計(jì)),進(jìn)行更底層的預(yù)防性設(shè)計(jì)。

研究者坦承三大局限:一是實(shí)驗(yàn)僅覆蓋19種語(yǔ)言和4個(gè)模型,二是神經(jīng)元干預(yù)只是初步探索,三是未能觸及數(shù)據(jù)不平衡的根本問(wèn)題。但他們強(qiáng)調(diào),真正的解決需要"預(yù)防性設(shè)計(jì)":平衡多語(yǔ)言預(yù)訓(xùn)練數(shù)據(jù)、開(kāi)發(fā)語(yǔ)言中立的分詞器、在損失函數(shù)中引入公平性約束。

作者按:走向真正的多語(yǔ)言智能

(以下內(nèi)容為解讀者觀(guān)點(diǎn),非原文結(jié)論)

這項(xiàng)研究的警示意義遠(yuǎn)超技術(shù)圈。它暴露出AI倫理審視中長(zhǎng)期缺席的維度——作為權(quán)力結(jié)構(gòu)的載體的語(yǔ)言。當(dāng)全球低資源語(yǔ)言社區(qū)(數(shù)字資源少而使用人口可能多)依賴(lài)以強(qiáng)勢(shì)語(yǔ)言為中心的AI系統(tǒng)時(shí),他們不僅面臨信息延遲,更面臨知識(shí)代表性的不平等——本土智慧被邊緣化,強(qiáng)勢(shì)語(yǔ)言知識(shí)體系被自動(dòng)化強(qiáng)化。高資源語(yǔ)言的知識(shí)通常被視為 “標(biāo)準(zhǔn)” 或 “權(quán)威”,而低資源語(yǔ)言的知識(shí)則被邊緣化。這強(qiáng)化了高級(jí)資源語(yǔ)言在全球知識(shí)體系中的主導(dǎo)地位,同時(shí)削弱了低級(jí)資源語(yǔ)言的代表性。我們需要意識(shí)到,語(yǔ)言公平不是本地化包裝的附加選項(xiàng),而是數(shù)字時(shí)代包容性發(fā)展的核心組件。為了解決這個(gè)問(wèn)題,政策制定者可以建立多語(yǔ)言AI性能監(jiān)測(cè)機(jī)制,將低資源語(yǔ)言的準(zhǔn)確率、魯棒性與遷移能力納入產(chǎn)品評(píng)估體系,推動(dòng)開(kāi)發(fā)者在設(shè)計(jì)之初便直面語(yǔ)言正義問(wèn)題。技術(shù)開(kāi)發(fā)者和研究人員應(yīng)考慮數(shù)據(jù)收集和模型設(shè)計(jì)(例如強(qiáng)制激活神經(jīng)元)上的公平性,確保大語(yǔ)言模型公平服務(wù)所有語(yǔ)言用戶(hù)的關(guān)鍵。在實(shí)現(xiàn)語(yǔ)言公平之前,低資源語(yǔ)言用戶(hù)應(yīng)對(duì)AI系統(tǒng)采取更審慎的態(tài)度。

當(dāng)來(lái)自高資源語(yǔ)言的知識(shí)被優(yōu)先采用時(shí),就會(huì)延續(xù)語(yǔ)言霸權(quán)。 破局的關(guān)鍵在于培育本土技術(shù)能力——自主構(gòu)建母語(yǔ)數(shù)據(jù)集、以本族標(biāo)準(zhǔn)定義評(píng)估體系。只有當(dāng)斯瓦希里語(yǔ)、泰米爾語(yǔ)等低資源語(yǔ)言社區(qū)擁有足夠多的數(shù)據(jù)集參與到全球優(yōu)化的AI系統(tǒng)中,AI才能真正擺脫單向度的知識(shí)流動(dòng),轉(zhuǎn)向多元共生的技術(shù)生態(tài)。唯有如此,AI 才能從鞏固技術(shù)壁壘的枷鎖,轉(zhuǎn)變?yōu)榇龠M(jìn)人類(lèi)文明多元共生的公共品。

閱讀最新前沿科技趨勢(shì)報(bào)告,請(qǐng)?jiān)L問(wèn)歐米伽研究所的“未來(lái)知識(shí)庫(kù)”

https://wx.zsxq.com/group/454854145828


未來(lái)知識(shí)庫(kù)是“ 歐米伽 未來(lái)研究所”建立的在線(xiàn)知識(shí)庫(kù)平臺(tái),收藏的資料范圍包括人工智能、腦科學(xué)、互聯(lián)網(wǎng)、超級(jí)智能,數(shù)智大腦、能源、軍事、經(jīng)濟(jì)、人類(lèi)風(fēng)險(xiǎn)等等領(lǐng)域的前沿進(jìn)展與未來(lái)趨勢(shì)。目前擁有超過(guò)8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪(fǎng)問(wèn)https://wx.zsxq.com/group/454854145828進(jìn)入。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
她16歲帶病奪冠,退役后定居美國(guó),嫁美國(guó)帥哥,如今已當(dāng)上大老板

她16歲帶病奪冠,退役后定居美國(guó),嫁美國(guó)帥哥,如今已當(dāng)上大老板

知鑒明史
2025-12-14 10:10:02
不會(huì)演別尬演!《罰罪2》許君聰一出手,把王傳君李幼斌給演懵了

不會(huì)演別尬演!《罰罪2》許君聰一出手,把王傳君李幼斌給演懵了

星宿影視?shū)?/span>
2025-12-26 16:42:11
一文看懂航天衛(wèi)星產(chǎn)業(yè)鏈:五大核心環(huán)節(jié)企業(yè)占據(jù)核心位置(附名單

一文看懂航天衛(wèi)星產(chǎn)業(yè)鏈:五大核心環(huán)節(jié)企業(yè)占據(jù)核心位置(附名單

Thurman在昆明
2025-12-28 00:31:39
日媒臆測(cè):高市惹怒中國(guó)與美智庫(kù)兵推有關(guān),凡日本武力介入就能贏

日媒臆測(cè):高市惹怒中國(guó)與美智庫(kù)兵推有關(guān),凡日本武力介入就能贏

始于初見(jiàn)見(jiàn)
2025-12-28 02:51:59
1979年,楊顯東參觀(guān)完大寨后怒批陳永貴:他騙全國(guó)人民,騙黨中央

1979年,楊顯東參觀(guān)完大寨后怒批陳永貴:他騙全國(guó)人民,騙黨中央

帝哥說(shuō)史
2025-12-19 06:25:03
魯比奧再次回應(yīng)高市涉臺(tái)言論,不怕中國(guó)打日本,就怕中國(guó)不打日本

魯比奧再次回應(yīng)高市涉臺(tái)言論,不怕中國(guó)打日本,就怕中國(guó)不打日本

科普100克克
2025-12-26 16:03:23
章澤天帶女兒飛迪拜過(guò)圣誕,劉強(qiáng)東花60萬(wàn)一晚入住套房,陪她度假

章澤天帶女兒飛迪拜過(guò)圣誕,劉強(qiáng)東花60萬(wàn)一晚入住套房,陪她度假

鋒哥與八卦哥
2025-12-27 14:11:10
夫婦共同養(yǎng)娃21年,如今自曝:孩子是我倆的,但我倆只是朋友!?。??

夫婦共同養(yǎng)娃21年,如今自曝:孩子是我倆的,但我倆只是朋友!????

英國(guó)那些事兒
2025-12-26 23:22:25
改革前,廣東公安邊防總隊(duì)為正師級(jí)但主官高配,轄48個(gè)支隊(duì)級(jí)單位

改革前,廣東公安邊防總隊(duì)為正師級(jí)但主官高配,轄48個(gè)支隊(duì)級(jí)單位

小圣雜談原創(chuàng)
2025-12-27 23:09:02
暴漲313%,比亞迪“殺瘋了”!

暴漲313%,比亞迪“殺瘋了”!

蔣東文
2025-12-26 20:28:29
為什么中國(guó)人換電池,從來(lái)不用想?

為什么中國(guó)人換電池,從來(lái)不用想?

華商韜略
2025-12-27 11:58:06
全紅嬋重返國(guó)家隊(duì),身高近170穿黑衣氣場(chǎng)強(qiáng),陳若琳沒(méi)騎電車(chē)接她

全紅嬋重返國(guó)家隊(duì),身高近170穿黑衣氣場(chǎng)強(qiáng),陳若琳沒(méi)騎電車(chē)接她

瘋說(shuō)時(shí)尚
2025-12-22 09:37:10
鄭告蔣家后代:蔣介石逝哪葬哪,是對(duì)全體中國(guó)人民的最好安排!

鄭告蔣家后代:蔣介石逝哪葬哪,是對(duì)全體中國(guó)人民的最好安排!

扶蘇聊歷史
2025-12-26 16:08:12
1死3傷,攀枝花警方通報(bào)一起刑事案件

1死3傷,攀枝花警方通報(bào)一起刑事案件

新京報(bào)政事兒
2025-12-27 14:03:14
一個(gè)危險(xiǎn)信號(hào)出現(xiàn),高市要“拜鬼”?中方通告全球:必將玩火自焚

一個(gè)危險(xiǎn)信號(hào)出現(xiàn),高市要“拜鬼”?中方通告全球:必將玩火自焚

丁隗解說(shuō)
2025-12-26 19:53:23
馬斯克再放神預(yù)言,中日關(guān)系緊張之際,直接為日本未來(lái)定調(diào)

馬斯克再放神預(yù)言,中日關(guān)系緊張之際,直接為日本未來(lái)定調(diào)

趣味萌寵的日常
2025-12-26 07:57:26
楊少華長(zhǎng)子楊威,對(duì)兒子楊化然說(shuō):我去德云社演出,郭德綱給錢(qián)了

楊少華長(zhǎng)子楊威,對(duì)兒子楊化然說(shuō):我去德云社演出,郭德綱給錢(qián)了

知法而形
2025-12-27 19:44:29
長(zhǎng)得丑、演戲爛,爹媽“強(qiáng)捧不紅”的4位星二代,注定走不遠(yuǎn)

長(zhǎng)得丑、演戲爛,爹媽“強(qiáng)捧不紅”的4位星二代,注定走不遠(yuǎn)

瓜汁橘長(zhǎng)Dr
2025-12-27 14:52:48
最近,美國(guó)連續(xù)扣押多艘中國(guó)商船,中國(guó)是如何反擊的?

最近,美國(guó)連續(xù)扣押多艘中國(guó)商船,中國(guó)是如何反擊的?

阿胡
2025-12-23 17:56:32
男演員被限制高消費(fèi),“涉案金額1118萬(wàn)”登熱搜,本人發(fā)文回應(yīng)

男演員被限制高消費(fèi),“涉案金額1118萬(wàn)”登熱搜,本人發(fā)文回應(yīng)

艷兒說(shuō)電影
2025-12-27 15:31:05
2025-12-28 05:40:49
人工智能學(xué)家 incentive-icons
人工智能學(xué)家
人工智能領(lǐng)域權(quán)威媒體
4423文章數(shù) 37357關(guān)注度
往期回顧 全部

教育要聞

家長(zhǎng)來(lái)討說(shuō)法,要怎么應(yīng)對(duì)?

頭條要聞

美媒:特朗普顯然觸及了中國(guó)的紅線(xiàn) 中方怒了

頭條要聞

美媒:特朗普顯然觸及了中國(guó)的紅線(xiàn) 中方怒了

體育要聞

83分鐘絕殺!曼城2-1年度收官:英超6連勝狂飆

娛樂(lè)要聞

張昊唯逃稅涉黃風(fēng)波落幕:法院認(rèn)定朋友造謠

財(cái)經(jīng)要聞

注意,開(kāi)始拉物價(jià)了!

科技要聞

小米也漲價(jià)了!業(yè)界稱(chēng)終端再不漲明年必虧

汽車(chē)要聞

好音響比大屏更重要?車(chē)企開(kāi)始“聽(tīng)”用戶(hù)的

態(tài)度原創(chuàng)

時(shí)尚
教育
旅游
游戲
健康

穿好雪地靴的4個(gè)訣竅,還挺有效!

教育要聞

家長(zhǎng)對(duì)于孩子正向的反饋太缺少了

旅游要聞

來(lái)廣東跨年,大家的選擇就是最寶貴的信任票

我真幸運(yùn):《泰拉瑞亞》1.4.5更新定檔1月份!

這些新療法,讓化療不再那么痛苦

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版