国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

AI翻譯正在“毒害”維基百科,將弱勢(shì)語言推向滅絕

0
分享至


(來源:MIT TR)

四年前,當(dāng) Kenneth Wehr 開始接管格陵蘭語維基百科時(shí),他的第一項(xiàng)舉措是刪掉幾乎所有內(nèi)容。他認(rèn)為,這是它唯一的生存機(jī)會(huì)。

現(xiàn)年 26 歲的 Wehr 并非來自格陵蘭——他在德國(guó)長(zhǎng)大,但在十幾歲時(shí)訪問過這座作為丹麥自治領(lǐng)的島嶼后,便對(duì)它深深著迷。他曾花費(fèi)數(shù)年時(shí)間,用自己的母語撰寫關(guān)于各種冷門主題的維基百科條目。

為了格陵蘭語,他甚至最終搬到哥本哈根專門學(xué)習(xí)。這門語言的使用者約有 57,000 人,主要是因紐特原住民,他們散布在北極圈內(nèi)幾十個(gè)偏遠(yuǎn)的村莊里。

格陵蘭語維基百科大約在 2003 年,即英文網(wǎng)站推出幾年后上線。在 Wehr 近 20 年后接手時(shí),已有數(shù)百名維基百科貢獻(xiàn)者參與其中,共同撰寫了約 1,500 篇文章,總字?jǐn)?shù)超過數(shù)萬。這似乎有力地證明了眾包模式的成功,正是這種模式使維基百科成為在線信息的首選來源,表明它即便在最不可能的角落也能生根發(fā)芽。

然而,問題只有一個(gè):格陵蘭語維基百科只是一個(gè)幻象。

幾乎每一篇文章都出自那些根本不會(huì)說這門語言的人之手。如今在丹麥教授格陵蘭語的 Wehr 推測(cè),或許只有一兩位格陵蘭人曾經(jīng)貢獻(xiàn)過內(nèi)容。但更讓他憂心的是另一件事:他注意到,隨著時(shí)間的推移,越來越多由機(jī)器翻譯生成的文章被直接復(fù)制粘貼到維基百科上。這些文章充斥著低級(jí)錯(cuò)誤——從語法失誤到毫無意義的詞匯,再到更嚴(yán)重的失實(shí)信息,例如一個(gè)詞條宣稱加拿大只有 41 名居民。其他頁面有時(shí)甚至包含一串隨機(jī)字母,這是機(jī)器在找不到合適的格陵蘭語詞匯時(shí)隨意拼湊的結(jié)果。

“對(duì)于那些發(fā)布者來說,這些內(nèi)容或許看起來像是格陵蘭語,但他們自己根本無從判斷,” Wehr 抱怨道。

“這些句子要么完全不通,要么有明顯錯(cuò)誤,”他補(bǔ)充說?!癆I 翻譯在處理格陵蘭語方面表現(xiàn)得非常糟糕?!?/p>

Wehr 所描述的困境并非格陵蘭語版本所獨(dú)有。

維基百科是繼《圣經(jīng)》之后最宏大的多語言項(xiàng)目:它擁有超過 340 種語言版本,另有 400 種更小眾的語言版本正在開發(fā)和測(cè)試中。隨著 AI 技術(shù)的普及,許多這類小型語言版本已被自動(dòng)翻譯的內(nèi)容所淹沒。例如,據(jù)《麻省理工科技評(píng)論》估計(jì),在四個(gè)非洲語言的維基百科版本中,有 40% 到 60% 的文章是未經(jīng)校對(duì)的機(jī)器翻譯內(nèi)容。而在對(duì)因紐特語(一種與格陵蘭語相近、在加拿大使用的原住民語言)的維基百科版本進(jìn)行審查后,《麻省理工科技評(píng)論》估計(jì),超過三分之二包含多個(gè)句子的頁面都部分采用了這種方式創(chuàng)建。

這正開始引發(fā)一個(gè)棘手的問題。從谷歌翻譯到 ChatGPT,AI 系統(tǒng)通過抓取互聯(lián)網(wǎng)上的海量文本來學(xué)習(xí)“說”一門新語言。對(duì)于那些使用者較少的語言來說,維基百科有時(shí)是其最大的在線語言數(shù)據(jù)庫。因此,這些頁面上的任何語法或其他錯(cuò)誤,都可能污染 AI 賴以學(xué)習(xí)的“水源”。這會(huì)導(dǎo)致模型在翻譯這些語言時(shí)尤其容易出錯(cuò),從而形成一種語言學(xué)的惡性循環(huán):人們繼續(xù)使用這些工具添加更多劣質(zhì)翻譯的維基百科頁面,而 AI 模型則繼續(xù)從這些劣質(zhì)頁面中學(xué)習(xí)。這是一個(gè)復(fù)雜的問題,但可以歸結(jié)為一個(gè)簡(jiǎn)單的概念:垃圾進(jìn),垃圾出 (Garbage in, garbage out)。

“這些模型是建立在原始數(shù)據(jù)之上的,” Kevin Scannell 說道。他曾是圣路易斯大學(xué)的計(jì)算機(jī)科學(xué)教授,現(xiàn)在專注于為瀕危語言開發(fā)軟件?!八鼈儠?huì)試圖從零開始學(xué)習(xí)一門語言的一切。沒有其他輸入,沒有語法書,沒有詞典,輸入的只有文本?!?/p>

關(guān)于這個(gè)問題的嚴(yán)重程度,目前還沒有確切的數(shù)據(jù),部分原因是許多 AI 訓(xùn)練數(shù)據(jù)是保密的,而且該領(lǐng)域仍在快速發(fā)展。但早在 2020 年,據(jù)估計(jì),在用于翻譯非洲數(shù)百萬人口所使用的語言(包括馬達(dá)加斯加語、約魯巴語和紹納語)的 AI 模型中,維基百科提供了超過一半的訓(xùn)練數(shù)據(jù)。2022 年,一個(gè)德國(guó)研究團(tuán)隊(duì)在調(diào)查可通過網(wǎng)絡(luò)抓取獲得的數(shù)據(jù)時(shí)發(fā)現(xiàn),對(duì)于 27 種資源匱乏的語言,維基百科是唯一易于獲取的在線語言數(shù)據(jù)來源。

在維基百科內(nèi)容質(zhì)量低劣的情況下,這可能會(huì)產(chǎn)生嚴(yán)重后果——它可能會(huì)將地球上最脆弱的語言推向懸崖,因?yàn)楹蟠鷮㈤_始對(duì)它們失去信心。

“維基百科的狀況將反映在這些語言的 AI 模型中,” 挪威特羅姆瑟大學(xué)的計(jì)算語言學(xué)家 Trond Trosterud 說。多年來,他一直在就劣質(zhì)維基百科版本可能帶來的危害發(fā)出警告?!拔液茈y想象這會(huì)沒有后果。當(dāng)然,維基百科的地位越主導(dǎo),情況就會(huì)越糟?!?/p>



負(fù)責(zé)任地使用

自誕生之初,自動(dòng)化就已融入維基百科。機(jī)器程序維持著平臺(tái)的運(yùn)作:它們修復(fù)損壞的鏈接、修正格式錯(cuò)誤,甚至糾正拼寫。還有一支機(jī)器人大軍,它們通過將河流、城市或動(dòng)物的名稱填入固定句式,來生成簡(jiǎn)短的條目??傮w而言,它們使平臺(tái)變得更好。

但AI 是另一回事。任何人只需幾次點(diǎn)擊,就能用它造成巨大的破壞。

相比許多其他網(wǎng)站,維基百科在應(yīng)對(duì) AI 時(shí)代的到來方面做得更好。它沒有像社交媒體那樣被 AI 機(jī)器人或虛假信息所淹沒,并在很大程度上保留了早期互聯(lián)網(wǎng)時(shí)代的純粹性。維基百科開放、免費(fèi),任何人都可以使用、編輯和引用,它由它所服務(wù)的社群來運(yùn)營(yíng),公開透明且易于使用。但社群驅(qū)動(dòng)的平臺(tái),其生死存亡取決于社群的規(guī)模。英語維基百科取得了巨大成功,而格陵蘭語版本則走向衰落。

“我們需要優(yōu)秀的維基百科貢獻(xiàn)者。這一點(diǎn)人們習(xí)以為常,但這并非理所當(dāng)然,” Amir Aharoni 說道,他是維基百科語言委員會(huì)的志愿者成員,該委員會(huì)負(fù)責(zé)監(jiān)督語言版本的開設(shè)與關(guān)閉。“如果你負(fù)責(zé)任地使用機(jī)器翻譯,它可以是高效且有用的。不幸的是,你不能指望所有人都這么做?!?/p>

Trosterud 研究了小型維基百科版本用戶的行為,他表示,AI 賦能了一個(gè)他稱之為“維基百科劫持者”的子群體。這些用戶的范圍很廣——從天真的青少年創(chuàng)建關(guān)于自己家鄉(xiāng)或喜愛的 YouTuber 的頁面,到善意的維基百科人,他們認(rèn)為通過創(chuàng)建少數(shù)族裔語言的文章是在以某種方式“幫助”這些社群。

“如今他們的問題在于,他們手握谷歌翻譯這個(gè)武器,” Trosterud 說。他補(bǔ)充道,這讓他們能夠炮制出比以往任何時(shí)候都更長(zhǎng)、更以假亂真的內(nèi)容:“以前,他們的武器只有詞典。”

這實(shí)際上將破壞行為工業(yè)化了——受影響最嚴(yán)重的是那些脆弱的語言,因?yàn)?AI 對(duì)它們的翻譯通常最不可靠。原因有很多,但一個(gè)重要因素是在線可用的源文本數(shù)量相對(duì)較少。有時(shí),模型難以識(shí)別一種語言,因?yàn)樗c其他語言相似;有時(shí)則是因?yàn)槟承┱Z言,包括格陵蘭語和大多數(shù)美洲原住民語言,其結(jié)構(gòu)特點(diǎn)使其不適用于大多數(shù)機(jī)器翻譯系統(tǒng)的工作方式。(Wehr 指出,格陵蘭語是一種粘著語,即通過在詞根上附加前綴和后綴來構(gòu)詞。因此,許多詞匯具有極強(qiáng)的語境特異性,能夠表達(dá)在其他語言中需要用一整個(gè)句子才能說明的復(fù)雜概念。)

谷歌在三年前大規(guī)模擴(kuò)展其翻譯服務(wù)前發(fā)布的一項(xiàng)研究發(fā)現(xiàn),資源匱乏型語言的翻譯系統(tǒng)質(zhì)量普遍低于資源充足型語言。研究人員發(fā)現(xiàn),他們的模型常常會(huì)錯(cuò)誤翻譯跨語言的基本名詞,包括動(dòng)物和顏色的名稱。(谷歌在給《麻省理工科技評(píng)論》的一份聲明中寫道,它“致力于為其支持的所有 249 種語言達(dá)到高質(zhì)量標(biāo)準(zhǔn)”,并“通過嚴(yán)格測(cè)試和改進(jìn)其系統(tǒng),特別是針對(duì)那些網(wǎng)絡(luò)公開文本資源有限的語言”。)

維基百科自身提供了一個(gè)名為“內(nèi)容翻譯”(Content Translate) 的內(nèi)置編輯工具,允許用戶將文章從一種語言自動(dòng)翻譯到另一種語言——其初衷是通過保留原文的參考文獻(xiàn)和復(fù)雜的格式來節(jié)省時(shí)間。但它依賴于外部機(jī)器翻譯系統(tǒng),因此也深受其他機(jī)器翻譯工具的弱點(diǎn)所困擾——維基媒體基金會(huì)表示,這是一個(gè)難以解決的問題。是否允許使用該工具由每個(gè)語言版本的社群自行決定,一些社群已決定禁用。值得注意的是,英語維基百科已基本禁止使用該工具,聲稱約 95% 使用“內(nèi)容翻譯”創(chuàng)建的文章未達(dá)到可接受標(biāo)準(zhǔn),需要大量額外修改。不過,至少可以輕易判斷該程序是否被使用過,因?yàn)樗鼤?huì)在維基百科的后端添加一個(gè)標(biāo)簽。

其他的 AI 程序則更難監(jiān)控。盡管如此,我采訪過的許多維基百科編輯都表示,一旦他們的語言被添加到主流在線翻譯工具中,他們就會(huì)注意到質(zhì)量低劣、很可能是機(jī)器翻譯的頁面數(shù)量相應(yīng)激增。

一些使用 AI 翻譯內(nèi)容的維基百科貢獻(xiàn)者偶爾會(huì)承認(rèn)他們并不會(huì)說目標(biāo)語言。他們可能認(rèn)為自己是在為小語種社群提供可供修改的“草稿”,這本質(zhì)上是在效仿那些在更活躍的維基百科版本中行之有效的模式。

然而,一旦充滿錯(cuò)誤的頁面在小語種中被創(chuàng)建出來,通常是不會(huì)有一支龐大的、懂這門語言的專家隊(duì)伍來隨時(shí)準(zhǔn)備改進(jìn)它們的。這些版本的讀者很少,有時(shí)甚至沒有一個(gè)固定的編輯。

20 多歲的加拿大教師 Yuet Man Lee 表示,他曾使用谷歌翻譯和 ChatGPT 的混合工具,將他為英語維基百科寫的幾篇文章翻譯成因紐特語,他覺得這能為一個(gè)小社群做出貢獻(xiàn)是件好事。他說,他在其中一篇文章中加了備注,說明這只是一個(gè)粗略的翻譯?!拔耶?dāng)時(shí)沒想過會(huì)有人注意到這篇文章,”他解釋說?!叭绻阍谀切┬”姷木S基百科上發(fā)布內(nèi)容——大多數(shù)時(shí)候根本沒人會(huì)看?!?/p>

但與此同時(shí),他也表示,他仍然覺得“也許有人會(huì)看到并修正它”——他補(bǔ)充說,他曾想過 AI 系統(tǒng)生成的因紐特語翻譯在語法上是否正確。自他創(chuàng)建那篇文章以來,沒有任何人動(dòng)過它。

在溫哥華教授社會(huì)科學(xué)的 Lee 十年前開始在英語維基百科上編輯條目。他說,熟悉更活躍的維基百科的用戶可能會(huì)陷入一種他稱之為“大維基百科式傲慢”的心態(tài):當(dāng)他們嘗試為小版本做貢獻(xiàn)時(shí),他們會(huì)想當(dāng)然地認(rèn)為別人會(huì)來修正他們的錯(cuò)誤。有時(shí)這確實(shí)行得通。Lee 說,他之前曾為韃靼語(一種主要在俄羅斯由數(shù)百萬人使用的語言)維基百科貢獻(xiàn)過幾篇文章,其中至少有一篇后來被修正了。但相比之下,因紐特語維基百科則是一片“貧瘠的荒原”。

他強(qiáng)調(diào)自己的初衷是好的:他想為一個(gè)加拿大原住民語言的維基百科增加更多文章?!拔椰F(xiàn)在覺得這可能是一個(gè)壞主意。我沒有考慮到我可能在促成一個(gè)遞歸循環(huán),”他說?!拔抑皇浅鲇诤闷婧秃猛?,想把內(nèi)容發(fā)布出去,而沒有認(rèn)真思考后果?!?/p>



“徹底,完全沒有未來”

維基百科是一個(gè)由理想主義驅(qū)動(dòng)的項(xiàng)目。編輯工作可能吃力不討好,需要花費(fèi)數(shù)周時(shí)間與匿名的、身份不明的人爭(zhēng)論,但奉獻(xiàn)者們投入了大量無償勞動(dòng),因?yàn)樗麄冎铝τ谝豁?xiàng)更崇高的事業(yè)。正是這種奉獻(xiàn)精神,驅(qū)動(dòng)著我采訪過的許多小語種編輯。他們都擔(dān)心,如果垃圾內(nèi)容繼續(xù)出現(xiàn)在他們的頁面上,后果將不堪設(shè)想。

26 歲的農(nóng)業(yè)規(guī)劃師 Abdulkadir Abdulkadir 在尼日利亞北部一條繁忙的公路邊,通過一通信號(hào)不穩(wěn)的電話與我交談。他說他每天花三個(gè)小時(shí),用他的母語富爾富爾德語(一種主要由薩赫勒地區(qū)的牧民和農(nóng)民使用的語言)處理維基百科條目?!暗ぷ髁刻罅耍彼f。

Abdulkadir 認(rèn)為,富爾富爾德語維基百科迫切需要正常運(yùn)作。他一直建議將其作為偏遠(yuǎn)村莊農(nóng)民為數(shù)不多的在線資源之一,為他們提供關(guān)于哪些種子或作物最適合他們田地的信息,并且是用他們能理解的語言?!叭绻憬o他們一篇機(jī)器翻譯的文章,” Abdulkadir 告訴我,“那很可能會(huì)‘輕易地傷害他們’,因?yàn)樾畔⒑芸赡軟]有被正確翻譯?!?/p>

例如,谷歌翻譯顯示富爾富爾德語中“一月”的意思是“六月”,而 ChatGPT 則說是“八月”或“九月”。這些程序還暗示,富爾富爾德語中“收獲”的意思是“發(fā)燒”或“安康”等其他可能性。

Abdulkadir 說,他最近被迫修正了一篇關(guān)于豇豆的文章,這是一種在非洲大部分地區(qū)至關(guān)重要的經(jīng)濟(jì)作物,因?yàn)樗l(fā)現(xiàn)那篇文章幾乎無法閱讀。

Abdulkadir 表示,如果有人想在富爾富爾德語維基百科上創(chuàng)建頁面,他們應(yīng)該手動(dòng)翻譯。否則,“任何讀你文章的人都無法獲得最基本的知識(shí),”他告誡這些維基百科貢獻(xiàn)者。盡管如此,他估計(jì)仍有大約 60% 的文章是未經(jīng)校對(duì)的機(jī)器翻譯。Abdulkadir 告訴我,除非 AI 系統(tǒng)的學(xué)習(xí)和部署方式發(fā)生重大改變,否則富爾富爾德語的前景堪憂?!袄蠈?shí)說,情況會(huì)很糟糕,”他說。“徹底,完全沒有未來。”

在尼日利亞的另一端,Lucy Iwuala 為伊博語(一種在該國(guó)東南部有數(shù)百萬人使用的語言)維基百科做貢獻(xiàn)?!皞σ呀?jīng)造成了,”她告訴我,同時(shí)打開了最近創(chuàng)建的兩篇文章。兩篇都是通過維基百科的“內(nèi)容翻譯”工具自動(dòng)翻譯的,里面錯(cuò)誤百出,她說讀下去會(huì)讓她頭疼?!坝行┬g(shù)語甚至根本沒被翻譯,還是英語,”她指出。她認(rèn)出創(chuàng)建這些頁面的用戶名是一個(gè)慣犯。“這個(gè)人甚至用了伊博語里不存在的字母,”她說。

三年前,出于對(duì)伊博語正被英語取代的擔(dān)憂,Iwuala 開始定期為維基百科做貢獻(xiàn)。這種擔(dān)憂在許多活躍于小語種版本的人中很常見?!斑@是我的文化,這是我的身份,”她告訴我?!斑@才是核心:確保你不會(huì)被抹去?!?/p>

如今作為一名英語和伊博語之間的專業(yè)翻譯,Iwuala 說,造成最大破壞的用戶是那些缺乏經(jīng)驗(yàn)的人,他們將 AI 翻譯視為快速提升伊博語維基百科影響力的方式。她發(fā)現(xiàn)自己經(jīng)常要在她組織的線上編輯松,或通過電子郵件向各種出錯(cuò)的編輯解釋,結(jié)果可能恰恰相反,這會(huì)趕走用戶:“你會(huì)感到沮喪,然后不想再訪問這個(gè)地方。你只會(huì)放棄它,然后回到英語維基百科?!?/p>

夏威夷大學(xué)的夏威夷語助理教授 Noah Ha?alilio Solomon 也表達(dá)了同樣的擔(dān)憂。他報(bào)告說,夏威夷語維基百科上某些頁面約有 35% 的詞語是無法理解的。“如果這就是將要存在于網(wǎng)絡(luò)上的夏威夷語,那它帶來的壞處將遠(yuǎn)大于好處,”他說。

幾十年前曾一度瀕臨滅絕的夏威夷語,在原住民活動(dòng)家和學(xué)者的努力下,正在經(jīng)歷一場(chǎng)復(fù)興。在維基百科這樣一個(gè)廣泛使用的平臺(tái)上看到如此拙劣的夏威夷語,令 Ha?alilio Solomon 感到不安。

“這很痛苦,因?yàn)樗屛覀兿肫鹞覀兊奈幕驼Z言曾無數(shù)次被盜用,”他說?!拔覀?yōu)榱苏Z言復(fù)興,一直在艱難地向上攀登。這絕非易事,而這種現(xiàn)象會(huì)增加額外的障礙。人們會(huì)認(rèn)為這就是夏威夷語的準(zhǔn)確呈現(xiàn)?!?/p>

所有這些維基百科錯(cuò)誤所帶來的后果可能很快就會(huì)顯現(xiàn)。毫無疑問已經(jīng)吸收了這些頁面作為訓(xùn)練數(shù)據(jù)的 AI 翻譯器,現(xiàn)在正被用于制作充斥錯(cuò)誤的 AI 生成書籍,這些書籍面向各種語言的學(xué)習(xí)者,如因紐特語和克里語(加拿大原住民語言),以及曼島語(馬恩島上的一種小型凱爾特語言)。其中許多書籍已在亞馬遜上架銷售?!澳峭耆呛f八道,” 蒙特利爾魁北克大學(xué)的語言學(xué)家 Richard Compton 在評(píng)價(jià)一本他審閱過的、號(hào)稱是因紐特語入門手冊(cè)的出版物時(shí)說。

AI 非但沒有讓少數(shù)族裔語言變得更容易接觸,反而正在為這些語言的學(xué)生和使用者創(chuàng)造一個(gè)不斷擴(kuò)大的雷區(qū)。“這簡(jiǎn)直是打臉,” Compton 說。他擔(dān)心,在加拿大那些為了將傳統(tǒng)傳承下去而與歧視進(jìn)行了艱苦斗爭(zhēng)的社群中,希望學(xué)習(xí)語言的年輕一代可能會(huì)求助于像 ChatGPT 這樣的在線工具或亞馬遜上的短語手冊(cè),結(jié)果只會(huì)讓事情變得更糟。“這是欺詐,”他說。



與時(shí)間賽跑

根據(jù)聯(lián)合國(guó)教科文組織 (UNESCO) 的數(shù)據(jù),每?jī)芍芫陀幸环N語言被宣布滅絕。但是,運(yùn)營(yíng)維基百科的維基媒體基金會(huì)是否有義務(wù)保護(hù)其平臺(tái)上的語言,這是一個(gè)懸而未決的問題。當(dāng)我與該基金會(huì)的高級(jí)總監(jiān) Runa Bhattacharjee 交談時(shí),她說,決定什么樣的內(nèi)容應(yīng)該存在于他們的維基百科上,取決于各個(gè)社群自己。“最終,責(zé)任確實(shí)在于社群,他們需要確保沒有破壞行為或不希望的活動(dòng),無論是通過機(jī)器翻譯還是其他方式,”她說。Bhattacharjee 補(bǔ)充說,通常只有在收到具體投訴后,才會(huì)考慮關(guān)閉一個(gè)版本。

但如果沒有活躍的社群,一個(gè)版本又如何能被修復(fù),甚至如何能有人提出投訴呢?

Bhattacharjee 解釋說,維基媒體基金會(huì)在這種情況下扮演的角色是維護(hù)維基百科平臺(tái),以防有人前來復(fù)興它:“我們提供的是一個(gè)讓他們成長(zhǎng)和發(fā)展的空間。這就是我們的定位。”

伊納里薩米語,一種僅在芬蘭北部一個(gè)偏遠(yuǎn)社群使用的語言,是人們?nèi)绾紊朴镁S基百科的典范。四十年前,這門語言正走向滅絕;當(dāng)時(shí)只有四個(gè)孩子會(huì)說。他們的父母創(chuàng)建了伊納里薩米語言協(xié)會(huì),作為挽救語言的最后努力。這些努力奏效了。如今,已有數(shù)百名使用者,多所學(xué)校使用伊納里薩米語作為教學(xué)媒介,維基百科上更有 6,400 篇文章,每一篇都由流利的使用者進(jìn)行過審校。

這個(gè)成功案例凸顯了維基百科確實(shí)可以為小而堅(jiān)定的社群提供一個(gè)獨(dú)特的工具,以促進(jìn)他們語言的傳承?!拔覀儾魂P(guān)心數(shù)量,我們關(guān)心質(zhì)量,” 伊納里-薩米語言協(xié)會(huì)的成員 Fabrizio Brecciaroli 說?!拔覀冋?jì)劃將維基百科用作書面語言的資料庫。我們需要為年輕一代提供可以使用的工具。讓他們能夠以數(shù)字化的方式使用伊納里薩米語,這很重要。”

這一舉措非常成功,以至于維基百科已被整合到伊納里薩米語學(xué)校的課程中,Brecciaroli 補(bǔ)充道。他會(huì)接到老師打來的電話,請(qǐng)求他撰寫從龍卷風(fēng)到薩米民間傳說等各種主題的簡(jiǎn)單頁面。維基百科甚至提供了一種將新詞引入伊納里薩米語的方式。“我們總是在創(chuàng)造新詞,” Brecciaroli 說?!澳贻p人需要用它來談?wù)擉w育、政治和電子游戲。如果他們不確定怎么說,現(xiàn)在他們會(huì)去查維基百科。”

維基百科是一項(xiàng)宏偉的智力實(shí)驗(yàn)。伊納里薩米語的例子表明,只要給予最大程度的關(guān)注,它在小語種中也能奏效?!白罱K目標(biāo)是確保伊納里薩米語能夠存活下去,” Brecciaroli 說。“伊納里薩米語沒有谷歌翻譯,這或許是件好事?!?/p>

這或許是真的——盡管像 ChatGPT 這樣的大型語言模型可以將短語翻譯成傳統(tǒng)機(jī)器翻譯工具不支持的語言。Brecciaroli 告訴我,ChatGPT 在伊納里薩米語方面的表現(xiàn)并不好,但其質(zhì)量因你提出的要求而異;如果你用該語言提問,答案會(huì)充滿芬蘭語詞匯甚至它自己發(fā)明的詞。但如果你用英語、芬蘭語或意大利語提問,然后要求它用伊納里薩米語回答,它的表現(xiàn)會(huì)更好。

有鑒于此,盡可能多地創(chuàng)作高質(zhì)量的在線內(nèi)容,成為了一場(chǎng)與時(shí)間的賽跑。“ChatGPT 只需要大量的詞匯,” Brecciaroli 說?!叭绻覀儾粩噍斎牒玫牟牧?,那么遲早我們會(huì)得到好的輸出。這就是希望?!?這個(gè)想法得到了多位語言學(xué)家的支持——即有可能終結(jié)“垃圾進(jìn),垃圾出”的循環(huán)。(OpenAI 沒有回應(yīng)置評(píng)請(qǐng)求。)

盡管如此,整體問題很可能會(huì)持續(xù)惡化,因?yàn)樵S多語言不像伊納里薩米語那樣幸運(yùn)——它們的 AI 翻譯器很可能會(huì)在越來越多 AI 垃圾的基礎(chǔ)上進(jìn)行訓(xùn)練。不幸的是,Wehr 對(duì)他心愛的格陵蘭語的未來似乎遠(yuǎn)沒有那么樂觀。

自從刪除了格陵蘭語維基百科的大部分內(nèi)容后,他花了好幾年時(shí)間試圖招募使用者來幫助他復(fù)興它。他登上了格陵蘭的媒體,也在社交媒體上發(fā)出了呼吁。但他沒有得到太多回應(yīng),他說這令人心灰意冷。

“格陵蘭沒人對(duì)此感興趣,也沒人愿意貢獻(xiàn),”他說?!斑@完全沒有意義,所以它應(yīng)該被關(guān)閉。”

去年年底,他開始申請(qǐng),要求維基百科語言委員會(huì)關(guān)閉格陵蘭語版本。在數(shù)十名維基百科官僚之間展開了數(shù)月的激烈辯論;一些人似乎對(duì)一個(gè)表面上看起來健康的版本竟會(huì)陷入如此多的問題感到驚訝。

然后,本月早些時(shí)候,Wehr 的提議被接受了:格陵蘭語維基百科將被關(guān)閉,所有剩余的文章將被移至維基百科孵化器,那里是新語言版本進(jìn)行測(cè)試和構(gòu)建的地方。語言委員會(huì)引述的原因之一是 AI 工具的使用,這些工具“頻繁產(chǎn)生可能歪曲該語言的無意義內(nèi)容”。

但一切可能已經(jīng)太遲了——格陵蘭語的錯(cuò)誤似乎已經(jīng)固化在機(jī)器翻譯器中。如果你讓谷歌翻譯或 ChatGPT 做一件像用標(biāo)準(zhǔn)的格陵蘭語數(shù)到 10 這樣簡(jiǎn)單的事,兩個(gè)程序都無法做到。

原文鏈接:https://www.technologyreview.com/2025/09/25/1124005/ai-wikipedia-vulnerable-languages-doom-spiral/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
小米SU7成都碰撞事故出鑒定結(jié)果,車門打不開原因披露:167km/h撞擊后低壓系統(tǒng)斷電,導(dǎo)致車門外把手釋放功能失效

小米SU7成都碰撞事故出鑒定結(jié)果,車門打不開原因披露:167km/h撞擊后低壓系統(tǒng)斷電,導(dǎo)致車門外把手釋放功能失效

揚(yáng)子晚報(bào)
2026-02-26 14:23:54
德國(guó)學(xué)者很感慨:把中國(guó)當(dāng)成蘇聯(lián)整,是德國(guó)這些年最大的戰(zhàn)略幻覺

德國(guó)學(xué)者很感慨:把中國(guó)當(dāng)成蘇聯(lián)整,是德國(guó)這些年最大的戰(zhàn)略幻覺

通文知史
2026-02-25 23:00:03
男籃14分大逆轉(zhuǎn)專家暴怒!日本隊(duì)太不要臉了:裁判真的無法無天

男籃14分大逆轉(zhuǎn)專家暴怒!日本隊(duì)太不要臉了:裁判真的無法無天

籃球快餐車
2026-02-26 20:47:47
對(duì)比《供應(yīng)商行為準(zhǔn)則》:蘋果165頁涵蓋方方面面,華為僅7頁全是官話

對(duì)比《供應(yīng)商行為準(zhǔn)則》:蘋果165頁涵蓋方方面面,華為僅7頁全是官話

爆角追蹤
2026-02-26 13:51:08
許家印侄子豪宅拍賣,被蘇老板5016萬元拍下!房產(chǎn)總面積317平方米,配有5個(gè)洗手間

許家印侄子豪宅拍賣,被蘇老板5016萬元拍下!房產(chǎn)總面積317平方米,配有5個(gè)洗手間

每日經(jīng)濟(jì)新聞
2026-02-26 22:00:09
中央大動(dòng)作,劍指“一把手”!

中央大動(dòng)作,劍指“一把手”!

仕道
2026-02-26 16:44:41
國(guó)際籃聯(lián)嚴(yán)查!日本主場(chǎng)哨坑慘中國(guó)男籃,裁判無視惡犯+亂給T太黑

國(guó)際籃聯(lián)嚴(yán)查!日本主場(chǎng)哨坑慘中國(guó)男籃,裁判無視惡犯+亂給T太黑

球盲百小易
2026-02-26 21:34:01
給10部最好的武俠片排名:鏢人 第10,少林寺 僅第7,第1沒爭(zhēng)議

給10部最好的武俠片排名:鏢人 第10,少林寺 僅第7,第1沒爭(zhēng)議

阿訊說天下
2026-02-26 13:35:16
中國(guó)駐符拉迪沃斯托克總領(lǐng)館:18-65歲在俄長(zhǎng)期居留男性 須同意在俄軍事單位等至少服役1年

中國(guó)駐符拉迪沃斯托克總領(lǐng)館:18-65歲在俄長(zhǎng)期居留男性 須同意在俄軍事單位等至少服役1年

閃電新聞
2026-02-26 12:56:09
愛潑斯坦案曝光霍金與身穿比基尼女子合影,霍金家人:系護(hù)理人員;曾辟謠照片為合成偽造

愛潑斯坦案曝光霍金與身穿比基尼女子合影,霍金家人:系護(hù)理人員;曾辟謠照片為合成偽造

新民周刊
2026-02-26 18:57:36
中國(guó)音樂家李梳曈在紐約路邊換胎時(shí)被撞身亡,年僅35歲,留下妻子和僅1歲的孩子

中國(guó)音樂家李梳曈在紐約路邊換胎時(shí)被撞身亡,年僅35歲,留下妻子和僅1歲的孩子

大象新聞
2026-02-26 13:45:03
張扣扣走了七年,他父親的手機(jī)還在坐牢

張扣扣走了七年,他父親的手機(jī)還在坐牢

鄧學(xué)平律師
2026-02-25 16:51:53
為什么梅威瑟要復(fù)出對(duì)戰(zhàn)泰森和帕奎奧?他太窮了

為什么梅威瑟要復(fù)出對(duì)戰(zhàn)泰森和帕奎奧?他太窮了

仰臥撐FTUer
2026-02-26 18:01:03
抵達(dá)中國(guó)不到24小時(shí),默茨拿下大單,還沒啟程的特朗普,只能眼紅

抵達(dá)中國(guó)不到24小時(shí),默茨拿下大單,還沒啟程的特朗普,只能眼紅

東極妙嚴(yán)
2026-02-26 17:58:13
洛克希德·馬丁的生產(chǎn)線突然停了,中國(guó)凍結(jié)了他們?cè)谌A的全部資產(chǎn)

洛克希德·馬丁的生產(chǎn)線突然停了,中國(guó)凍結(jié)了他們?cè)谌A的全部資產(chǎn)

百態(tài)人間
2026-02-25 15:33:21
官方:C羅收購(gòu)阿爾梅里亞25%的股份,這些股份歸他子公司所有

官方:C羅收購(gòu)阿爾梅里亞25%的股份,這些股份歸他子公司所有

懂球帝
2026-02-26 16:28:06
抵達(dá)故宮前,默茨把最想要的說漏了嘴,中方當(dāng)面回復(fù),措辭不尋常

抵達(dá)故宮前,默茨把最想要的說漏了嘴,中方當(dāng)面回復(fù),措辭不尋常

影孖看世界
2026-02-25 23:14:03
市場(chǎng)監(jiān)管總局:不提供堂食的外賣商家必須在其主頁面顯著位置設(shè)置“無堂食”標(biāo)識(shí)

市場(chǎng)監(jiān)管總局:不提供堂食的外賣商家必須在其主頁面顯著位置設(shè)置“無堂食”標(biāo)識(shí)

貝殼財(cái)經(jīng)
2026-02-26 21:15:03
升破6.85!人民幣創(chuàng)兩年新高背后,外資正在瘋狂抄底你的“命脈”

升破6.85!人民幣創(chuàng)兩年新高背后,外資正在瘋狂抄底你的“命脈”

王二哥老搞笑
2026-02-26 14:08:07
造不出就買!260 億吞下美國(guó)打印機(jī)巨頭,珠海破解暴利壟斷

造不出就買!260 億吞下美國(guó)打印機(jī)巨頭,珠海破解暴利壟斷

知識(shí)TNT
2026-02-24 12:30:09
2026-02-27 00:19:02
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評(píng)論獨(dú)家合作
16325文章數(shù) 514659關(guān)注度
往期回顧 全部

科技要聞

單季營(yíng)收681億凈利429億!英偉達(dá)再次炸裂

頭條要聞

男子因銀行系統(tǒng)錯(cuò)誤"欠款1000萬億":工廠可能會(huì)被拍賣

頭條要聞

男子因銀行系統(tǒng)錯(cuò)誤"欠款1000萬億":工廠可能會(huì)被拍賣

體育要聞

從排球少女到冰壺女神,她在米蘭冬奧練出6塊腹肌

娛樂要聞

向華強(qiáng)公開表態(tài) 財(cái)產(chǎn)留給兒媳婦郭碧婷

財(cái)經(jīng)要聞

中國(guó)AI調(diào)用量超美國(guó) 4款大模型霸榜前5

汽車要聞

40歲的吉利,不惑于內(nèi)外

態(tài)度原創(chuàng)

親子
藝術(shù)
時(shí)尚
教育
公開課

親子要聞

概率六千萬分之一!新疆24歲產(chǎn)婦在武漢誕下“一兄四妹”五胞胎

藝術(shù)要聞

2025第三屆全國(guó)水粉畫大展 | 入選作品選刊

今年春天最美搭配:西裝+半裙,怎么穿都好看!

教育要聞

學(xué)習(xí)的真正對(duì)手,是精力分配失衡

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版