AI模型首次實現(xiàn)與人類專家等同的語言分析能力

2025-12-05 20:14:24　來源: 集智俱樂部

北京舉報

分享至

摘要

當(dāng) OpenAI 的 o1 模型在無訓(xùn)練語料的虛構(gòu)語言中，表現(xiàn)出精準(zhǔn)繪制句法樹、破解中心遞歸、厘清單句歧義并自主發(fā)現(xiàn)音系規(guī)則的能力后，語言學(xué)家不得不重新回答那個古老問題：如果語言曾被視為人類最后的“專屬領(lǐng)地”，人類再次追問語言的獨特性究竟還剩多少？

關(guān)鍵詞：LLMs；語言能力；遞歸；句法樹；音系推理

Steve Nadis丨作者

任筱芃丨譯者

趙思怡丨審校

如果語言是人之所以為人的特性，那么當(dāng)大語言模型獲得了“元語言”能力，這又意味著什么？

在人類擁有的無窮多量的能力中，哪些是人類獨有的？至少從亞里士多德開始，語言就一直是首要的備選答案。他曾寫道，人類是“擁有語言的動物”。盡管像 ChatGPT 這樣的大語言模型在表面上復(fù)制了日常言談，但研究人員想知道，人類語言的某些特定方面是否獨特到在其他動物或人工智能設(shè)備的通信系統(tǒng)中根本不存在對應(yīng)物。

Noam Chomsky，語言學(xué)家

研究人員尤其一直在探索語言模型在多大程度上能夠?qū)φZ言本身進行推理。對于語言學(xué)界的一些人來說，語言模型不僅沒有推理能力，而且也沒有對應(yīng)的潛力。著名語言學(xué)家諾姆·喬姆斯基（Noam Chomsky）與伊恩·羅伯茨（Ian Roberts）、杰弗里·瓦圖穆爾（Jeffrey Watmull）在 2023 年聲明了這一觀點，他們當(dāng)時在《紐約時報》上寫道：“對語言的正確解釋是復(fù)雜的，不能僅僅通過沉浸在大數(shù)據(jù)中就學(xué)會?！边@些研究人員認(rèn)為，人工智能模型或許擅長使用語言，但它們沒有能力以復(fù)雜的方式分析語言。

Ga?per Begu?, 加州大學(xué)伯克利分校語言學(xué)家

這一觀點在最近的一篇論文——《Large linguistic models: Investigating LLMs’ metalinguistic abilities》——中受到了挑戰(zhàn)，該論文由加州大學(xué)伯克利分校的語言學(xué)家 Ga?per Begu?、最近在伯克利獲得語言學(xué)博士學(xué)位的 Maksymilian D?bkowski 以及羅格斯大學(xué)的 Ryan Rhodes 共同撰寫。研究人員讓多個大語言模型接受了一系列語言學(xué)測試——其中一項測試是讓大語言模型歸納一種虛構(gòu)語言的規(guī)則。雖然大多數(shù)大語言模型未能像人類那樣解析語言規(guī)則，但其中一個模型展現(xiàn)出了令人印象深刻的能力，遠(yuǎn)遠(yuǎn)超出了預(yù)期。它能夠像語言學(xué)專業(yè)的研究生一樣分析語言——繪制句子結(jié)構(gòu)圖、解析多種歧義，并利用像遞歸（recursion）這樣的復(fù)雜語言特性。Begu? 說，這一發(fā)現(xiàn)“挑戰(zhàn)了我們對人工智能潛力的理解”。

Tom McCoy, 耶魯大學(xué)計算語言學(xué)家

“這項新工作既及時又‘非常重要’，”耶魯大學(xué)計算語言學(xué)家 Tom McCoy 說道（他并未參與這項研究）“隨著社會對這項技術(shù)的依賴程度越來越高，了解它在哪些方面可能成功以及在哪些方面可能失敗變得日益重要?！彼a充說，語言分析是評估這些語言模型在多大程度上能像人類一樣推理的理想試驗臺。

無限的復(fù)雜性

對語言模型進行嚴(yán)格的語言學(xué)測試，挑戰(zhàn)的一部分是確保它們事先并不知道答案。這些系統(tǒng)通常在海量的書面信息上進行訓(xùn)練——不僅包括互聯(lián)網(wǎng)上的大量內(nèi)容（涵蓋幾十甚至上百種語言），還包括語言學(xué)教科書。理論上，模型可能只是死記硬背了訓(xùn)練時見過的內(nèi)容，然后在測試中原樣輸出。

為了避免這種情況，Begu? 和他的同事設(shè)計了一個分為四個部分的語言學(xué)測試。其中三個部分要求模型使用樹狀圖來分析特制的句子，這種圖表最早由喬姆斯基在其 1957 年的里程碑式著作《句法結(jié)構(gòu)》（Syntactic Structures）中引入。這些圖表將句子分解為名詞短語和動詞短語，然后再進一步細(xì)分為名詞、動詞、形容詞、副詞、介詞、連詞等。

測試的另一部分則聚焦于遞歸——也就是把短語嵌套進其他短語的能力。比如，“The sky is blue”（天空是藍(lán)色的）是一個簡單的英語句子?！癑ane said that the sky is blue”（簡說天空是藍(lán)色的）則把原句嵌套進了一個更復(fù)雜的結(jié)構(gòu)中。重要的是，這種遞歸過程可以無限進行?！癕aria wondered if Sam knew that Omar heard that Jane said that the sky is blue”（瑪麗亞想知道薩姆是否知道奧馬爾聽說簡說天空是藍(lán)色的）雖然聽起來有點拗口，但在語法上仍然是正確的遞歸句。

遞歸不僅是語言的關(guān)鍵要素，也是自然界的一個特征。例如，在加拿大北部的維多利亞島上，人們可以找到一個位于島上湖泊中的小島。但那個小島本身又位于一個更大的島上的湖泊中。這個最里面的無名島是已知最大的“三階”島嶼，它有時被開玩笑地稱為“盜夢島”（Inception Island），源于 2010 年克里斯托弗·諾蘭執(zhí)導(dǎo)的電影《盜夢空間》(Inception)，影片中角色們會進入夢中夢的夢中世界。

遞歸一直被喬姆斯基等人稱為人類語言的決定性特征之一。實際上，它或許也是人類思維的決定性特征。語言學(xué)家認(rèn)為，正是遞歸的無限潛力，使得人類語言能夠用有限的詞匯和有限的規(guī)則，生成無限多的可能句子。到目前為止，還沒有令人信服的證據(jù)表明其他動物能夠以復(fù)雜的方式使用遞歸。

遞歸可以發(fā)生在句首或句尾，但最難掌握的形式是發(fā)生在句中的中心嵌入（center embedding）。例如，從“the cat died（貓死了）”變成“the cat the dog bit died（狗咬了的那只貓死了）”。

Begu? 的測試向語言模型輸入了 30 個包含復(fù)雜遞歸例子的原創(chuàng)句子。例如：“The astronomy the ancients we revere studied was not separate from astrology。”（我們崇敬的古人所研究的天文學(xué)與占星術(shù)并非涇渭分明。）使用句法樹，其中一個語言模型——OpenAI 的 o1——能夠確定該句子的結(jié)構(gòu)如下：

The astronomy [the ancients [we revere] studied] was not separate from astrology. 我們崇敬的古人所研究的天文學(xué)與占星術(shù)并非涇渭分明。

該模型隨后更進一步，為該句子添加了另一層遞歸：

The astronomy [the ancients [we revere [who lived in lands we cherish]] studied] was not separate from astrology. 我們所尊敬的那些生活在我們珍視的土地上的古人所研究的天文學(xué)與占星術(shù)并非涇渭分明。

Begu? 和其他一些人沒有預(yù)料到，這項研究會發(fā)現(xiàn)一個具有更高層次“元語言”（metalinguistic）能力的 AI 模型——正如他所說，這“不僅是使用語言的能力，更是思考語言的能力”。

David Mortensen, 卡內(nèi)基梅隆大學(xué)計算語言學(xué)家

“這是他們論文中‘引人注目’的方面之一，”卡內(nèi)基梅隆大學(xué)的計算語言學(xué)家 David Mortensen 說道。關(guān)于語言模型是否只是在預(yù)測句子中的下一個詞或語言學(xué)上的標(biāo)記 (token)一直存在爭議。這種能力與人類對語言的深刻理解有著本質(zhì)區(qū)別?！罢Z言學(xué)界的一些人曾說，大語言模型并不是真的在‘處理’語言，”他說?！斑@項研究看起來像是否定了那些說法?！?/p>

你什么意思？

McCoy 對 o1 模型的整體表現(xiàn)感到驚訝，尤其是它識別歧義的能力，他說，這是眾所周知的計算語言模型難以捕捉的東西。人類“擁有大量的常識知識，使我們能夠排除歧義。但計算機很難擁有那種程度的常識知識?！?/p>

例如“Rowan fed his pet chicken”這樣的句子，既可以描述羅文（Rowan）喂了他當(dāng)寵物養(yǎng)的雞，也可以描述他喂了他的（大概是更傳統(tǒng)的意義上的）動物伴侶一頓雞肉。o1 模型正確地生成了兩棵不同的句法樹，一棵對應(yīng)句子的第一種解釋，另一棵對應(yīng)第二種解釋。

研究人員還進行了一些與音系學(xué)（phonology）相關(guān)的實驗。該學(xué)科研究聲音的模式以及最小聲音單位——稱為音位 (phonemes) ——的組織方式。為了像母語者一樣流利地說話，人們會遵循一些音系規(guī)則，這些規(guī)則可能是通過練習(xí)習(xí)得的，而從未被明確教授過。例如，在英語中，在以“g”結(jié)尾的單詞后添加“s”會產(chǎn)生“z”音，如“dogs”。但是，在以“t”結(jié)尾的單詞后添加“s”，發(fā)音則更接近標(biāo)準(zhǔn)的“s”，如“cats”。

在音系學(xué)任務(wù)中，研究小組創(chuàng)造了 30 種新的“迷你語言”（Begu? 稱之為），以測試大語言模型是否能在沒有任何先驗知識的情況下正確推斷出音系規(guī)則。每種語言包含 40 個虛構(gòu)詞。以下是其中一種語言的示例詞：

θalp ?ebre ei?z? ga?rbo?nda? ?i?z?ee?jo

然后，他們要求語言模型分析每種語言的音系過程。對于上面這種語言，o1模型正確地寫出：“當(dāng)一個元音緊接在一個既是濁音又是阻礙音（obstruent）的輔音之后時，它就會變成一個氣聲元音（breathy vowel）”—— 阻礙音是一種通過限制氣流形成的音，比如“top”中的“t”。

這些語言是新發(fā)明的，所以 o1 不可能在訓(xùn)練期間接觸過它們?！拔覜]想到結(jié)果會如此出色，如此令人印象深刻，”Mortensen 說。

非得是人類嗎？

這些語言模型能走多遠(yuǎn)？它們會僅僅通過變得更大——疊加更多的計算能力、更復(fù)雜的結(jié)構(gòu)和更多的訓(xùn)練數(shù)據(jù)——就無限地變得更好嗎？還是說，人類語言的某些特征是我們物種獨有的進化過程的結(jié)果？

最近的研究結(jié)果表明，這些模型原則上可以進行復(fù)雜的語言學(xué)分析。但是，目前還沒有一個模型能提出任何原創(chuàng)性的東西，也沒有教會我們?nèi)魏侮P(guān)于語言的、我們以前不知道的知識。

如果模型的改進真的只是增加計算能力和訓(xùn)練數(shù)據(jù)的問題，那么 Begu? 認(rèn)為語言模型最終將在語言技能上超越我們。Mortensen 則表示，當(dāng)前的模型有一定局限性?！八鼈儽挥?xùn)練來做一件非常具體的事情：給定一個標(biāo)記（tokens）或單詞的歷史，預(yù)測下一個標(biāo)記，”他說?！坝捎谒鼈儽挥?xùn)練的方式，它們在概括方面存在一些困難?！?/p>

但考慮到最近的進展，Mortensen 表示，他看不出任何理由語言模型最終不會表現(xiàn)出超越人類的語言理解能力?！坝貌涣硕嗑?，我們就能打造出用更少數(shù)據(jù)做出更好泛化、且更具創(chuàng)造力的模型?！?/p>

Begu? 指出，新結(jié)果正一步步“削平”那些曾被視為人類語言專屬領(lǐng)地的特性?！翱雌饋恚覀儾]有我們以為的那么獨一無二?！?/p>

參考文獻

https://www.nytimes.com/2023/03/08/opinion/noam-chomsky-chatgpt-ai.html

因果科學(xué)第五季

集智俱樂部聯(lián)合北京大學(xué)大數(shù)據(jù)科學(xué)研究中心博士研究生李昊軒、倫敦大學(xué)學(xué)院計算機博士研究生楊夢月，卡耐基梅隆大學(xué)和穆罕默德·本·扎耶德人工智能大學(xué)博士后研究員陳廣義共同發(fā)起。這是我們因果科學(xué)系列讀書會的第五季，旨在探討在大模型之后為何仍需“因果科學(xué)”？大模型如何推動因果科學(xué)的研究進展？因果科學(xué)能否在推理能力、可解釋性和可信性等方面啟發(fā)更優(yōu)大模型的設(shè)計？以及因果科學(xué)的最新進展如何在實際領(lǐng)域中應(yīng)用和落地？希望匯聚相關(guān)領(lǐng)域的學(xué)者，共同探討因果科學(xué)的發(fā)展和挑戰(zhàn)，推動學(xué)科發(fā)展。讀書會已完結(jié)，現(xiàn)在報名可加入社群并解鎖回放視頻權(quán)限。

詳情請見：

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.