国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

自然·人類行為:解鎖人類語(yǔ)言系統(tǒng)性結(jié)構(gòu)的認(rèn)知密碼

0
分享至


導(dǎo)語(yǔ)

人類語(yǔ)言具有獨(dú)特的系統(tǒng)性結(jié)構(gòu),話語(yǔ)會(huì)拆分為有獨(dú)立意義的詞匯,這些詞匯再組合成短語(yǔ)。本研究表明,類自然語(yǔ)言的系統(tǒng)性,會(huì)在受預(yù)測(cè)信息(又稱超額熵)約束的編碼中形成。預(yù)測(cè)信息是衡量隨機(jī)過程中,過去信息對(duì)未來(lái)事件可預(yù)測(cè)程度的統(tǒng)計(jì)指標(biāo),本質(zhì)反映過去與未來(lái)的互信息。模擬實(shí)驗(yàn)發(fā)現(xiàn),最小化預(yù)測(cè)信息的編碼,會(huì)將信息拆分為近似獨(dú)立的特征組,以系統(tǒng)、局部的方式表達(dá),對(duì)應(yīng)語(yǔ)言中的詞匯與短語(yǔ)。跨語(yǔ)言語(yǔ)料庫(kù)研究進(jìn)一步驗(yàn)證,人類語(yǔ)言在語(yǔ)音、形態(tài)、句法及詞匯語(yǔ)義層面,均能產(chǎn)生更低的預(yù)測(cè)信息。該研究建立了語(yǔ)言統(tǒng)計(jì)結(jié)構(gòu)與代數(shù)結(jié)構(gòu)的關(guān)聯(lián),證實(shí)這類結(jié)構(gòu)是普遍認(rèn)知約束下交流過程的產(chǎn)物。

關(guān)鍵詞:預(yù)測(cè)信息(Predictive Information)、系統(tǒng)性(Systematicity)、認(rèn)知約束(Cognitive Constraints)、跨語(yǔ)言實(shí)證(Cross-linguistic Evidence)

趙思語(yǔ)丨作者

趙思怡丨審校



論文題目:Linguistic structure from a bottleneck on sequential information processing 論文鏈接:https://doi.org/10.1038/s41562-025-02336-w 發(fā)表日期:2024 年 11 月 1 日 論文來(lái)源:Nature Human Behaviour

核心謎題:人類語(yǔ)言為何偏愛 “系統(tǒng)性”?

人類語(yǔ)言最顯著的特征是系統(tǒng)性(systematicity)與局部性(locality),二者共同構(gòu)成了人類語(yǔ)言的核心結(jié)構(gòu)內(nèi)核——所謂“系統(tǒng)性”,指語(yǔ)言能將完整意義拆分為獨(dú)立的基礎(chǔ)成分(如詞匯),再按固定規(guī)則組合生成新表達(dá);所謂“局部性”,指語(yǔ)言形式與意義成分呈精準(zhǔn)的局部對(duì)應(yīng)關(guān)系,不會(huì)出現(xiàn)意義與形式的跨成分混亂匹配。

當(dāng)描述 “一只貓和一只狗在一起” 的場(chǎng)景時(shí),英語(yǔ)使用者會(huì)自然地說(shuō)出 “a cat with a dog”,其中 “cat” 對(duì)應(yīng)貓、“dog” 對(duì)應(yīng)狗,完美契合“局部性”的意義-形式精準(zhǔn)對(duì)應(yīng);同時(shí),這些詞匯按“冠詞+名詞+介詞+冠詞+名詞”的固定規(guī)則線性拼接,又體現(xiàn)了“系統(tǒng)性”的組合邏輯,最終形成邏輯清晰的表達(dá)。這種結(jié)構(gòu)模式的優(yōu)勢(shì)十分明確,能讓人類輕松理解和生成無(wú)限多的新語(yǔ)句,實(shí)現(xiàn)高效的創(chuàng)造性交流。


圖1. 英語(yǔ)與多種假設(shè)語(yǔ)言描述圖像的示例語(yǔ)句。a. 展現(xiàn)自然局部系統(tǒng)性的英語(yǔ)語(yǔ)句。b. 一種非自然系統(tǒng)性語(yǔ)言,其中‘gol’表示貓頭與狗頭的組合,‘nar’表示貓身與狗身的組合。c. 一種非局部但具有系統(tǒng)性的語(yǔ)言,其語(yǔ)句通過交替使用‘貓’和‘狗’的詞匯構(gòu)成。d. 一種整體性語(yǔ)言,其中‘vek’形式表示‘一只貓和一只狗’,且形式與意義之間不存在對(duì)應(yīng)關(guān)系。

但從邏輯上來(lái)說(shuō),語(yǔ)言并非必須如此。我們完全可以構(gòu)想多種 “非自然語(yǔ)言”:一種是 “非自然拆分” 的語(yǔ)言,用 “gol” 同時(shí)指代貓的頭部和狗的頭部,用 “nar” 指代貓的身體和狗的身體,表達(dá)同樣場(chǎng)景時(shí)會(huì)說(shuō) “A gol with a nar”;另一種是 “交錯(cuò)排列” 的語(yǔ)言,將 “a cat”“with”“a dog” 的字母打亂交錯(cuò),形成 “waitacdahogt” 這樣難以解析的表達(dá);還有一種是 “整體化表達(dá)” 的語(yǔ)言,用 “vek” 這樣一個(gè)無(wú)內(nèi)部結(jié)構(gòu)的詞匯直接指代 “一只貓和一只狗在一起”,就像霍夫曼編碼(Huffman codes)那樣追求編碼效率卻缺乏系統(tǒng)性。

但從邏輯上來(lái)說(shuō),語(yǔ)言并非必須遵循這種“系統(tǒng)性+局部性”的結(jié)構(gòu)。我們完全可以構(gòu)想多種 “非自然語(yǔ)言”:一種是 “非自然拆分” 的語(yǔ)言,用 “gol” 同時(shí)指代貓的頭部和狗的頭部,用 “nar” 指代貓的身體和狗的身體,打破了“局部性”的意義-形式精準(zhǔn)對(duì)應(yīng);另一種是 “交錯(cuò)排列” 的語(yǔ)言,將 “a cat”“with”“a dog” 的字母打亂交錯(cuò),形成 “waitacdahogt” 這樣的表達(dá),破壞了“系統(tǒng)性”的有序組合規(guī)則;還有一種是 “整體化表達(dá)” 的語(yǔ)言,用 “vek” 這樣一個(gè)無(wú)內(nèi)部結(jié)構(gòu)的詞匯直接指代 “一只貓和一只狗在一起”,既無(wú)系統(tǒng)性也無(wú)局部性,就像霍夫曼編碼(Huffman codes)那樣追求編碼效率卻缺乏核心結(jié)構(gòu)特征。

這些假想語(yǔ)言在理論上同樣能完成交流任務(wù),為何人類語(yǔ)言卻最終演化出系統(tǒng)性和局部性的結(jié)構(gòu)?這一問題不僅關(guān)乎語(yǔ)言本身的本質(zhì),更涉及人類認(rèn)知與語(yǔ)言進(jìn)化的深層關(guān)聯(lián)。傳統(tǒng)理論認(rèn)為,語(yǔ)言的系統(tǒng)性源于語(yǔ)言學(xué)習(xí)者需要對(duì)未見過的意義進(jìn)行泛化,但這類解釋無(wú)法說(shuō)明為何語(yǔ)言的拆分方式是 “自然” 的,也無(wú)法解釋局部性特征。而另一類理論則依賴于語(yǔ)言學(xué)習(xí)者的先天歸納偏置或意義的心理表征假設(shè),缺乏跨語(yǔ)言、跨認(rèn)知場(chǎng)景的普遍解釋力。

理論基石:預(yù)測(cè)信息最小化的認(rèn)知邏輯

(一)預(yù)測(cè)信息的核心概念

為破解 “人類語(yǔ)言為何選擇系統(tǒng)性結(jié)構(gòu)” 這一謎題,研究團(tuán)隊(duì)引入信息論中的預(yù)測(cè)信息(Predictive Information)作為核心度量工具,該指標(biāo)又稱超額熵(excess entropy)。簡(jiǎn)單來(lái)說(shuō),預(yù)測(cè)信息描述的是:在一段隨機(jī)符號(hào)序列中,要準(zhǔn)確預(yù)測(cè)后續(xù)內(nèi)容,需要從前面已出現(xiàn)的內(nèi)容中提取多少信息。

對(duì)應(yīng)到語(yǔ)言場(chǎng)景,它的本質(zhì)是衡量 “根據(jù)前文猜后文” 的難度:預(yù)測(cè)信息數(shù)值越低,說(shuō)明語(yǔ)言序列的局部可預(yù)測(cè)性越強(qiáng),人類理解話語(yǔ)、組織表達(dá)時(shí),所需投入的認(rèn)知資源(比如記憶負(fù)荷、注意力分配、大腦加工成本)就越少;反之,預(yù)測(cè)信息越高,語(yǔ)言加工越費(fèi)力。

這一概念的提出,源于對(duì)人類認(rèn)知局限的精準(zhǔn)洞察。研究團(tuán)隊(duì)基于三點(diǎn)基礎(chǔ)觀察構(gòu)建邏輯:第一,人類話語(yǔ)本質(zhì)是一維離散符號(hào)序列(比如構(gòu)成語(yǔ)言的音素、詞匯,需按順序依次呈現(xiàn));第二,這些符號(hào)在短時(shí)間尺度內(nèi)的可預(yù)測(cè)性,會(huì)直接影響語(yǔ)言理解與表達(dá)的難易程度;第三,人類大腦在預(yù)測(cè)序列內(nèi)容時(shí),認(rèn)知資源是有限的(無(wú)法同時(shí)處理大量雜亂無(wú)章的信息)。

基于上述觀察,研究團(tuán)隊(duì)提出核心假設(shè):人類語(yǔ)言的系統(tǒng)性、局部性結(jié)構(gòu),本質(zhì)是為了最小化預(yù)測(cè)信息—— 通過將完整意義拆分為近似獨(dú)立的特征組(對(duì)應(yīng)語(yǔ)言中的詞匯、短語(yǔ)),再以有序、局部對(duì)應(yīng)的方式組合,讓語(yǔ)言序列更適配人類有限的認(rèn)知資源,實(shí)現(xiàn)高效加工與交流。

(二)理論推導(dǎo):從認(rèn)知約束到語(yǔ)言結(jié)構(gòu)

預(yù)測(cè)信息的獨(dú)特屬性為語(yǔ)言結(jié)構(gòu)提供了關(guān)鍵解釋。當(dāng)預(yù)測(cè)信息較低時(shí),符號(hào)能夠依賴附近的上下文被準(zhǔn)確預(yù)測(cè),這意味著語(yǔ)言無(wú)需依賴長(zhǎng)距離的整合信息,就能讓使用者順暢理解。為了實(shí)現(xiàn)這一目標(biāo),語(yǔ)言需要將意義分解為 “近似獨(dú)立的特征”—— 因?yàn)楠?dú)立特征之間的統(tǒng)計(jì)依賴性低,表達(dá)這些特征的符號(hào)序列也更容易被局部預(yù)測(cè)。同時(shí),這些特征需要以局部的方式組合,即相關(guān)的符號(hào)保持連續(xù),而不是交錯(cuò)分布。否則,符號(hào)之間的統(tǒng)計(jì)依賴被拉長(zhǎng),預(yù)測(cè)難度隨之上升。

這種邏輯自然催生了語(yǔ)言的系統(tǒng)性和局部性:意義被拆分為獨(dú)立成分,每個(gè)成分對(duì)應(yīng)一個(gè)詞匯(系統(tǒng)性),詞匯按順序拼接形成短語(yǔ)和句子(局部性),就像搭積木一樣,既保證了表達(dá)的靈活性,又降低了預(yù)測(cè)難度。而那些不遵循這種局部、系統(tǒng)組織方式的“非自然語(yǔ)言”,無(wú)論是非自然拆分還是交錯(cuò)排列,都會(huì)破壞局部可預(yù)測(cè)性,導(dǎo)致預(yù)測(cè)信息升高,超出人類的認(rèn)知處理能力。

實(shí)證支撐:模擬實(shí)驗(yàn)與跨語(yǔ)言驗(yàn)證的雙重印證

為了驗(yàn)證 “預(yù)測(cè)信息最小化塑造語(yǔ)言結(jié)構(gòu)” 這一假設(shè),研究團(tuán)隊(duì)采用了 “模擬實(shí)驗(yàn)” 與 “跨語(yǔ)言語(yǔ)料分析” 相結(jié)合的研究方法,從理論和現(xiàn)實(shí)兩個(gè)層面提供了堅(jiān)實(shí)證據(jù)。

(一)模擬實(shí)驗(yàn):預(yù)測(cè)信息如何催生系統(tǒng)性

模擬實(shí)驗(yàn)的核心思路是:構(gòu)建不同的意義集合,設(shè)計(jì)多種可能的語(yǔ)言編碼方式,計(jì)算每種編碼的預(yù)測(cè)信息,觀察哪種編碼方式的預(yù)測(cè)信息最低,是否與自然語(yǔ)言的結(jié)構(gòu)一致。


圖2.硬幣翻轉(zhuǎn)分布的語(yǔ)言模擬。a、兩種系統(tǒng)化表達(dá)方式:3表示完全系統(tǒng)化語(yǔ)言,0表示完全無(wú)歧義語(yǔ)言,用于表示由三次加權(quán)硬幣翻轉(zhuǎn)構(gòu)成的意義。整體語(yǔ)言。插圖框放大顯示低預(yù)測(cè)區(qū)域。在系統(tǒng)化語(yǔ)言中,每個(gè)字母對(duì)應(yīng)一個(gè)信息源的輸出結(jié)果。d、e中使用的語(yǔ)言及示例源,其中包含硬幣翻轉(zhuǎn)信息。在整體語(yǔ)言中,不存在自然的系統(tǒng)化關(guān)系,互信息I[M2:M3]≈0.18比特。e、形式與意義之間不同預(yù)測(cè)信息量。b、計(jì)算不同互信息水平下硬幣翻轉(zhuǎn)M2與源語(yǔ)言及a中兩種語(yǔ)言的預(yù)測(cè)信息。系統(tǒng)化語(yǔ)言具有較低的預(yù)測(cè)信息M3(參見正文)。零互信息對(duì)應(yīng)b和c?!匀弧畔?。c、所有雙射映射從意義到語(yǔ)言的預(yù)測(cè)信息。M2和M3共同整體表達(dá)語(yǔ)言?!亲匀弧Z(yǔ)言對(duì)應(yīng)長(zhǎng)度為3的二進(jìn)制字符串,用于表示a中的意義和源語(yǔ)言。語(yǔ)言共同整體表達(dá)M1和M2。按預(yù)測(cè)信息排序并按硬幣翻轉(zhuǎn)次數(shù)著色。

在第一個(gè)模擬實(shí)驗(yàn)中,研究團(tuán)隊(duì)構(gòu)建了 “三次硬幣翻轉(zhuǎn)” 的意義集合,每個(gè)硬幣翻轉(zhuǎn)的結(jié)果(正面或反面)是獨(dú)立的意義特征。實(shí)驗(yàn)設(shè)計(jì)了兩種編碼方式:一種是 “系統(tǒng)性語(yǔ)言”,每個(gè)硬幣翻轉(zhuǎn)結(jié)果對(duì)應(yīng)一個(gè)獨(dú)立的符號(hào)(如 “a” 代表正面,“b” 代表反面),語(yǔ)句由這些符號(hào)按順序拼接而成;另一種是 “整體化語(yǔ)言”,每個(gè)意義組合對(duì)應(yīng)一個(gè)無(wú)內(nèi)部結(jié)構(gòu)的符號(hào)串,不進(jìn)行特征拆分。結(jié)果顯示,系統(tǒng)性語(yǔ)言的預(yù)測(cè)信息顯著低于整體化語(yǔ)言,且在所有可能的編碼方式中,只有系統(tǒng)性語(yǔ)言能實(shí)現(xiàn)預(yù)測(cè)信息最小化。這一結(jié)果表明,當(dāng)意義特征獨(dú)立時(shí),拆分特征并系統(tǒng)表達(dá)是降低預(yù)測(cè)信息的最優(yōu)選擇。

在第二個(gè)模擬實(shí)驗(yàn)中,研究團(tuán)隊(duì)調(diào)整了意義特征的性質(zhì),讓部分特征高度相關(guān)(如第二次和第三次硬幣翻轉(zhuǎn)的結(jié)果始終一致)。此時(shí),模擬結(jié)果發(fā)生了有趣的變化:最優(yōu)編碼方式不再是完全的系統(tǒng)性拆分,而是將高度相關(guān)的特征 “整體化表達(dá)”,形成一個(gè)統(tǒng)一的 “詞匯”,而獨(dú)立特征仍保持系統(tǒng)性表達(dá)。這一發(fā)現(xiàn)恰好解釋了自然語(yǔ)言中 “詞素的任意性”—— 例如 “cat” 這個(gè)詞,其內(nèi)部沒有拆分,但它所指代的 “貓” 的各項(xiàng)特征(毛茸茸、哺乳動(dòng)物、有尾巴等)高度相關(guān),整體化表達(dá)這些相關(guān)特征能降低預(yù)測(cè)信息,而 “數(shù)量” 這一相對(duì)獨(dú)立的特征,則通過 “-s” 這樣的后綴系統(tǒng)性表達(dá),形成 “cats”。

此外,針對(duì)局部性和層級(jí)結(jié)構(gòu)的模擬實(shí)驗(yàn)也得出了一致結(jié)論。在針對(duì) Zipf 分布意義集合的實(shí)驗(yàn)中,保持詞匯連續(xù)拼接的編碼方式,預(yù)測(cè)信息顯著低于詞匯交錯(cuò)排列的編碼;而在具有層級(jí)結(jié)構(gòu)的意義集合(如 “[貓 + 狗]”“[藍(lán)色 + 方形]” 這樣的嵌套特征組)中,“特征組連續(xù)嵌套” 的編碼方式(類似自然語(yǔ)言的句法層級(jí))預(yù)測(cè)信息最低,進(jìn)一步印證了局部性對(duì)降低預(yù)測(cè)信息的重要作用。

(二)跨語(yǔ)言實(shí)證:人類語(yǔ)言確實(shí)具有低預(yù)測(cè)信息

模擬實(shí)驗(yàn)驗(yàn)證了理論邏輯的合理性,但自然語(yǔ)言是否真的遵循這一規(guī)律?為解答這一問題,研究團(tuán)隊(duì)分析了 61 種語(yǔ)言的大規(guī)模語(yǔ)料庫(kù),涵蓋語(yǔ)音、形態(tài)、句法、詞匯語(yǔ)義四個(gè)層面,通過與 “非自然結(jié)構(gòu)基線” 的對(duì)比,檢驗(yàn)真實(shí)語(yǔ)言的預(yù)測(cè)信息是否更低。


圖3.研究證實(shí),自然語(yǔ)言在音系學(xué)、形態(tài)學(xué)和句法學(xué)層面具有減少預(yù)測(cè)信息的結(jié)構(gòu)特征。a. 選定語(yǔ)言中音系形式的預(yù)測(cè)信息計(jì)算:將實(shí)證形式與保留發(fā)音方式的隨機(jī)排列形式進(jìn)行對(duì)比。b. 名詞形態(tài)的字母級(jí)預(yù)測(cè)信息(黑色垂直線)與四個(gè)隨機(jī)基線的預(yù)測(cè)信息值對(duì)比(樣本密度為10,000;詳見正文)。P值表示基線樣本中預(yù)測(cè)信息低于實(shí)證形式的比例。c. 12種語(yǔ)言形容詞-名詞對(duì)的字母級(jí)預(yù)測(cè)信息與基線對(duì)比。非局部基線始終產(chǎn)生遠(yuǎn)高于實(shí)證形式的預(yù)測(cè)信息,故未予展示。

在語(yǔ)音層面,人類語(yǔ)言均存在特定的語(yǔ)音規(guī)則(phonotactics),即對(duì)語(yǔ)音組合有固定限制,例如英語(yǔ)中 “blick” 符合語(yǔ)音規(guī)則,是可能存在的詞匯,而 “bnick” 違背規(guī)則,無(wú)法成為合法詞匯。為驗(yàn)證語(yǔ)音規(guī)則與預(yù)測(cè)信息的關(guān)聯(lián),研究團(tuán)隊(duì)設(shè)計(jì)了對(duì)照實(shí)驗(yàn):將每種語(yǔ)言的詞匯語(yǔ)音序列打亂(僅打亂組合順序,保留單個(gè)語(yǔ)音的發(fā)音方式不變),以此構(gòu)建 “打亂基線”,再對(duì)比真實(shí)詞匯語(yǔ)音序列與打亂序列的預(yù)測(cè)信息差異。實(shí)驗(yàn)結(jié)果明確顯示,61 種語(yǔ)言的真實(shí)詞匯語(yǔ)音序列,其預(yù)測(cè)信息均顯著低于對(duì)應(yīng)的打亂基線,這一統(tǒng)一結(jié)果證明,自然語(yǔ)言的語(yǔ)音規(guī)則并非隨機(jī)形成,本質(zhì)是為降低預(yù)測(cè)信息而演化存在的。

在形態(tài)層面,研究團(tuán)隊(duì)分析了匈牙利語(yǔ)、阿拉伯語(yǔ)、芬蘭語(yǔ)、拉丁語(yǔ)和土耳其語(yǔ)五種語(yǔ)言的名詞變格系統(tǒng)。這些語(yǔ)言的名詞通過后綴變化表達(dá) “數(shù)”“格” 等語(yǔ)法特征,具有明顯的系統(tǒng)性。研究團(tuán)隊(duì)構(gòu)建了三種基線:一是 “非局部基線”,打亂后綴的字母順序;二是 “非自然基線”,打亂形態(tài)與語(yǔ)法特征的對(duì)應(yīng)關(guān)系;三是 “長(zhǎng)度匹配非自然基線”,在保持后綴長(zhǎng)度不變的前提下打亂形態(tài) - 特征對(duì)應(yīng)。結(jié)果顯示,五種語(yǔ)言的真實(shí)形態(tài)系統(tǒng),預(yù)測(cè)信息均顯著低于所有基線,即使是阿拉伯語(yǔ)中存在的非連續(xù)形態(tài)(如 “broken plurals”),其預(yù)測(cè)信息依然低于基線,說(shuō)明這種有限的非連續(xù)結(jié)構(gòu)仍符合預(yù)測(cè)信息最小化原則。

在句法層面,研究團(tuán)隊(duì)分析了 12 種語(yǔ)言的形容詞 - 名詞組合(如英語(yǔ) “blue square”)。通過構(gòu)建 “詞匯交錯(cuò)” 和 “形態(tài) - 意義錯(cuò)配” 的基線,發(fā)現(xiàn)真實(shí)語(yǔ)言的形容詞 - 名詞組合預(yù)測(cè)信息更低。而在名詞短語(yǔ)語(yǔ)序的研究中,團(tuán)隊(duì)分析了不同語(yǔ)言中限定詞(D)、數(shù)詞(N)、形容詞(A)和名詞(n)的排列順序,發(fā)現(xiàn)跨語(yǔ)言中更常見的語(yǔ)序(如英語(yǔ) D-N-A-n、西班牙語(yǔ) D-N-n-A),其預(yù)測(cè)信息顯著低于罕見語(yǔ)序,說(shuō)明語(yǔ)序的跨語(yǔ)言分布也受到預(yù)測(cè)信息最小化的約束。

在詞匯語(yǔ)義層面,研究團(tuán)隊(duì)利用蘭卡斯特感覺運(yùn)動(dòng)規(guī)范(Lancaster Sensorimotor Norms)分析了英語(yǔ)名詞的語(yǔ)義特征。結(jié)果顯示,名詞的核心語(yǔ)義特征(如 “是否毛茸茸”“是否為哺乳動(dòng)物”)之間高度相關(guān),而 “數(shù)量” 特征與這些核心特征的相關(guān)性較低。這恰好符合模擬實(shí)驗(yàn)的結(jié)論:相關(guān)特征整體化表達(dá)于一個(gè)詞匯中,獨(dú)立特征則系統(tǒng)性表達(dá),從而實(shí)現(xiàn)預(yù)測(cè)信息最小化。同時(shí),研究還發(fā)現(xiàn),同一詞匯內(nèi)的語(yǔ)義特征相關(guān)性顯著高于不同詞匯間的特征相關(guān)性,進(jìn)一步印證了 “相關(guān)特征聚類表達(dá)” 的原則。

跨學(xué)科啟示:語(yǔ)言、認(rèn)知與人工智能的交匯

這項(xiàng)研究的意義遠(yuǎn)超出語(yǔ)言學(xué)領(lǐng)域,它建立了語(yǔ)言結(jié)構(gòu)與信息論、認(rèn)知科學(xué)、機(jī)器學(xué)習(xí)、神經(jīng)科學(xué)等多個(gè)學(xué)科的橋梁,為相關(guān)領(lǐng)域提供了全新的研究視角。

在認(rèn)知科學(xué)層面,研究揭示了人類語(yǔ)言與認(rèn)知約束(Cognitive Constraints)之間的深層關(guān)聯(lián)。長(zhǎng)期以來(lái),研究者們知道人類認(rèn)知資源有限,但如何具體影響語(yǔ)言結(jié)構(gòu)尚不明確。該研究表明,預(yù)測(cè)信息最小化是連接認(rèn)知約束與語(yǔ)言結(jié)構(gòu)的關(guān)鍵紐帶,語(yǔ)言的系統(tǒng)性、局部性等核心特征,本質(zhì)上是人類為了適配有限認(rèn)知資源而進(jìn)化出的最優(yōu)解。這一發(fā)現(xiàn)也為理解 “語(yǔ)言習(xí)得” 提供了新視角:兒童學(xué)習(xí)語(yǔ)言時(shí),可能會(huì)本能地偏好預(yù)測(cè)信息更低的系統(tǒng)性結(jié)構(gòu)(Systematic Structure),從而加速語(yǔ)言習(xí)得過程。

在機(jī)器學(xué)習(xí)領(lǐng)域,研究為自然語(yǔ)言處理提供了理論啟示。大型語(yǔ)言模型的核心任務(wù)是根據(jù)前文預(yù)測(cè)下一個(gè)詞,而這項(xiàng)研究表明,自然語(yǔ)言的結(jié)構(gòu)本身就是為了降低這種預(yù)測(cè)難度而設(shè)計(jì)的 —— 這正是大型語(yǔ)言模型能夠取得成功的重要原因。同時(shí),研究中 “預(yù)測(cè)信息最小化” 的原則,也為構(gòu)建更高效的語(yǔ)言模型提供了參考:未來(lái)的模型設(shè)計(jì)可以更注重語(yǔ)言的局部可預(yù)測(cè)性和特征獨(dú)立性,從而提升模型的效率和可解釋性。此外,研究還解釋了為何大型語(yǔ)言模型難以學(xué)習(xí) “非自然語(yǔ)言”—— 這類語(yǔ)言的預(yù)測(cè)信息過高,超出了模型的學(xué)習(xí)能力。

在神經(jīng)科學(xué)領(lǐng)域,研究與大腦的語(yǔ)言加工機(jī)制相呼應(yīng)。神經(jīng)科學(xué)研究發(fā)現(xiàn),大腦在處理語(yǔ)言時(shí),會(huì)對(duì)可預(yù)測(cè)的詞匯產(chǎn)生更高效的神經(jīng)響應(yīng)。而這項(xiàng)研究表明,自然語(yǔ)言的低預(yù)測(cè)信息特征,恰好與大腦的這種加工偏好相適配。預(yù)測(cè)信息最小化意味著語(yǔ)言序列的局部可預(yù)測(cè)性更高,這能減少大腦加工語(yǔ)言時(shí)的認(rèn)知負(fù)荷,提升交流效率。這一發(fā)現(xiàn)為理解 “語(yǔ)言與大腦的協(xié)同進(jìn)化” 提供了重要線索。

局限與未來(lái):未竟的探索之路

盡管這項(xiàng)研究取得了突破性進(jìn)展,但仍存在一些局限,為未來(lái)的研究指明了方向。首先,研究主要關(guān)注單個(gè)語(yǔ)句內(nèi)部的預(yù)測(cè)信息,而語(yǔ)言交流往往是多語(yǔ)句的語(yǔ)篇層面。未來(lái)的研究可以探究語(yǔ)篇層面的預(yù)測(cè)信息是否同樣受到最小化約束,以及如何解釋語(yǔ)篇的層級(jí)結(jié)構(gòu)(如話題組織)。其次,研究假設(shè)語(yǔ)言是意義與形式的一一對(duì)應(yīng)映射,但自然語(yǔ)言中存在大量歧義現(xiàn)象(如多義詞、歧義句)。歧義是否會(huì)影響預(yù)測(cè)信息?語(yǔ)言如何在歧義與預(yù)測(cè)信息最小化之間權(quán)衡?這些問題值得進(jìn)一步探索。

此外,自然語(yǔ)言中也存在一些看似違背局部性的結(jié)構(gòu),例如長(zhǎng)距離指代(如 “The girl who met the boy yesterday likes music” 中,“who” 指代 “the girl”,二者相距較遠(yuǎn))。這些結(jié)構(gòu)為何會(huì)存在?它們對(duì)預(yù)測(cè)信息有何影響?是否存在其他認(rèn)知約束與預(yù)測(cè)信息最小化相互作用?這些問題需要更深入的實(shí)證研究來(lái)解答。

最后,研究尚未探討語(yǔ)言進(jìn)化過程中,預(yù)測(cè)信息最小化是如何具體發(fā)揮作用的。是通過個(gè)體交流中的效率壓力,還是通過語(yǔ)言學(xué)習(xí)者的認(rèn)知偏好,抑或是群體層面的文化進(jìn)化?厘清這些機(jī)制,將有助于更全面地理解語(yǔ)言結(jié)構(gòu)的起源與演變。

大語(yǔ)言模型與多智能體系統(tǒng)讀書會(huì)

集智俱樂部聯(lián)合西湖大學(xué)工學(xué)院特聘研究員趙世鈺、浙江大學(xué)教授任沁源、鵬城實(shí)驗(yàn)室高級(jí)工程師崔金強(qiáng),共同發(fā)起,探究大語(yǔ)言模型給機(jī)器人領(lǐng)域帶來(lái)的新思想新價(jià)值。讀書會(huì)已完結(jié),現(xiàn)在報(bào)名可加入社群并解鎖回放視頻權(quán)限。

詳情請(qǐng)見:

1.

2.

3.

4.

5.

6.

7.

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
北京賣豆汁大爺爆火,小伙質(zhì)疑里面摻糞,現(xiàn)場(chǎng)直接舉報(bào),當(dāng)場(chǎng)帶走

北京賣豆汁大爺爆火,小伙質(zhì)疑里面摻糞,現(xiàn)場(chǎng)直接舉報(bào),當(dāng)場(chǎng)帶走

離離言幾許
2026-02-26 16:20:55
2026鐵飯碗排名出爐!教師竟然跌到第9,第1名讓所有人都沉默了!

2026鐵飯碗排名出爐!教師竟然跌到第9,第1名讓所有人都沉默了!

金哥說(shuō)新能源車
2026-02-27 05:18:50
40歲網(wǎng)紅鳳姐又發(fā)文了!稱這輩子太不容易,撐到現(xiàn)在全靠不甘心

40歲網(wǎng)紅鳳姐又發(fā)文了!稱這輩子太不容易,撐到現(xiàn)在全靠不甘心

談史論天地
2026-02-27 12:41:53
虎跳峽男子落水事故細(xì)節(jié):落水后女友施救折斷登山杖,救援人員稱救援難度為“天花板級(jí)別”

虎跳峽男子落水事故細(xì)節(jié):落水后女友施救折斷登山杖,救援人員稱救援難度為“天花板級(jí)別”

紅星新聞
2026-02-27 23:14:42
社保再次迎來(lái)新規(guī):2026年起沒交滿15年的有福了!全都統(tǒng)一處理

社保再次迎來(lái)新規(guī):2026年起沒交滿15年的有福了!全都統(tǒng)一處理

復(fù)轉(zhuǎn)小能手
2026-02-28 01:50:03
“手機(jī)將全面漲價(jià)”,沖上熱搜

“手機(jī)將全面漲價(jià)”,沖上熱搜

南方都市報(bào)
2026-02-27 14:31:12
160萬(wàn)粉絲“反詐老陳”抖音賬號(hào)已搜索不到,官方:以打假反詐為名,煽動(dòng)網(wǎng)友對(duì)立,侮辱他人人格或企業(yè)聲譽(yù)

160萬(wàn)粉絲“反詐老陳”抖音賬號(hào)已搜索不到,官方:以打假反詐為名,煽動(dòng)網(wǎng)友對(duì)立,侮辱他人人格或企業(yè)聲譽(yù)

都市快報(bào)橙柿互動(dòng)
2026-02-27 22:39:42
各大銀行盯上了壓歲錢:孩子存1000元比你存20萬(wàn)利息高, 銀行正將兒童金融服務(wù),從節(jié)日營(yíng)銷升級(jí)為核心戰(zhàn)略

各大銀行盯上了壓歲錢:孩子存1000元比你存20萬(wàn)利息高, 銀行正將兒童金融服務(wù),從節(jié)日營(yíng)銷升級(jí)為核心戰(zhàn)略

每日經(jīng)濟(jì)新聞
2026-02-27 13:42:07
網(wǎng)傳新能源汽車開征“里程稅” 收費(fèi)0.12元/公里 多地回應(yīng)

網(wǎng)傳新能源汽車開征“里程稅” 收費(fèi)0.12元/公里 多地回應(yīng)

快科技
2026-02-27 21:58:15
摩根大通對(duì)百度的判斷沒有錯(cuò)

摩根大通對(duì)百度的判斷沒有錯(cuò)

劉遠(yuǎn)舉
2026-02-27 16:12:22
退休后你會(huì)到鄉(xiāng)下養(yǎng)老嗎?網(wǎng)友:鄉(xiāng)下沒這么嚇人

退休后你會(huì)到鄉(xiāng)下養(yǎng)老嗎?網(wǎng)友:鄉(xiāng)下沒這么嚇人

帶你感受人間冷暖
2026-02-23 00:49:19
1-4落后打出四連鞭!吳宜澤逆轉(zhuǎn)贏德比戰(zhàn),晉級(jí)威爾士公開賽四強(qiáng)

1-4落后打出四連鞭!吳宜澤逆轉(zhuǎn)贏德比戰(zhàn),晉級(jí)威爾士公開賽四強(qiáng)

全景體育V
2026-02-28 07:02:41
國(guó)際籃聯(lián)向中國(guó)隊(duì)道歉

國(guó)際籃聯(lián)向中國(guó)隊(duì)道歉

觀察者網(wǎng)
2026-02-27 18:58:13
讓人眼紅??!一年50萬(wàn),湖北一網(wǎng)友曬家庭收入,夫妻堪稱王炸組合

讓人眼紅?。∫荒?0萬(wàn),湖北一網(wǎng)友曬家庭收入,夫妻堪稱王炸組合

火山詩(shī)話
2026-02-27 14:43:28
騎士主帥:哈登在訓(xùn)練中表現(xiàn)得有些吃力,教練組決定讓他繼續(xù)休息

騎士主帥:哈登在訓(xùn)練中表現(xiàn)得有些吃力,教練組決定讓他繼續(xù)休息

移動(dòng)擋拆
2026-02-28 08:32:33
禍從口出!男子開網(wǎng)約車載女乘客,一句香水味道很好聞被停業(yè)21天

禍從口出!男子開網(wǎng)約車載女乘客,一句香水味道很好聞被停業(yè)21天

丫頭舫
2026-02-27 21:44:31
美軍集結(jié)“滅國(guó)”力量,伊朗最后關(guān)頭低頭,全世界緊盯特朗普

美軍集結(jié)“滅國(guó)”力量,伊朗最后關(guān)頭低頭,全世界緊盯特朗普

策略述
2026-02-27 19:11:15
女孩當(dāng)小姐,一晚要提供4到5次上門服務(wù),2015年被親人點(diǎn)到不赴約

女孩當(dāng)小姐,一晚要提供4到5次上門服務(wù),2015年被親人點(diǎn)到不赴約

漢史趣聞
2025-11-08 09:27:32
網(wǎng)傳新能源汽車開征“里程稅”10省市試點(diǎn) 多地回應(yīng):沒有通知也無(wú)征收文件|云辟謠

網(wǎng)傳新能源汽車開征“里程稅”10省市試點(diǎn) 多地回應(yīng):沒有通知也無(wú)征收文件|云辟謠

封面新聞
2026-02-27 19:17:03
受權(quán)發(fā)布|中華人民共和國(guó)主席令  (第六十九號(hào))

受權(quán)發(fā)布|中華人民共和國(guó)主席令  (第六十九號(hào))

新華社
2026-02-26 20:27:40
2026-02-28 08:51:00
集智俱樂部 incentive-icons
集智俱樂部
科普人工智能相關(guān)知識(shí)技能
5679文章數(shù) 4664關(guān)注度
往期回顧 全部

教育要聞

今日宜查分!你好,研究生!

頭條要聞

牛彈琴:伊朗面臨生死存亡關(guān)鍵時(shí)刻 信號(hào)已經(jīng)很明顯了

頭條要聞

牛彈琴:伊朗面臨生死存亡關(guān)鍵時(shí)刻 信號(hào)已經(jīng)很明顯了

體育要聞

一場(chǎng)必須要贏的比賽,男籃何止擊敗了裁判

娛樂要聞

郭晶晶霍啟剛現(xiàn)身香港藝術(shù)節(jié)盡顯恩愛

財(cái)經(jīng)要聞

沈明高提共富建議 百姓持科技股國(guó)家兜底

科技要聞

狂攬1100億美元!OpenAI再創(chuàng)融資神話

汽車要聞

嵐圖泰山黑武士版3月上市 搭載華為四激光智駕方案

態(tài)度原創(chuàng)

手機(jī)
親子
健康
游戲
數(shù)碼

手機(jī)要聞

vivo、榮耀、OPPO、小米節(jié)前迎利好,旗艦銷量都在增

親子要聞

春節(jié)后兒科門診人數(shù)激增20%,醫(yī)生提醒:積食傷脾胃

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

《007:初露鋒芒》近戰(zhàn)系統(tǒng)借鑒阿卡姆和神海

數(shù)碼要聞

消息稱蘋果有兩款Studio Display 2顯示器:高端機(jī)型接口更先進(jìn)

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版