網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

當(dāng)AI遇上成語(yǔ)，北京科技大學(xué)揭開(kāi)語(yǔ)言模型理解"話中話"的真相

2026-04-28 17:06:10　來(lái)源: 科技行者

天津舉報(bào)

分享至

這項(xiàng)由北京科技大學(xué)與北京通用人工智能研究院聯(lián)合完成的研究，于2026年4月以預(yù)印本形式發(fā)布在arXiv平臺(tái)，編號(hào)為arXiv:2604.16593v1，完整論文已開(kāi)源，感興趣的讀者可通過(guò)該編號(hào)檢索全文。

人類語(yǔ)言有一種奇妙的特性：說(shuō)出來(lái)的話，往往不是字面上的意思。"他在走鋼絲"，并不是真的說(shuō)這個(gè)人在鋼索上行走；"這不是火箭科學(xué)"，也不是在談航天工程。這種"話中有話"的表達(dá)方式在日常生活中無(wú)處不在，卻一直是人工智能理解語(yǔ)言時(shí)最棘手的障礙之一。研究團(tuán)隊(duì)正是瞄準(zhǔn)了這一痛點(diǎn)，構(gòu)建了一個(gè)名為SEMANTICQA的測(cè)試平臺(tái)，專門(mén)用來(lái)測(cè)量各類語(yǔ)言模型在處理這類"非字面表達(dá)"時(shí)的真實(shí)水平。

這件事之所以值得關(guān)注，是因?yàn)槲覀冋絹?lái)越多地依賴AI助手來(lái)閱讀文件、翻譯文本、分析情緒，而這些助手是否真的"讀懂"了語(yǔ)言，還是只是在走字面意思的捷徑，直接關(guān)系到它們給出的答案是否可信。就好像雇了一位翻譯，表面上他能把每個(gè)字都換成另一種語(yǔ)言，但如果他不懂"打退堂鼓"是什么意思，翻譯出來(lái)的內(nèi)容就會(huì)南轅北轍。

一、語(yǔ)言的"暗語(yǔ)"系統(tǒng)：為什么AI理解成語(yǔ)那么難

人類從小就學(xué)會(huì)了語(yǔ)言里的"潛臺(tái)詞"。當(dāng)老師說(shuō)"這道題不是什么難事"，學(xué)生知道他在鼓勵(lì)；當(dāng)朋友說(shuō)"你真是個(gè)好人"，語(yǔ)氣不同時(shí)可能含義截然相反。這種依靠約定俗成、依靠文化背景、依靠上下文才能解讀的表達(dá)，語(yǔ)言學(xué)家給了它們一個(gè)統(tǒng)一的名字——多詞表達(dá)（Multiword Expressions，簡(jiǎn)稱MWE），也可以叫做"語(yǔ)義短語(yǔ)"。

研究團(tuán)隊(duì)將這類表達(dá)分成四大家族。第一類是慣用語(yǔ)（Idiomatic Expressions），也就是中文里的成語(yǔ)、歇后語(yǔ)，英語(yǔ)里的"kick the bucket"（踢桶子，意思是死亡）之類，整個(gè)短語(yǔ)的意思完全無(wú)法從單個(gè)詞推導(dǎo)出來(lái)。第二類是詞匯搭配（Lexical Collocations），指那些固定搭配在一起的詞組，比如"heavy rain"（大雨）而不是"big rain"，這類表達(dá)在字面上說(shuō)得通，但語(yǔ)感上只有特定搭配才自然。第三類是名詞復(fù)合詞（Noun Compounds），比如"baby oil"（嬰兒潤(rùn)膚油）和"olive oil"（橄欖油），同樣是"XX oil"，但前者并不是用嬰兒榨出來(lái)的油，后者才是真的從橄欖里壓出來(lái)的——理解這種差別需要世界知識(shí)和語(yǔ)境推斷。第四類是動(dòng)詞性多詞表達(dá)（Verbal Constructions），包括"take place"（發(fā)生）、"give up"（放棄）這類輕動(dòng)詞結(jié)構(gòu)，以及"click on"（點(diǎn)擊）這類動(dòng)詞加小詞的組合，意思往往是半透明的，字面和引申義之間存在微妙關(guān)聯(lián)。

這四大家族構(gòu)成了SEMANTICQA的測(cè)試對(duì)象。每一類都像是一道不同難度的密碼，需要語(yǔ)言模型在讀懂"明文"之外，還要破譯隱藏在字面之下的真實(shí)含義。

二、考場(chǎng)搭建：三種不同的考題類型

北京科技大學(xué)的團(tuán)隊(duì)沒(méi)有只出一種題，而是為每類語(yǔ)義短語(yǔ)設(shè)計(jì)了三種不同形式的考題，分別考察"認(rèn)出它"、"找到它"和"解釋它"三種能力——對(duì)應(yīng)的是分類（Classification）、抽?。‥xtraction）和解釋（Interpretation）三類任務(wù)。

分類任務(wù)相當(dāng)于做選擇題。給模型一個(gè)包含"rocket science"的句子，再給出四個(gè)選項(xiàng)，讓它選擇這個(gè)短語(yǔ)在這里是什么意思：A選項(xiàng)是"導(dǎo)彈知識(shí)"，B選項(xiàng)是"困難的事"，C選項(xiàng)是"專有名詞"，D選項(xiàng)是"字面用法"。這考察的是模型能否在多個(gè)候選答案中識(shí)別出正確的語(yǔ)義。

抽取任務(wù)則像是在文章里劃重點(diǎn)。給模型一段話，讓它直接找出并標(biāo)注出其中的慣用語(yǔ)或搭配詞。這要求模型既要理解什么算是"特殊表達(dá)"，還要精確定位它在句子里的位置，不能多標(biāo)也不能少標(biāo)。

解釋任務(wù)是三者中最開(kāi)放的，也最接近人類的實(shí)際理解過(guò)程。給模型一句話和其中的一個(gè)短語(yǔ)，讓它用自己的話解釋這個(gè)短語(yǔ)在這里是什么意思，就像字典里的釋義一樣。這不是選擇題，也不是找答案，而是要求模型生成一段文字來(lái)表達(dá)它的理解。

三種考題覆蓋了從"認(rèn)識(shí)"到"理解"再到"表達(dá)"的完整理解鏈條。研究團(tuán)隊(duì)的核心洞察在于：一個(gè)真正理解語(yǔ)義的模型，應(yīng)該在這三種形式的考題上都表現(xiàn)出一致的水準(zhǔn)——如果一個(gè)模型能解釋"kick the bucket"的意思，理論上它也應(yīng)該能在選擇題里選對(duì)，也能在句子里找到它。反之，如果三種題目的得分差異很大，就說(shuō)明模型可能只是在"猜對(duì)了答案"，而并非真的讀懂了語(yǔ)言。

三、題庫(kù)來(lái)源：從多個(gè)數(shù)據(jù)庫(kù)拼出一張完整的語(yǔ)義地圖

建這個(gè)考場(chǎng)不是從零開(kāi)始的。研究團(tuán)隊(duì)從多個(gè)已有的學(xué)術(shù)數(shù)據(jù)資源中精心挑選和整合，形成了一套統(tǒng)一格式的測(cè)試集。具體來(lái)說(shuō)，慣用語(yǔ)的檢測(cè)題來(lái)自Harish等人在2021年發(fā)布的數(shù)據(jù)集，共273道題；慣用語(yǔ)的抽取題來(lái)自Tedeschi等人2022年針對(duì)十種語(yǔ)言的慣用語(yǔ)識(shí)別數(shù)據(jù)集，取其中447個(gè)含有慣用語(yǔ)的英語(yǔ)樣本；慣用語(yǔ)的解釋題則綜合了Zhou等人2021年的PIE語(yǔ)料庫(kù)和Chakrabarty等人2022年關(guān)于敘事語(yǔ)言中比喻表達(dá)的研究，最終匯集818個(gè)樣本。

詞匯搭配部分，分類題和解釋題都來(lái)源于Espinosa-Anke等人2021年的LEXFUNC擴(kuò)展數(shù)據(jù)集，各取305個(gè)樣本；抽取題則來(lái)自Fisas等人2020年的雙語(yǔ)搭配資源。名詞復(fù)合詞部分，合成性分類題來(lái)自Garcia等人2021年關(guān)于詞向量模型中慣用性表征評(píng)估的數(shù)據(jù)集，抽取題整合了Garcia和Kolluru兩個(gè)團(tuán)隊(duì)的資源，共720個(gè)樣本，解釋題則來(lái)自Coil和Shwartz 2023年的研究，取110個(gè)樣本。動(dòng)詞性多詞表達(dá)的抽取題來(lái)自PARSEME語(yǔ)料庫(kù)的1.3版本，這是目前最大規(guī)模的動(dòng)詞多詞表達(dá)標(biāo)注語(yǔ)料，共475個(gè)樣本。

這些數(shù)據(jù)來(lái)源各異，標(biāo)注標(biāo)準(zhǔn)不統(tǒng)一，難度分布也不相同。研究團(tuán)隊(duì)特別強(qiáng)調(diào)，他們的目標(biāo)不是讓不同類型的短語(yǔ)之間可以直接橫向比較，而是在同一類型的不同考題之間觀察模型的表現(xiàn)規(guī)律。好比不能直接比較"數(shù)學(xué)題做對(duì)多少道"和"作文寫(xiě)了多少字"，但可以比較"同一個(gè)學(xué)生在數(shù)學(xué)的填空題、選擇題和解答題上分別表現(xiàn)如何"。

四、考試現(xiàn)場(chǎng)：從小模型到最強(qiáng)大模型一一上陣

研究團(tuán)隊(duì)邀請(qǐng)了一批來(lái)自不同"門(mén)派"的語(yǔ)言模型參加這場(chǎng)測(cè)試。參與者包括OpenAI的GPT-5、GPT-4、GPT-3.5-Turbo和o3，Anthropic的Claude-Sonnet-4.5、Claude-3-Opus和Claude-Instant-1，Google的Gemini-2.5-Pro和Gemini-1.0-Pro，以及開(kāi)源陣營(yíng)的DeepSeek-R1、Qwen3-235B（參數(shù)量高達(dá)2350億）、Kimi-K2-Instruct（參數(shù)量達(dá)1萬(wàn)億）和Gemma-3-27B-it。此外，還有兩個(gè)經(jīng)過(guò)專門(mén)微調(diào)的小型模型BERT-base和BERT-large，以及用于文本生成任務(wù)的T5-base和T5-large。

為了對(duì)比參考，研究團(tuán)隊(duì)還邀請(qǐng)了三位語(yǔ)言學(xué)專業(yè)的研究生參與測(cè)試，每人在每道題上隨機(jī)標(biāo)注了100個(gè)樣本，以此估算人類的表現(xiàn)水平作為參照基準(zhǔn)。

每道題的評(píng)分方式根據(jù)題型各有不同。選擇題直接看選對(duì)了沒(méi)有，計(jì)算準(zhǔn)確率。抽取題要求完全精確匹配，不能多一個(gè)字也不能少一個(gè)字，這是為了避免"部分答對(duì)也算分"帶來(lái)的虛高分?jǐn)?shù)。解釋題則用了三種不同的打分方式：METEOR分?jǐn)?shù)主要衡量詞匯重疊和同義詞覆蓋，ROUGE-L分?jǐn)?shù)衡量最長(zhǎng)公共子序列的匹配程度，BERTScore則用語(yǔ)義向量的相似度來(lái)衡量意思是否對(duì)應(yīng)，三個(gè)維度互補(bǔ)，共同評(píng)估解釋質(zhì)量。

五、成績(jī)揭曉：沒(méi)有全科滿分的"學(xué)霸"

考試結(jié)果頗具戲劇性——沒(méi)有任何一個(gè)模型在所有題型和所有短語(yǔ)類型上都表現(xiàn)出色。這個(gè)結(jié)論本身就很有意思：如果一個(gè)模型真的"讀懂"了語(yǔ)言，它應(yīng)該在考察同一個(gè)知識(shí)點(diǎn)的不同題型上都表現(xiàn)穩(wěn)定。但實(shí)際情況是，每個(gè)模型都有自己的強(qiáng)項(xiàng)和弱點(diǎn)，而且這些強(qiáng)弱點(diǎn)往往與題型密切相關(guān)，而不是與短語(yǔ)類型相關(guān)。

以GPT-5為例，在慣用語(yǔ)的檢測(cè)（選擇題）上，零樣本情況下得分82.8%，五樣本情況下提升到85.4%，已經(jīng)超過(guò)了人類基準(zhǔn)71%的水平。但在慣用語(yǔ)的抽?。ň_定位）任務(wù)上，GPT-5的零樣本得分只有67.6%，而人類的參照基準(zhǔn)則高達(dá)87%。換句話說(shuō)，這個(gè)模型在"知道答案是什么"和"知道答案在哪里"之間存在明顯落差，就像一個(gè)學(xué)生能回答"成語(yǔ)是什么意思"，卻未必能在一篇文章里準(zhǔn)確圈出哪個(gè)短語(yǔ)是成語(yǔ)。

在詞匯搭配的分類任務(wù)上，DeepSeek-R1表現(xiàn)亮眼，五樣本情況下達(dá)到76.1%，OpenAI o3三樣本時(shí)更是達(dá)到85.9%，GPT-5三樣本時(shí)也達(dá)到86.2%。但在詞匯搭配的抽取任務(wù)上，各模型的得分普遍低于人類基準(zhǔn)50%，大多數(shù)模型在30%到70%區(qū)間波動(dòng)，表明精確定位搭配詞對(duì)所有模型都是難題。

解釋任務(wù)是最特殊的一道題。由于答案是開(kāi)放式生成的，BERTScore的得分往往較高（多數(shù)模型在85%到92%區(qū)間），但METEOR分?jǐn)?shù)和ROUGE-L分?jǐn)?shù)卻相對(duì)偏低，特別是慣用語(yǔ)解釋任務(wù)的METEOR分?jǐn)?shù)，多數(shù)模型不超過(guò)30%，而人類參照基準(zhǔn)也只有20.5%。這種"BERTScore高，METEOR低"的現(xiàn)象說(shuō)明什么？它說(shuō)明模型的解釋在語(yǔ)義方向上是對(duì)的，但用詞和表達(dá)方式與標(biāo)準(zhǔn)答案差異較大——模型換了一種說(shuō)法，意思沒(méi)錯(cuò)，但和參考答案的具體措辭對(duì)不上。

六、"參考例題"的魔力：給幾個(gè)例子會(huì)有多大幫助

研究團(tuán)隊(duì)對(duì)零樣本（不給任何例子）、三樣本（給三個(gè)例題）和五樣本（給五個(gè)例題）三種不同情況進(jìn)行了系統(tǒng)比較。這種做法在AI領(lǐng)域叫做"上下文學(xué)習(xí)"（In-Context Learning），簡(jiǎn)單理解就是：考試前讓模型先看幾道例題，看看能不能幫助它更好地答題。

結(jié)論是，例題對(duì)不同類型的考題幫助效果差異顯著。解釋任務(wù)受益最穩(wěn)定：給三到五個(gè)例子之后，幾乎所有模型的METEOR分?jǐn)?shù)都明顯上升。比如DeepSeek-R1在慣用語(yǔ)解釋任務(wù)上，零樣本得12.4分，三樣本提升到19.4分，五樣本維持在19.2分。但細(xì)看BERTScore，這些提升主要體現(xiàn)在答案的表達(dá)形式更貼近例題風(fēng)格，而不一定代表模型理解得更深——就好比學(xué)生看了幾道例題，學(xué)會(huì)了答題的"套路"，但不代表真的弄懂了知識(shí)點(diǎn)。

分類任務(wù)的例題效果則是"看人下菜碟"的。原本零樣本表現(xiàn)較差的模型，加入例題后往往有明顯提升；而原本已經(jīng)表現(xiàn)不錯(cuò)的模型，加入例題有時(shí)反而出現(xiàn)輕微下滑，或者停滯不前。這種現(xiàn)象在OpenAI o3處理詞匯搭配分類題時(shí)尤為明顯，暗示了例題質(zhì)量、例題選擇方式對(duì)結(jié)果的影響不可忽視。

抽取任務(wù)是最不穩(wěn)定的一類。有時(shí)候給了例題之后成績(jī)顯著提升，因?yàn)槔}展示了"你需要找出的是什么樣的片段"；但有時(shí)候，當(dāng)測(cè)試題和例題的句子結(jié)構(gòu)差異較大時(shí)，例題反而起到了誤導(dǎo)作用，讓模型往錯(cuò)誤的方向去找。這說(shuō)明對(duì)于精確定位任務(wù)，例題的示范效果高度依賴于例題與測(cè)試題之間的相似程度。

七、分類等級(jí)越多，越難分清：一場(chǎng)控制變量的"晉級(jí)考試"

研究團(tuán)隊(duì)專門(mén)針對(duì)詞匯搭配的分類任務(wù)設(shè)計(jì)了一個(gè)有趣的壓力測(cè)試：逐漸增加需要區(qū)分的類別數(shù)量，從1類一直到16類，觀察模型的準(zhǔn)確率如何變化。這16個(gè)類別對(duì)應(yīng)的是語(yǔ)言學(xué)里"詞匯功能"理論中的不同語(yǔ)義關(guān)系，包括表示"強(qiáng)烈程度"的Magn（比如"heavy rain"中的heavy），表示"真實(shí)性"的Ver（比如"clear message"中的clear），表示"積極評(píng)價(jià)"的Bon，以及表示發(fā)聲動(dòng)作的Son（比如"alarm clock rings"中的rings）等。

隨著需要區(qū)分的類別從1個(gè)增加到16個(gè)，所有模型的準(zhǔn)確率都出現(xiàn)了明顯下滑，但下滑的速度因模型而異。以DeepSeek-R1為例，在零樣本情況下，類別數(shù)為1時(shí)準(zhǔn)確率是100%（因?yàn)橹挥幸粋€(gè)選項(xiàng)），類別數(shù)增加到2時(shí)跌至81.7%，到8類時(shí)進(jìn)一步降到49.3%，到16類時(shí)只剩35.4%。OpenAI o3和GPT-5表現(xiàn)相對(duì)更穩(wěn)健，GPT-5在16類零樣本情況下仍能維持56.3%，三樣本時(shí)進(jìn)一步提升到65.8%。

相比之下，經(jīng)過(guò)專門(mén)微調(diào)訓(xùn)練的BERT-large模型在這項(xiàng)測(cè)試中表現(xiàn)出色，16類情況下仍能保持71.8%的準(zhǔn)確率，下滑幅度遠(yuǎn)小于那些大型語(yǔ)言模型。這揭示了一個(gè)深層規(guī)律：當(dāng)語(yǔ)義類別細(xì)分到一定程度，單靠"舉一反三"的上下文學(xué)習(xí)能力是不夠的，模型需要在訓(xùn)練過(guò)程中積累足夠豐富的細(xì)粒度語(yǔ)義知識(shí)，才能在更復(fù)雜的分類場(chǎng)景中保持穩(wěn)定。

八、連環(huán)闖關(guān)：當(dāng)一道題的答案要依賴另一道題

研究團(tuán)隊(duì)還設(shè)計(jì)了一種更接近現(xiàn)實(shí)場(chǎng)景的"組合題"——要求模型先完成抽取任務(wù)，再用抽取出來(lái)的結(jié)果去完成分類或解釋任務(wù)。這就像一場(chǎng)接力賽：第一棒選手（抽取模塊）跑完之后，把接力棒交給第二棒（分類或解釋模塊），最終成績(jī)?nèi)Q于兩棒選手的綜合表現(xiàn)。

研究人員區(qū)分了兩種計(jì)分方式：一種是"有條件得分"（Conditional），只統(tǒng)計(jì)第一棒跑對(duì)了的情況下，第二棒的得分；另一種是"整體得分"（Overall），直接看從頭到尾的完整成功率。兩者之間的差距，就反映了第一棒（抽取步驟）的準(zhǔn)確率對(duì)最終結(jié)果的拖累程度。

結(jié)果顯示，"有條件得分"始終高于"整體得分"，有時(shí)差距相當(dāng)懸殊。以詞匯搭配的抽取-解釋組合為例，GPT-5在五樣本情況下，有條件METEOR得分是41.8%，但整體METEOR得分只有17.3%。這意味著：如果抽取步驟是準(zhǔn)確的，解釋做得還不錯(cuò)；但由于抽取本身的失誤率較高，最終端到端的成功率被大幅壓縮。增加例題（從零樣本到三樣本再到五樣本）能幫助提升整體得分，但提升幅度相當(dāng)有限，第一棒的失誤率始終是整個(gè)流程的瓶頸。

慣用語(yǔ)的組合題情況更嚴(yán)峻。DeepSeek-R1在慣用語(yǔ)抽取-解釋任務(wù)中，五樣本情況下整體METEOR得分只有7.6%，而有條件得分也不過(guò)13.4%，說(shuō)明即便抽取做對(duì)了，解釋質(zhì)量本身也還有提升空間。GPT-5略好一些，五樣本整體得分10.1%，有條件得分17.1%，但依然與人類水平存在明顯距離。

分類組合題呈現(xiàn)出另一種規(guī)律：類別數(shù)越多，分類的準(zhǔn)確率下降越劇烈。GPT-5在詞匯搭配的16類分類組合任務(wù)中，零樣本整體得分33.1%，三樣本提升到43.4%，五樣本達(dá)到44.8%；而在4類分類任務(wù)中，整體得分分別是45.7%、58.1%和55.0%，差距相當(dāng)明顯。這說(shuō)明，類別的精細(xì)程度是所有模型都面臨的共同瓶頸。

九、給模型配備"工具書(shū)"：一個(gè)簡(jiǎn)單策略帶來(lái)的顯著提升

在動(dòng)詞性多詞表達(dá)的抽取任務(wù)中，研究團(tuán)隊(duì)測(cè)試了一種額外的輔助策略——在提示詞（也就是給模型的"指令"）里附上目標(biāo)表達(dá)類型的定義和說(shuō)明。比如，告訴模型"動(dòng)詞-小詞結(jié)構(gòu)（VPC）有時(shí)也叫短語(yǔ)動(dòng)詞，它的整體含義是完全或部分不可從字面推導(dǎo)的"。研究團(tuán)隊(duì)把這種策略稱為"Oracle Schema"（可以理解為"附有說(shuō)明書(shū)的考卷"）。

對(duì)比結(jié)果相當(dāng)直觀。DeepSeek-R1在零樣本情況下，不附說(shuō)明時(shí)準(zhǔn)確率51.6%，附上說(shuō)明后提升到64.1%，整整高了12.5個(gè)百分點(diǎn)。三樣本情況下，附說(shuō)明的效果依然領(lǐng)先，從63.4%提升到72.3%。GPT-5的提升幅度也很可觀：零樣本從52.0%提升到59.6%，三樣本從61.7%提升到66.8%，五樣本從65.7%提升到72.6%。Kimi-K2-Instruct和OpenAI o3也都出現(xiàn)了穩(wěn)定的正向提升。

這個(gè)發(fā)現(xiàn)背后的含義頗為深遠(yuǎn)：在缺乏充足訓(xùn)練數(shù)據(jù)的任務(wù)上，給模型提供清晰的語(yǔ)義定義和邊界說(shuō)明，能夠有效彌補(bǔ)模型知識(shí)的不足。換句話說(shuō)，"告訴模型我們?cè)谡沂裁?，比"多給模型幾個(gè)例子看"，在某些場(chǎng)景下更加有效。

十、人類表現(xiàn)并非無(wú)懈可擊：考題本身的模糊性

值得單獨(dú)討論的是人類參照基準(zhǔn)的問(wèn)題。三位語(yǔ)言學(xué)研究生在測(cè)試中的表現(xiàn)并不總是遠(yuǎn)超AI——在部分任務(wù)上，AI模型已經(jīng)追平甚至超過(guò)了人類參照水平。比如在慣用語(yǔ)檢測(cè)任務(wù)中，人類得分71%，而GPT-5五樣本時(shí)達(dá)到85.4%。

但這并不意味著AI的理解能力真的超越了人類。研究團(tuán)隊(duì)解釋說(shuō)，人類標(biāo)注分?jǐn)?shù)較低的原因之一在于題目本身存在一定的模糊性，不同人對(duì)同一表達(dá)的理解可能存在合理分歧；此外，評(píng)分標(biāo)準(zhǔn)對(duì)人類和模型的影響方式并不完全對(duì)稱，比如解釋任務(wù)的METEOR分?jǐn)?shù)對(duì)答案的措辭格式非常敏感，即使意思完全正確，只要表達(dá)方式不同，分?jǐn)?shù)也會(huì)偏低。因此，人類的得分更應(yīng)該被理解為"衡量任務(wù)難度的參照線"，而不是"AI需要超越的上限"。

說(shuō)到底，SEMANTICQA這套測(cè)試平臺(tái)告訴我們一件重要的事：今天最強(qiáng)大的AI語(yǔ)言模型，在處理人類語(yǔ)言最精妙的部分時(shí)，仍然存在系統(tǒng)性的短板。它們可以在分類題上表現(xiàn)得比人類更穩(wěn)定，卻在"精確找到答案在哪"這件事上屢屢失手；它們能生成聽(tīng)起來(lái)有道理的解釋，但那些解釋是否真正建立在深層語(yǔ)義理解上，還是只是在模仿例題的格式，仍是一個(gè)開(kāi)放的問(wèn)題。更關(guān)鍵的是，當(dāng)一項(xiàng)任務(wù)需要先完成A再完成B時(shí)，A的失誤會(huì)以倍數(shù)效應(yīng)拖累最終結(jié)果——這說(shuō)明真正的語(yǔ)言理解，需要的不是在某一道題上超常發(fā)揮，而是在整個(gè)理解鏈條上保持一致的穩(wěn)健。

這項(xiàng)研究目前只覆蓋了英語(yǔ)，四類語(yǔ)義短語(yǔ)也不能窮盡人類語(yǔ)言的全部復(fù)雜性。研究團(tuán)隊(duì)本身也指出，未來(lái)應(yīng)當(dāng)將測(cè)試擴(kuò)展到多語(yǔ)言場(chǎng)景，并納入更多復(fù)雜的任務(wù)組合方式。對(duì)于普通人而言，這項(xiàng)研究的實(shí)際意義在于提醒我們：當(dāng)你讓AI幫你讀一封措辭委婉的郵件、分析一段含有隱喻的評(píng)論，或者翻譯一首充滿文化典故的歌詞時(shí)，它理解的可能和你期待的，還差著一段距離。

有興趣深入了解這項(xiàng)研究細(xì)節(jié)的讀者，可以通過(guò)arXiv編號(hào)2604.16593檢索完整論文，評(píng)估代碼和數(shù)據(jù)集也已完整開(kāi)源，研究路徑是可以被復(fù)現(xiàn)和驗(yàn)證的。

Q&A

Q1：SEMANTICQA測(cè)試平臺(tái)和普通的語(yǔ)言模型測(cè)試有什么不同？

A：普通的語(yǔ)言模型測(cè)試大多關(guān)注數(shù)學(xué)推理、代碼生成或邏輯題，SEMANTICQA專門(mén)針對(duì)語(yǔ)言里的"非字面表達(dá)"，比如成語(yǔ)、固定搭配、復(fù)合名詞等。它最特別的地方在于，對(duì)同一個(gè)短語(yǔ)設(shè)計(jì)了三種不同形式的考題——選擇題、精確定位題和開(kāi)放解釋題，通過(guò)觀察模型在三種題型上是否表現(xiàn)一致，來(lái)判斷它到底是真的理解了語(yǔ)義，還是只是猜對(duì)了某種格式的答案。

Q2：GPT-5在慣用語(yǔ)理解上超過(guò)了人類，是不是說(shuō)明AI已經(jīng)比人類更懂語(yǔ)言了？

A：這個(gè)結(jié)論需要謹(jǐn)慎對(duì)待。GPT-5在選擇題形式的慣用語(yǔ)檢測(cè)上確實(shí)超過(guò)了三位語(yǔ)言學(xué)研究生的參照得分，但那三位研究生的得分受到題目模糊性和評(píng)分方式的影響，并不代表真正的人類上限。而且GPT-5在同樣是慣用語(yǔ)的精確定位任務(wù)上，得分明顯低于人類參照基準(zhǔn)。真正的語(yǔ)言理解應(yīng)該在所有題型上都保持穩(wěn)定，而不是在某一類題上大幅領(lǐng)先而在另一類題上落后。

Q3：給AI模型附上詞匯定義（Oracle Schema策略）為什么能顯著提升效果？

A：這是因?yàn)閯?dòng)詞性多詞表達(dá)（比如"click on"這類短語(yǔ)動(dòng)詞）的邊界在很多情況下是模糊的，模型在沒(méi)有明確定義的情況下，往往不確定"我要找的是哪類東西"。一旦在指令里附上清晰的類型定義和特征說(shuō)明，就相當(dāng)于給模型配了一本專用工具書(shū)，讓它在搜索時(shí)有了明確的目標(biāo)。實(shí)驗(yàn)數(shù)據(jù)顯示，這種方式在零樣本情況下幫助DeepSeek-R1提升了12.5個(gè)百分點(diǎn)，效果甚至優(yōu)于直接多給幾個(gè)例題的方式。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.