国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

當(dāng)AI遇上成語(yǔ),北京科技大學(xué)揭開(kāi)語(yǔ)言模型理解"話中話"的真相

0
分享至


這項(xiàng)由北京科技大學(xué)與北京通用人工智能研究院聯(lián)合完成的研究,于2026年4月以預(yù)印本形式發(fā)布在arXiv平臺(tái),編號(hào)為arXiv:2604.16593v1,完整論文已開(kāi)源,感興趣的讀者可通過(guò)該編號(hào)檢索全文。

人類語(yǔ)言有一種奇妙的特性:說(shuō)出來(lái)的話,往往不是字面上的意思。"他在走鋼絲",并不是真的說(shuō)這個(gè)人在鋼索上行走;"這不是火箭科學(xué)",也不是在談航天工程。這種"話中有話"的表達(dá)方式在日常生活中無(wú)處不在,卻一直是人工智能理解語(yǔ)言時(shí)最棘手的障礙之一。研究團(tuán)隊(duì)正是瞄準(zhǔn)了這一痛點(diǎn),構(gòu)建了一個(gè)名為SEMANTICQA的測(cè)試平臺(tái),專門(mén)用來(lái)測(cè)量各類語(yǔ)言模型在處理這類"非字面表達(dá)"時(shí)的真實(shí)水平。

這件事之所以值得關(guān)注,是因?yàn)槲覀冋絹?lái)越多地依賴AI助手來(lái)閱讀文件、翻譯文本、分析情緒,而這些助手是否真的"讀懂"了語(yǔ)言,還是只是在走字面意思的捷徑,直接關(guān)系到它們給出的答案是否可信。就好像雇了一位翻譯,表面上他能把每個(gè)字都換成另一種語(yǔ)言,但如果他不懂"打退堂鼓"是什么意思,翻譯出來(lái)的內(nèi)容就會(huì)南轅北轍。

一、語(yǔ)言的"暗語(yǔ)"系統(tǒng):為什么AI理解成語(yǔ)那么難

人類從小就學(xué)會(huì)了語(yǔ)言里的"潛臺(tái)詞"。當(dāng)老師說(shuō)"這道題不是什么難事",學(xué)生知道他在鼓勵(lì);當(dāng)朋友說(shuō)"你真是個(gè)好人",語(yǔ)氣不同時(shí)可能含義截然相反。這種依靠約定俗成、依靠文化背景、依靠上下文才能解讀的表達(dá),語(yǔ)言學(xué)家給了它們一個(gè)統(tǒng)一的名字——多詞表達(dá)(Multiword Expressions,簡(jiǎn)稱MWE),也可以叫做"語(yǔ)義短語(yǔ)"。

研究團(tuán)隊(duì)將這類表達(dá)分成四大家族。第一類是慣用語(yǔ)(Idiomatic Expressions),也就是中文里的成語(yǔ)、歇后語(yǔ),英語(yǔ)里的"kick the bucket"(踢桶子,意思是死亡)之類,整個(gè)短語(yǔ)的意思完全無(wú)法從單個(gè)詞推導(dǎo)出來(lái)。第二類是詞匯搭配(Lexical Collocations),指那些固定搭配在一起的詞組,比如"heavy rain"(大雨)而不是"big rain",這類表達(dá)在字面上說(shuō)得通,但語(yǔ)感上只有特定搭配才自然。第三類是名詞復(fù)合詞(Noun Compounds),比如"baby oil"(嬰兒潤(rùn)膚油)和"olive oil"(橄欖油),同樣是"XX oil",但前者并不是用嬰兒榨出來(lái)的油,后者才是真的從橄欖里壓出來(lái)的——理解這種差別需要世界知識(shí)和語(yǔ)境推斷。第四類是動(dòng)詞性多詞表達(dá)(Verbal Constructions),包括"take place"(發(fā)生)、"give up"(放棄)這類輕動(dòng)詞結(jié)構(gòu),以及"click on"(點(diǎn)擊)這類動(dòng)詞加小詞的組合,意思往往是半透明的,字面和引申義之間存在微妙關(guān)聯(lián)。

這四大家族構(gòu)成了SEMANTICQA的測(cè)試對(duì)象。每一類都像是一道不同難度的密碼,需要語(yǔ)言模型在讀懂"明文"之外,還要破譯隱藏在字面之下的真實(shí)含義。

二、考場(chǎng)搭建:三種不同的考題類型

北京科技大學(xué)的團(tuán)隊(duì)沒(méi)有只出一種題,而是為每類語(yǔ)義短語(yǔ)設(shè)計(jì)了三種不同形式的考題,分別考察"認(rèn)出它"、"找到它"和"解釋它"三種能力——對(duì)應(yīng)的是分類(Classification)、抽?。‥xtraction)和解釋(Interpretation)三類任務(wù)。

分類任務(wù)相當(dāng)于做選擇題。給模型一個(gè)包含"rocket science"的句子,再給出四個(gè)選項(xiàng),讓它選擇這個(gè)短語(yǔ)在這里是什么意思:A選項(xiàng)是"導(dǎo)彈知識(shí)",B選項(xiàng)是"困難的事",C選項(xiàng)是"專有名詞",D選項(xiàng)是"字面用法"。這考察的是模型能否在多個(gè)候選答案中識(shí)別出正確的語(yǔ)義。

抽取任務(wù)則像是在文章里劃重點(diǎn)。給模型一段話,讓它直接找出并標(biāo)注出其中的慣用語(yǔ)或搭配詞。這要求模型既要理解什么算是"特殊表達(dá)",還要精確定位它在句子里的位置,不能多標(biāo)也不能少標(biāo)。

解釋任務(wù)是三者中最開(kāi)放的,也最接近人類的實(shí)際理解過(guò)程。給模型一句話和其中的一個(gè)短語(yǔ),讓它用自己的話解釋這個(gè)短語(yǔ)在這里是什么意思,就像字典里的釋義一樣。這不是選擇題,也不是找答案,而是要求模型生成一段文字來(lái)表達(dá)它的理解。

三種考題覆蓋了從"認(rèn)識(shí)"到"理解"再到"表達(dá)"的完整理解鏈條。研究團(tuán)隊(duì)的核心洞察在于:一個(gè)真正理解語(yǔ)義的模型,應(yīng)該在這三種形式的考題上都表現(xiàn)出一致的水準(zhǔn)——如果一個(gè)模型能解釋"kick the bucket"的意思,理論上它也應(yīng)該能在選擇題里選對(duì),也能在句子里找到它。反之,如果三種題目的得分差異很大,就說(shuō)明模型可能只是在"猜對(duì)了答案",而并非真的讀懂了語(yǔ)言。

三、題庫(kù)來(lái)源:從多個(gè)數(shù)據(jù)庫(kù)拼出一張完整的語(yǔ)義地圖

建這個(gè)考場(chǎng)不是從零開(kāi)始的。研究團(tuán)隊(duì)從多個(gè)已有的學(xué)術(shù)數(shù)據(jù)資源中精心挑選和整合,形成了一套統(tǒng)一格式的測(cè)試集。具體來(lái)說(shuō),慣用語(yǔ)的檢測(cè)題來(lái)自Harish等人在2021年發(fā)布的數(shù)據(jù)集,共273道題;慣用語(yǔ)的抽取題來(lái)自Tedeschi等人2022年針對(duì)十種語(yǔ)言的慣用語(yǔ)識(shí)別數(shù)據(jù)集,取其中447個(gè)含有慣用語(yǔ)的英語(yǔ)樣本;慣用語(yǔ)的解釋題則綜合了Zhou等人2021年的PIE語(yǔ)料庫(kù)和Chakrabarty等人2022年關(guān)于敘事語(yǔ)言中比喻表達(dá)的研究,最終匯集818個(gè)樣本。

詞匯搭配部分,分類題和解釋題都來(lái)源于Espinosa-Anke等人2021年的LEXFUNC擴(kuò)展數(shù)據(jù)集,各取305個(gè)樣本;抽取題則來(lái)自Fisas等人2020年的雙語(yǔ)搭配資源。名詞復(fù)合詞部分,合成性分類題來(lái)自Garcia等人2021年關(guān)于詞向量模型中慣用性表征評(píng)估的數(shù)據(jù)集,抽取題整合了Garcia和Kolluru兩個(gè)團(tuán)隊(duì)的資源,共720個(gè)樣本,解釋題則來(lái)自Coil和Shwartz 2023年的研究,取110個(gè)樣本。動(dòng)詞性多詞表達(dá)的抽取題來(lái)自PARSEME語(yǔ)料庫(kù)的1.3版本,這是目前最大規(guī)模的動(dòng)詞多詞表達(dá)標(biāo)注語(yǔ)料,共475個(gè)樣本。

這些數(shù)據(jù)來(lái)源各異,標(biāo)注標(biāo)準(zhǔn)不統(tǒng)一,難度分布也不相同。研究團(tuán)隊(duì)特別強(qiáng)調(diào),他們的目標(biāo)不是讓不同類型的短語(yǔ)之間可以直接橫向比較,而是在同一類型的不同考題之間觀察模型的表現(xiàn)規(guī)律。好比不能直接比較"數(shù)學(xué)題做對(duì)多少道"和"作文寫(xiě)了多少字",但可以比較"同一個(gè)學(xué)生在數(shù)學(xué)的填空題、選擇題和解答題上分別表現(xiàn)如何"。

四、考試現(xiàn)場(chǎng):從小模型到最強(qiáng)大模型一一上陣

研究團(tuán)隊(duì)邀請(qǐng)了一批來(lái)自不同"門(mén)派"的語(yǔ)言模型參加這場(chǎng)測(cè)試。參與者包括OpenAI的GPT-5、GPT-4、GPT-3.5-Turbo和o3,Anthropic的Claude-Sonnet-4.5、Claude-3-Opus和Claude-Instant-1,Google的Gemini-2.5-Pro和Gemini-1.0-Pro,以及開(kāi)源陣營(yíng)的DeepSeek-R1、Qwen3-235B(參數(shù)量高達(dá)2350億)、Kimi-K2-Instruct(參數(shù)量達(dá)1萬(wàn)億)和Gemma-3-27B-it。此外,還有兩個(gè)經(jīng)過(guò)專門(mén)微調(diào)的小型模型BERT-base和BERT-large,以及用于文本生成任務(wù)的T5-base和T5-large。

為了對(duì)比參考,研究團(tuán)隊(duì)還邀請(qǐng)了三位語(yǔ)言學(xué)專業(yè)的研究生參與測(cè)試,每人在每道題上隨機(jī)標(biāo)注了100個(gè)樣本,以此估算人類的表現(xiàn)水平作為參照基準(zhǔn)。

每道題的評(píng)分方式根據(jù)題型各有不同。選擇題直接看選對(duì)了沒(méi)有,計(jì)算準(zhǔn)確率。抽取題要求完全精確匹配,不能多一個(gè)字也不能少一個(gè)字,這是為了避免"部分答對(duì)也算分"帶來(lái)的虛高分?jǐn)?shù)。解釋題則用了三種不同的打分方式:METEOR分?jǐn)?shù)主要衡量詞匯重疊和同義詞覆蓋,ROUGE-L分?jǐn)?shù)衡量最長(zhǎng)公共子序列的匹配程度,BERTScore則用語(yǔ)義向量的相似度來(lái)衡量意思是否對(duì)應(yīng),三個(gè)維度互補(bǔ),共同評(píng)估解釋質(zhì)量。

五、成績(jī)揭曉:沒(méi)有全科滿分的"學(xué)霸"

考試結(jié)果頗具戲劇性——沒(méi)有任何一個(gè)模型在所有題型和所有短語(yǔ)類型上都表現(xiàn)出色。這個(gè)結(jié)論本身就很有意思:如果一個(gè)模型真的"讀懂"了語(yǔ)言,它應(yīng)該在考察同一個(gè)知識(shí)點(diǎn)的不同題型上都表現(xiàn)穩(wěn)定。但實(shí)際情況是,每個(gè)模型都有自己的強(qiáng)項(xiàng)和弱點(diǎn),而且這些強(qiáng)弱點(diǎn)往往與題型密切相關(guān),而不是與短語(yǔ)類型相關(guān)。

以GPT-5為例,在慣用語(yǔ)的檢測(cè)(選擇題)上,零樣本情況下得分82.8%,五樣本情況下提升到85.4%,已經(jīng)超過(guò)了人類基準(zhǔn)71%的水平。但在慣用語(yǔ)的抽?。ň_定位)任務(wù)上,GPT-5的零樣本得分只有67.6%,而人類的參照基準(zhǔn)則高達(dá)87%。換句話說(shuō),這個(gè)模型在"知道答案是什么"和"知道答案在哪里"之間存在明顯落差,就像一個(gè)學(xué)生能回答"成語(yǔ)是什么意思",卻未必能在一篇文章里準(zhǔn)確圈出哪個(gè)短語(yǔ)是成語(yǔ)。

在詞匯搭配的分類任務(wù)上,DeepSeek-R1表現(xiàn)亮眼,五樣本情況下達(dá)到76.1%,OpenAI o3三樣本時(shí)更是達(dá)到85.9%,GPT-5三樣本時(shí)也達(dá)到86.2%。但在詞匯搭配的抽取任務(wù)上,各模型的得分普遍低于人類基準(zhǔn)50%,大多數(shù)模型在30%到70%區(qū)間波動(dòng),表明精確定位搭配詞對(duì)所有模型都是難題。

解釋任務(wù)是最特殊的一道題。由于答案是開(kāi)放式生成的,BERTScore的得分往往較高(多數(shù)模型在85%到92%區(qū)間),但METEOR分?jǐn)?shù)和ROUGE-L分?jǐn)?shù)卻相對(duì)偏低,特別是慣用語(yǔ)解釋任務(wù)的METEOR分?jǐn)?shù),多數(shù)模型不超過(guò)30%,而人類參照基準(zhǔn)也只有20.5%。這種"BERTScore高,METEOR低"的現(xiàn)象說(shuō)明什么?它說(shuō)明模型的解釋在語(yǔ)義方向上是對(duì)的,但用詞和表達(dá)方式與標(biāo)準(zhǔn)答案差異較大——模型換了一種說(shuō)法,意思沒(méi)錯(cuò),但和參考答案的具體措辭對(duì)不上。

六、"參考例題"的魔力:給幾個(gè)例子會(huì)有多大幫助

研究團(tuán)隊(duì)對(duì)零樣本(不給任何例子)、三樣本(給三個(gè)例題)和五樣本(給五個(gè)例題)三種不同情況進(jìn)行了系統(tǒng)比較。這種做法在AI領(lǐng)域叫做"上下文學(xué)習(xí)"(In-Context Learning),簡(jiǎn)單理解就是:考試前讓模型先看幾道例題,看看能不能幫助它更好地答題。

結(jié)論是,例題對(duì)不同類型的考題幫助效果差異顯著。解釋任務(wù)受益最穩(wěn)定:給三到五個(gè)例子之后,幾乎所有模型的METEOR分?jǐn)?shù)都明顯上升。比如DeepSeek-R1在慣用語(yǔ)解釋任務(wù)上,零樣本得12.4分,三樣本提升到19.4分,五樣本維持在19.2分。但細(xì)看BERTScore,這些提升主要體現(xiàn)在答案的表達(dá)形式更貼近例題風(fēng)格,而不一定代表模型理解得更深——就好比學(xué)生看了幾道例題,學(xué)會(huì)了答題的"套路",但不代表真的弄懂了知識(shí)點(diǎn)。

分類任務(wù)的例題效果則是"看人下菜碟"的。原本零樣本表現(xiàn)較差的模型,加入例題后往往有明顯提升;而原本已經(jīng)表現(xiàn)不錯(cuò)的模型,加入例題有時(shí)反而出現(xiàn)輕微下滑,或者停滯不前。這種現(xiàn)象在OpenAI o3處理詞匯搭配分類題時(shí)尤為明顯,暗示了例題質(zhì)量、例題選擇方式對(duì)結(jié)果的影響不可忽視。

抽取任務(wù)是最不穩(wěn)定的一類。有時(shí)候給了例題之后成績(jī)顯著提升,因?yàn)槔}展示了"你需要找出的是什么樣的片段";但有時(shí)候,當(dāng)測(cè)試題和例題的句子結(jié)構(gòu)差異較大時(shí),例題反而起到了誤導(dǎo)作用,讓模型往錯(cuò)誤的方向去找。這說(shuō)明對(duì)于精確定位任務(wù),例題的示范效果高度依賴于例題與測(cè)試題之間的相似程度。

七、分類等級(jí)越多,越難分清:一場(chǎng)控制變量的"晉級(jí)考試"

研究團(tuán)隊(duì)專門(mén)針對(duì)詞匯搭配的分類任務(wù)設(shè)計(jì)了一個(gè)有趣的壓力測(cè)試:逐漸增加需要區(qū)分的類別數(shù)量,從1類一直到16類,觀察模型的準(zhǔn)確率如何變化。這16個(gè)類別對(duì)應(yīng)的是語(yǔ)言學(xué)里"詞匯功能"理論中的不同語(yǔ)義關(guān)系,包括表示"強(qiáng)烈程度"的Magn(比如"heavy rain"中的heavy),表示"真實(shí)性"的Ver(比如"clear message"中的clear),表示"積極評(píng)價(jià)"的Bon,以及表示發(fā)聲動(dòng)作的Son(比如"alarm clock rings"中的rings)等。

隨著需要區(qū)分的類別從1個(gè)增加到16個(gè),所有模型的準(zhǔn)確率都出現(xiàn)了明顯下滑,但下滑的速度因模型而異。以DeepSeek-R1為例,在零樣本情況下,類別數(shù)為1時(shí)準(zhǔn)確率是100%(因?yàn)橹挥幸粋€(gè)選項(xiàng)),類別數(shù)增加到2時(shí)跌至81.7%,到8類時(shí)進(jìn)一步降到49.3%,到16類時(shí)只剩35.4%。OpenAI o3和GPT-5表現(xiàn)相對(duì)更穩(wěn)健,GPT-5在16類零樣本情況下仍能維持56.3%,三樣本時(shí)進(jìn)一步提升到65.8%。

相比之下,經(jīng)過(guò)專門(mén)微調(diào)訓(xùn)練的BERT-large模型在這項(xiàng)測(cè)試中表現(xiàn)出色,16類情況下仍能保持71.8%的準(zhǔn)確率,下滑幅度遠(yuǎn)小于那些大型語(yǔ)言模型。這揭示了一個(gè)深層規(guī)律:當(dāng)語(yǔ)義類別細(xì)分到一定程度,單靠"舉一反三"的上下文學(xué)習(xí)能力是不夠的,模型需要在訓(xùn)練過(guò)程中積累足夠豐富的細(xì)粒度語(yǔ)義知識(shí),才能在更復(fù)雜的分類場(chǎng)景中保持穩(wěn)定。

八、連環(huán)闖關(guān):當(dāng)一道題的答案要依賴另一道題

研究團(tuán)隊(duì)還設(shè)計(jì)了一種更接近現(xiàn)實(shí)場(chǎng)景的"組合題"——要求模型先完成抽取任務(wù),再用抽取出來(lái)的結(jié)果去完成分類或解釋任務(wù)。這就像一場(chǎng)接力賽:第一棒選手(抽取模塊)跑完之后,把接力棒交給第二棒(分類或解釋模塊),最終成績(jī)?nèi)Q于兩棒選手的綜合表現(xiàn)。

研究人員區(qū)分了兩種計(jì)分方式:一種是"有條件得分"(Conditional),只統(tǒng)計(jì)第一棒跑對(duì)了的情況下,第二棒的得分;另一種是"整體得分"(Overall),直接看從頭到尾的完整成功率。兩者之間的差距,就反映了第一棒(抽取步驟)的準(zhǔn)確率對(duì)最終結(jié)果的拖累程度。

結(jié)果顯示,"有條件得分"始終高于"整體得分",有時(shí)差距相當(dāng)懸殊。以詞匯搭配的抽取-解釋組合為例,GPT-5在五樣本情況下,有條件METEOR得分是41.8%,但整體METEOR得分只有17.3%。這意味著:如果抽取步驟是準(zhǔn)確的,解釋做得還不錯(cuò);但由于抽取本身的失誤率較高,最終端到端的成功率被大幅壓縮。增加例題(從零樣本到三樣本再到五樣本)能幫助提升整體得分,但提升幅度相當(dāng)有限,第一棒的失誤率始終是整個(gè)流程的瓶頸。

慣用語(yǔ)的組合題情況更嚴(yán)峻。DeepSeek-R1在慣用語(yǔ)抽取-解釋任務(wù)中,五樣本情況下整體METEOR得分只有7.6%,而有條件得分也不過(guò)13.4%,說(shuō)明即便抽取做對(duì)了,解釋質(zhì)量本身也還有提升空間。GPT-5略好一些,五樣本整體得分10.1%,有條件得分17.1%,但依然與人類水平存在明顯距離。

分類組合題呈現(xiàn)出另一種規(guī)律:類別數(shù)越多,分類的準(zhǔn)確率下降越劇烈。GPT-5在詞匯搭配的16類分類組合任務(wù)中,零樣本整體得分33.1%,三樣本提升到43.4%,五樣本達(dá)到44.8%;而在4類分類任務(wù)中,整體得分分別是45.7%、58.1%和55.0%,差距相當(dāng)明顯。這說(shuō)明,類別的精細(xì)程度是所有模型都面臨的共同瓶頸。

九、給模型配備"工具書(shū)":一個(gè)簡(jiǎn)單策略帶來(lái)的顯著提升

在動(dòng)詞性多詞表達(dá)的抽取任務(wù)中,研究團(tuán)隊(duì)測(cè)試了一種額外的輔助策略——在提示詞(也就是給模型的"指令")里附上目標(biāo)表達(dá)類型的定義和說(shuō)明。比如,告訴模型"動(dòng)詞-小詞結(jié)構(gòu)(VPC)有時(shí)也叫短語(yǔ)動(dòng)詞,它的整體含義是完全或部分不可從字面推導(dǎo)的"。研究團(tuán)隊(duì)把這種策略稱為"Oracle Schema"(可以理解為"附有說(shuō)明書(shū)的考卷")。

對(duì)比結(jié)果相當(dāng)直觀。DeepSeek-R1在零樣本情況下,不附說(shuō)明時(shí)準(zhǔn)確率51.6%,附上說(shuō)明后提升到64.1%,整整高了12.5個(gè)百分點(diǎn)。三樣本情況下,附說(shuō)明的效果依然領(lǐng)先,從63.4%提升到72.3%。GPT-5的提升幅度也很可觀:零樣本從52.0%提升到59.6%,三樣本從61.7%提升到66.8%,五樣本從65.7%提升到72.6%。Kimi-K2-Instruct和OpenAI o3也都出現(xiàn)了穩(wěn)定的正向提升。

這個(gè)發(fā)現(xiàn)背后的含義頗為深遠(yuǎn):在缺乏充足訓(xùn)練數(shù)據(jù)的任務(wù)上,給模型提供清晰的語(yǔ)義定義和邊界說(shuō)明,能夠有效彌補(bǔ)模型知識(shí)的不足。換句話說(shuō),"告訴模型我們?cè)谡沂裁?,比"多給模型幾個(gè)例子看",在某些場(chǎng)景下更加有效。

十、人類表現(xiàn)并非無(wú)懈可擊:考題本身的模糊性

值得單獨(dú)討論的是人類參照基準(zhǔn)的問(wèn)題。三位語(yǔ)言學(xué)研究生在測(cè)試中的表現(xiàn)并不總是遠(yuǎn)超AI——在部分任務(wù)上,AI模型已經(jīng)追平甚至超過(guò)了人類參照水平。比如在慣用語(yǔ)檢測(cè)任務(wù)中,人類得分71%,而GPT-5五樣本時(shí)達(dá)到85.4%。

但這并不意味著AI的理解能力真的超越了人類。研究團(tuán)隊(duì)解釋說(shuō),人類標(biāo)注分?jǐn)?shù)較低的原因之一在于題目本身存在一定的模糊性,不同人對(duì)同一表達(dá)的理解可能存在合理分歧;此外,評(píng)分標(biāo)準(zhǔn)對(duì)人類和模型的影響方式并不完全對(duì)稱,比如解釋任務(wù)的METEOR分?jǐn)?shù)對(duì)答案的措辭格式非常敏感,即使意思完全正確,只要表達(dá)方式不同,分?jǐn)?shù)也會(huì)偏低。因此,人類的得分更應(yīng)該被理解為"衡量任務(wù)難度的參照線",而不是"AI需要超越的上限"。

說(shuō)到底,SEMANTICQA這套測(cè)試平臺(tái)告訴我們一件重要的事:今天最強(qiáng)大的AI語(yǔ)言模型,在處理人類語(yǔ)言最精妙的部分時(shí),仍然存在系統(tǒng)性的短板。它們可以在分類題上表現(xiàn)得比人類更穩(wěn)定,卻在"精確找到答案在哪"這件事上屢屢失手;它們能生成聽(tīng)起來(lái)有道理的解釋,但那些解釋是否真正建立在深層語(yǔ)義理解上,還是只是在模仿例題的格式,仍是一個(gè)開(kāi)放的問(wèn)題。更關(guān)鍵的是,當(dāng)一項(xiàng)任務(wù)需要先完成A再完成B時(shí),A的失誤會(huì)以倍數(shù)效應(yīng)拖累最終結(jié)果——這說(shuō)明真正的語(yǔ)言理解,需要的不是在某一道題上超常發(fā)揮,而是在整個(gè)理解鏈條上保持一致的穩(wěn)健。

這項(xiàng)研究目前只覆蓋了英語(yǔ),四類語(yǔ)義短語(yǔ)也不能窮盡人類語(yǔ)言的全部復(fù)雜性。研究團(tuán)隊(duì)本身也指出,未來(lái)應(yīng)當(dāng)將測(cè)試擴(kuò)展到多語(yǔ)言場(chǎng)景,并納入更多復(fù)雜的任務(wù)組合方式。對(duì)于普通人而言,這項(xiàng)研究的實(shí)際意義在于提醒我們:當(dāng)你讓AI幫你讀一封措辭委婉的郵件、分析一段含有隱喻的評(píng)論,或者翻譯一首充滿文化典故的歌詞時(shí),它理解的可能和你期待的,還差著一段距離。

有興趣深入了解這項(xiàng)研究細(xì)節(jié)的讀者,可以通過(guò)arXiv編號(hào)2604.16593檢索完整論文,評(píng)估代碼和數(shù)據(jù)集也已完整開(kāi)源,研究路徑是可以被復(fù)現(xiàn)和驗(yàn)證的。

Q&A

Q1:SEMANTICQA測(cè)試平臺(tái)和普通的語(yǔ)言模型測(cè)試有什么不同?

A:普通的語(yǔ)言模型測(cè)試大多關(guān)注數(shù)學(xué)推理、代碼生成或邏輯題,SEMANTICQA專門(mén)針對(duì)語(yǔ)言里的"非字面表達(dá)",比如成語(yǔ)、固定搭配、復(fù)合名詞等。它最特別的地方在于,對(duì)同一個(gè)短語(yǔ)設(shè)計(jì)了三種不同形式的考題——選擇題、精確定位題和開(kāi)放解釋題,通過(guò)觀察模型在三種題型上是否表現(xiàn)一致,來(lái)判斷它到底是真的理解了語(yǔ)義,還是只是猜對(duì)了某種格式的答案。

Q2:GPT-5在慣用語(yǔ)理解上超過(guò)了人類,是不是說(shuō)明AI已經(jīng)比人類更懂語(yǔ)言了?

A:這個(gè)結(jié)論需要謹(jǐn)慎對(duì)待。GPT-5在選擇題形式的慣用語(yǔ)檢測(cè)上確實(shí)超過(guò)了三位語(yǔ)言學(xué)研究生的參照得分,但那三位研究生的得分受到題目模糊性和評(píng)分方式的影響,并不代表真正的人類上限。而且GPT-5在同樣是慣用語(yǔ)的精確定位任務(wù)上,得分明顯低于人類參照基準(zhǔn)。真正的語(yǔ)言理解應(yīng)該在所有題型上都保持穩(wěn)定,而不是在某一類題上大幅領(lǐng)先而在另一類題上落后。

Q3:給AI模型附上詞匯定義(Oracle Schema策略)為什么能顯著提升效果?

A:這是因?yàn)閯?dòng)詞性多詞表達(dá)(比如"click on"這類短語(yǔ)動(dòng)詞)的邊界在很多情況下是模糊的,模型在沒(méi)有明確定義的情況下,往往不確定"我要找的是哪類東西"。一旦在指令里附上清晰的類型定義和特征說(shuō)明,就相當(dāng)于給模型配了一本專用工具書(shū),讓它在搜索時(shí)有了明確的目標(biāo)。實(shí)驗(yàn)數(shù)據(jù)顯示,這種方式在零樣本情況下幫助DeepSeek-R1提升了12.5個(gè)百分點(diǎn),效果甚至優(yōu)于直接多給幾個(gè)例題的方式。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
國(guó)家下死命令:2027年城投清零!中小城市的公交、供水會(huì)漲價(jià)嗎?

國(guó)家下死命令:2027年城投清零!中小城市的公交、供水會(huì)漲價(jià)嗎?

顧史
2026-04-21 05:44:11
法塔赫勝選、哈馬斯出局,殘害平民失去人心,恐怖主義沒(méi)有未來(lái)

法塔赫勝選、哈馬斯出局,殘害平民失去人心,恐怖主義沒(méi)有未來(lái)

壹家言
2026-04-28 11:11:27
王洪文被捕前,對(duì)秘書(shū)說(shuō):我這頂“烏紗帽”,說(shuō)不定哪天就被摘掉

王洪文被捕前,對(duì)秘書(shū)說(shuō):我這頂“烏紗帽”,說(shuō)不定哪天就被摘掉

銅臭的歷史味
2026-04-29 00:22:02
哭窮了!一線男1號(hào)片酬跌至巔峰期3折,網(wǎng)友:待遇比醫(yī)生差才合理

哭窮了!一線男1號(hào)片酬跌至巔峰期3折,網(wǎng)友:待遇比醫(yī)生差才合理

火山詩(shī)話
2026-04-28 07:27:33
600678,將被“ST”!

600678,將被“ST”!

中國(guó)基金報(bào)
2026-04-28 23:15:48
情侶在瑞士雪山頂“撒歡”,就這么被全世界直播了···

情侶在瑞士雪山頂“撒歡”,就這么被全世界直播了···

新歐洲
2026-04-21 19:37:05
外交部:按一國(guó)兩制叫“臺(tái)灣特別行政區(qū)行政長(zhǎng)官”“臺(tái)灣省省長(zhǎng)”

外交部:按一國(guó)兩制叫“臺(tái)灣特別行政區(qū)行政長(zhǎng)官”“臺(tái)灣省省長(zhǎng)”

阿七說(shuō)史
2026-04-28 15:41:47
辛柏青回應(yīng)吳越撮合,沒(méi)有翻臉沒(méi)有接梗,把分寸和家人穩(wěn)穩(wěn)守住

辛柏青回應(yīng)吳越撮合,沒(méi)有翻臉沒(méi)有接梗,把分寸和家人穩(wěn)穩(wěn)守住

一盅情懷
2026-04-28 17:18:29
妹子,你露個(gè)大白胸脯,在這兒干什么呢?

妹子,你露個(gè)大白胸脯,在這兒干什么呢?

飛娛日記
2026-04-18 10:48:09
中國(guó)聯(lián)通推出全新手機(jī)套餐品牌“魔方”,自由組合,階梯定價(jià),39元起

中國(guó)聯(lián)通推出全新手機(jī)套餐品牌“魔方”,自由組合,階梯定價(jià),39元起

TMT流程審計(jì)
2026-04-28 10:35:38
誰(shuí)敢相信!去年跟腱撕裂,今年滿血回歸,季后賽場(chǎng)均24分

誰(shuí)敢相信!去年跟腱撕裂,今年滿血回歸,季后賽場(chǎng)均24分

球毛鬼胎
2026-04-28 22:07:08
張雪就聲援余承東引發(fā)爭(zhēng)議進(jìn)行回應(yīng),稱自己不是網(wǎng)紅也不靠這吃飯

張雪就聲援余承東引發(fā)爭(zhēng)議進(jìn)行回應(yīng),稱自己不是網(wǎng)紅也不靠這吃飯

IT之家
2026-04-28 16:13:50
政治局會(huì)議,傳遞三重利好

政治局會(huì)議,傳遞三重利好

劉勝軍經(jīng)濟(jì)學(xué)大局觀
2026-04-28 15:41:45
美伊大戰(zhàn)暴露了中國(guó)家底,美國(guó)這才明白,為啥中國(guó)人底氣能這么足

美伊大戰(zhàn)暴露了中國(guó)家底,美國(guó)這才明白,為啥中國(guó)人底氣能這么足

觸摸史跡
2026-04-28 15:13:05
世乒賽戰(zhàn)況:杜凱琹獨(dú)砍兩分,朱雨玲澳隊(duì)剃光頭國(guó)乒大戰(zhàn)韓隊(duì)

世乒賽戰(zhàn)況:杜凱琹獨(dú)砍兩分,朱雨玲澳隊(duì)剃光頭國(guó)乒大戰(zhàn)韓隊(duì)

阿晞體育
2026-04-28 22:41:00
王思聰是真頹了?被拍到在洛杉磯,整個(gè)人都“垮了”

王思聰是真頹了?被拍到在洛杉磯,整個(gè)人都“垮了”

西樓知趣雜談
2026-04-28 22:09:13
誰(shuí)拍下了那張后臺(tái)照片?

誰(shuí)拍下了那張后臺(tái)照片?

追星雷達(dá)站
2026-04-27 09:58:59
43歲蔡卓妍官宣結(jié)婚,婚戒照好幸福,老公比她小10歲是健身教練

43歲蔡卓妍官宣結(jié)婚,婚戒照好幸福,老公比她小10歲是健身教練

扒蝦侃娛
2026-04-28 12:34:53
倒查13年,央國(guó)企開(kāi)始慌了

倒查13年,央國(guó)企開(kāi)始慌了

職場(chǎng)資深秘書(shū)
2026-04-28 22:06:07
聚焦服務(wù)業(yè)擴(kuò)能提質(zhì)|我國(guó)養(yǎng)老服務(wù)業(yè)發(fā)展邁出新步伐

聚焦服務(wù)業(yè)擴(kuò)能提質(zhì)|我國(guó)養(yǎng)老服務(wù)業(yè)發(fā)展邁出新步伐

新華社
2026-04-27 22:04:28
2026-04-29 03:20:49
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
8183文章數(shù) 563關(guān)注度
往期回顧 全部

科技要聞

10億周活目標(biāo)落空!傳OpenAI爆發(fā)內(nèi)部分歧

頭條要聞

19歲中國(guó)女孩被困緬甸 交20萬(wàn)贖金園區(qū)仍未放人

頭條要聞

19歲中國(guó)女孩被困緬甸 交20萬(wàn)贖金園區(qū)仍未放人

體育要聞

魔術(shù)黑八活塞,一步之遙?!

娛樂(lè)要聞

蔡卓妍官宣結(jié)婚,老公比她小10歲

財(cái)經(jīng)要聞

中央政治局會(huì)議定調(diào),八大看點(diǎn)速覽!

汽車要聞

拒絕瘋狂套娃!現(xiàn)代艾尼氪金星長(zhǎng)在未來(lái)審美點(diǎn)上

態(tài)度原創(chuàng)

教育
健康
手機(jī)
藝術(shù)
公開(kāi)課

教育要聞

教育部通知,今年9月份開(kāi)始,上學(xué)的規(guī)則全變了

干細(xì)胞治療燒燙傷三大優(yōu)勢(shì)!

手機(jī)要聞

三星裸眼3D屏來(lái)了,廣告牌能“跳”出來(lái)

藝術(shù)要聞

京東浙江總部公示,99.99米高,中國(guó)第一民企落子民營(yíng)大省!

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版