ACL 2025 | 大模型結(jié)構(gòu)化知識提示的泛化能力研究

2025-09-05 08:27:22　來源: 將門創(chuàng)投

北京舉報

分享至

本研究系統(tǒng)評估了結(jié)構(gòu)化知識提示（SKP）的泛化能力。結(jié)果表明，現(xiàn)有方法（尤其結(jié)合MLP適配器）可為LLM注入宏觀結(jié)構(gòu)化知識，并提升其在子圖推理和三元組推理任務(wù)上的表現(xiàn)。但其局限性也較明顯：缺乏細(xì)粒度事實感知，對新實體理解不足，跨任務(wù)遷移能力有限，且適配器層數(shù)存在最佳邊界（3–4層）。這些發(fā)現(xiàn)揭示了SKP在特定任務(wù)中表現(xiàn)突出的原因，同時提示未來需突破細(xì)粒度推理和新知識泛化的瓶頸。

論文題目： Have We Designed Generalizable Structural Knowledge Promptings? Systematic Evaluation and Rethinking 論文鏈接： https://arxiv.org/abs/2501.00244 代碼鏈接： https://github.com/zjukg/SUBARU

一、引言

本論文關(guān)注大型語言模型（LLMs）在知識密集型任務(wù)中面臨的關(guān)鍵挑戰(zhàn)：事實準(zhǔn)確性不足。雖然結(jié)構(gòu)化知識提示（Structural Knowledge Prompting, SKP）通過將知識圖譜（KGs）的結(jié)構(gòu)化表示整合到LLMs中，顯著提升了如問答和知識圖譜補全等任務(wù)的性能，成為主流范式，如下圖所示，已有的SKP通常用一個結(jié)構(gòu)編碼器+適配器的形式將從KG中提取到的結(jié)構(gòu)化信息注入LLM，但現(xiàn)有研究大多聚焦于特定任務(wù)應(yīng)用，缺乏對SKP范式本身泛化能力的系統(tǒng)性評估。

本文旨在填補這一空白，首次對SKP的泛化能力進(jìn)行全面審視，圍繞四個核心維度展開：知識粒度（Granularity）、跨任務(wù)與元素的可遷移性（Transferability）、可擴(kuò)展性（Scalability）以及對不同LLM的普適性（Universality）。為此，作者構(gòu)建了一個全新的多粒度、多難度基準(zhǔn)測試集 SUBARU 來支撐這項評估。

二、方法 2.1 結(jié)構(gòu)化提示的工作流程

SKP的核心目標(biāo)是將知識圖譜（KG）的結(jié)構(gòu)化信息高效注入大型語言模型，以提升其事實準(zhǔn)確性。其工作流程分為三步：

知識抽取與編碼：給定用戶查詢，從外部知識圖譜中檢索相關(guān)元素（實體、關(guān)系或子圖）。通過預(yù)訓(xùn)練的結(jié)構(gòu)編碼器如 TransE、R-GCN）將每個元素轉(zhuǎn)化為向量嵌入。

表示空間對齊：由于 KG 嵌入與 LLM 的文本表示空間存在異構(gòu)性，需通過適配器（Adapter）進(jìn)行映射。適配器將結(jié)構(gòu)嵌入轉(zhuǎn)換為與 LLM 詞向量維度對齊的提示 token

對于單個提示token而言，整個過程可以表示為：

論文測試了四類適配器：單層全連接（FC）、多層感知機(jī)（MLP）、混合專家（MoE）和 QFormer。

LLM 協(xié)同推理：生成的提示 token 序列與原始查詢拼接，輸入凍結(jié)的 LLM。LLM 基于聯(lián)合輸入生成答案：

訓(xùn)練時僅優(yōu)化適配器參數(shù)，損失函數(shù)為標(biāo)準(zhǔn)的Next-token Prediction損失

2.2 SUBARU數(shù)據(jù)集的構(gòu)建邏輯

為系統(tǒng)性評估 SKP 的泛化能力，作者設(shè)計了 SUBARU 基準(zhǔn)，其構(gòu)建遵循兩個核心原則：多粒度知識覆蓋與任務(wù)難度分層。SUBARU設(shè)計了三種不同的任務(wù)粒度和三種不同的任務(wù)難度。

三種粒度：

實體級（EG）
三元組級（TG）
子圖級（SG）

三種難度：

分類（CLS）
選擇（MC）
描述（DESC）

實例采樣。首先，我們從KG中按不同粒度采樣實體/三元組/子圖實例，以準(zhǔn)備不同的任務(wù)。對于EG任務(wù)，我們采樣大約2萬個具有充分描述的實體，比例為8:1:1。對于TG任務(wù)，我們使用CoDeX-M三元組的拆分來構(gòu)建數(shù)據(jù)集。對于SG任務(wù)，我們從EG任務(wù)中選擇實體，然后隨機(jī)采樣它們的一跳和二跳鄰域以構(gòu)建子圖。同時，每個任務(wù)都有特定設(shè)置。對于CLS任務(wù)，我們將一個實體ID與其真實的簡短名稱視為正例。對于TG和SG，我們將從現(xiàn)有KG中采樣的每個三元組和子圖視為正例。

我們進(jìn)一步通過隨機(jī)擾動生成負(fù)樣本，保持1:1的比例。在MC任務(wù)中，我們?yōu)槊總€實例采樣四個選擇：對于EG，我們預(yù)測實體名稱；對于TG和SG，我們預(yù)測缺失的實體。TG-MC中的缺失實體預(yù)測類似于傳統(tǒng)的KGC任務(wù)，預(yù)測給定查詢(h, r, ?)中的缺失尾實體。對于SG，查詢提供一個子圖，其中缺少一個核心實體，要求預(yù)測子圖中缺失的實體。對于DESC任務(wù)，實體、三元組和子圖的描述作為生成的目標(biāo)。實體和三元組的描述直接來自CoDeX數(shù)據(jù)集，而子圖描述是使用{GPT-3.5-turbo}生成的。

提示生成。從CoDeX KG中采樣后，我們通過為每個任務(wù)應(yīng)用手工編寫的指令提示I來創(chuàng)建特定任務(wù)的實例，將這些實例轉(zhuǎn)換為文本格式以便進(jìn)一步評估。遵循現(xiàn)有的范式，我們將SKP放置在輸入序列的前面，向LLM提供來自KG的結(jié)構(gòu)化信息。為了客觀評估模型利用這些SKP的能力，我們?nèi)コ酥噶钅０逯邢嚓P(guān)元素的重要文本信息，使模型主要依靠SKP而不是文本來完成任務(wù)，以評估SKP的利用效果。

三、實驗分析

作者在SUBARU上進(jìn)行了廣泛的實驗，測試了多種結(jié)構(gòu)編碼器和適配器組合，主要使用Llama3-8B作為基礎(chǔ)LLM，并擴(kuò)展到其他LLM驗證普適性。核心發(fā)現(xiàn)如下：

知識粒度（RQ1）：實驗表明，MLP適配器在絕大多數(shù)任務(wù)中表現(xiàn)最佳，甚至優(yōu)于更復(fù)雜的QFormer或MoE。SKP在粗粒度推理（三元組級/TG和子圖級/SG的多選問答/MC任務(wù)）上表現(xiàn)出色，說明它能有效整合子圖或三元組級別的結(jié)構(gòu)化信息輔助LLM決策。然而，SKP在細(xì)粒度理解上存在明顯局限：它幾乎完全無法完成實體級描述生成（EG-DESC）任務(wù)，表明LLM無法僅憑SKP準(zhǔn)確識別和理解新的、未見過的實體細(xì)節(jié)。案例研究進(jìn)一步證實，SKP模型生成的子圖描述能捕捉大致語義關(guān)聯(lián)（如職業(yè)、領(lǐng)域），但無法精確復(fù)現(xiàn)關(guān)鍵實體名稱。

可遷移性（RQ2）：評估跨任務(wù)遷移性時發(fā)現(xiàn)，混合訓(xùn)練來自不同粒度或難度的任務(wù)數(shù)據(jù)，對提升目標(biāo)任務(wù)性能幫助有限，表明當(dāng)前SKP架構(gòu)的跨任務(wù)泛化能力不強。但在處理新元素（如新實體）方面，三元組級任務(wù)（TG-MC）展現(xiàn)了令人鼓舞的結(jié)果：模型在預(yù)測涉及未見實體的三元組時，性能接近其在已知實體上的表現(xiàn)，且訓(xùn)練數(shù)據(jù)中涵蓋更多實體有助于提升這種歸納能力。

可擴(kuò)展性（RQ3）：研究適配器深度（MLP層數(shù)）的影響發(fā)現(xiàn)，性能并非隨深度單調(diào)增長。3-4層的MLP通常能達(dá)到最佳效果，更深層可能導(dǎo)致性能下降。這表明適配器存在一個舒適區(qū)，過深的網(wǎng)絡(luò)在當(dāng)前數(shù)據(jù)規(guī)模下可能引入不必要的復(fù)雜性或訓(xùn)練難度。

普適性（RQ4）：SKP范式被證明具有較好的模型無關(guān)性。在Llama2-7B、Llama3-8B和Mistral-7B等不同架構(gòu)的LLM上應(yīng)用SKP，整體性能趨勢保持一致，盡管不同LLM間存在微小差異。這證實了SKP作為一種增強LLM知識能力的通用方法是可行的。

案例分析：

在我們在SUBARU基準(zhǔn)測試中設(shè)計的三個難度級別中，分類（CLS）和多選問答（MC）任務(wù)能提供明確的答案和量化指標(biāo)，便于精確比較模型性能。然而，對于子圖描述生成（DESC）任務(wù)而言，評估生成文本的質(zhì)量更具主觀性。因此，本節(jié)通過案例研究分析SKP模型在描述子圖結(jié)構(gòu)時的能力。本案例研究的目的并非比較不同SKP模型的性能差異，而是揭示其在描述中存在的共性特征。

如圖5所示，我們展示了一個簡單案例：提供標(biāo)準(zhǔn)答案（Golden Answer）與多個不同SKP模型的預(yù)測結(jié)果（均以人工描述形式呈現(xiàn)）。通過觀察可得出以下兩點關(guān)鍵結(jié)論：

所有SKP模型均無法準(zhǔn)確識別中心實體，這突顯了SKP在傳遞高度精確和個性化信息上的能力缺失。這也解釋了為何表2中所有SKP模型均在實體級描述任務(wù)（EG DESC）中失敗——該任務(wù)要求精確識別實體。
SKP模型展現(xiàn)出對粗粒度知識的理解能力：模型能捕捉輸入SKP中實體與關(guān)系的語義關(guān)聯(lián)，并在生成文本中體現(xiàn)理解。優(yōu)秀的預(yù)測結(jié)果可解碼出SKP中隱含的信息（如職業(yè)、專業(yè)領(lǐng)域、國籍、技能等）。

綜上可知，SKP能為LLMs提供粗粒度信息以大致理解子圖結(jié)構(gòu)，卻難以處理細(xì)節(jié)信息（如具體名稱、地點或?qū)I(yè)術(shù)語）。盡管SKP擅長識別實體屬性等宏觀知識，但其缺乏對細(xì)粒度細(xì)節(jié)的認(rèn)知能力?？紤]到文本生成與深層理解是LLMs的核心能力，我們認(rèn)為未來SKP的改進(jìn)應(yīng)聚焦于通過額外的提示token激活更精確、細(xì)粒度的信息。

四、結(jié)論

本研究首次對結(jié)構(gòu)化知識提示（SKP）范式進(jìn)行了系統(tǒng)性的泛化能力評估。核心結(jié)論是：當(dāng)前的SKP方法（尤其是結(jié)合MLP適配器）能有效地為LLMs注入粗粒度的結(jié)構(gòu)化知識，顯著提升其在子圖和三元組級別推理任務(wù)（如知識圖譜補全、多選問答）上的表現(xiàn)。然而，研究也揭示了其關(guān)鍵局限性：無法實現(xiàn)細(xì)粒度的、精確的事實感知，特別是在理解和描述新實體方面能力欠缺；跨任務(wù)遷移性較弱；適配器的可擴(kuò)展性也存在邊界（3-4層最佳）。

這些發(fā)現(xiàn)對領(lǐng)域發(fā)展具有重要意義：它們解釋了現(xiàn)有SKP方法在特定任務(wù)（如QA, KGC）上成功的原因（擅長粗粒度推理），同時也為未來研究指明了方向——需要設(shè)計更先進(jìn)的SKP方法，以突破其細(xì)粒度理解和新元素泛化的瓶頸，從而更全面地提升LLM的事實準(zhǔn)確性。

作者：張溢弛來源：公眾號【知識引擎實驗室-ZJU】

llustration From IconScout By IconScout Store

-The End-

本周上新！

掃碼觀看！

“AI技術(shù)流”原創(chuàng)投稿計劃

TechBeat是由將門創(chuàng)投建立的AI學(xué)習(xí)社區(qū)（www.techbeat.net）。社區(qū)上線700+期talk視頻，3000+篇技術(shù)干貨文章，方向覆蓋CV/NLP/ML/Robotis等；每月定期舉辦頂會及其他線上交流活動，不定期舉辦技術(shù)人線下聚會交流活動。我們正在努力成為AI人才喜愛的高質(zhì)量、知識型交流平臺，希望為AI人才打造更專業(yè)的服務(wù)和體驗，加速并陪伴其成長。

投稿內(nèi)容

// 最新技術(shù)解讀/系統(tǒng)性知識分享 //

// 前沿資訊解說/心得經(jīng)歷講述 //

投稿須知

稿件需要為原創(chuàng)文章，并標(biāo)明作者信息。

我們會選擇部分在深度技術(shù)解析及科研心得方向，對用戶啟發(fā)更大的文章，做原創(chuàng)性內(nèi)容獎勵

投稿方式

發(fā)送郵件到

michellechang@thejiangmen.com

或添加工作人員微信（michelle333_）投稿，溝通投稿詳情

關(guān)于我“門”

將門是一家以專注于數(shù)智核心科技領(lǐng)域的新型創(chuàng)投機(jī)構(gòu)，也是北京市標(biāo)桿型孵化器。公司致力于通過連接技術(shù)與商業(yè)，發(fā)掘和培育具有全球影響力的科技創(chuàng)新企業(yè)，推動企業(yè)創(chuàng)新發(fā)展與產(chǎn)業(yè)升級。

將門成立于2015年底，創(chuàng)始團(tuán)隊由微軟創(chuàng)投在中國的創(chuàng)始團(tuán)隊原班人馬構(gòu)建而成，曾為微軟優(yōu)選和深度孵化了126家創(chuàng)新的技術(shù)型創(chuàng)業(yè)公司。

如果您是技術(shù)領(lǐng)域的初創(chuàng)企業(yè)，不僅想獲得投資，還希望獲得一系列持續(xù)性、有價值的投后服務(wù)，歡迎發(fā)送或者推薦項目給我“門”:

bp@thejiangmen.com

點擊右上角，把文章分享到朋友圈

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.