国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

ACL 2025 | 大模型結(jié)構(gòu)化知識提示的泛化能力研究

0
分享至

本研究系統(tǒng)評估了結(jié)構(gòu)化知識提示(SKP)的泛化能力。結(jié)果表明,現(xiàn)有方法(尤其結(jié)合MLP適配器)可為LLM注入宏觀結(jié)構(gòu)化知識,并提升其在子圖推理和三元組推理任務(wù)上的表現(xiàn)。但其局限性也較明顯:缺乏細(xì)粒度事實感知,對新實體理解不足,跨任務(wù)遷移能力有限,且適配器層數(shù)存在最佳邊界(3–4層)。這些發(fā)現(xiàn)揭示了SKP在特定任務(wù)中表現(xiàn)突出的原因,同時提示未來需突破細(xì)粒度推理和新知識泛化的瓶頸。

論文題目: Have We Designed Generalizable Structural Knowledge Promptings? Systematic Evaluation and Rethinking 論文鏈接: https://arxiv.org/abs/2501.00244 代碼鏈接: https://github.com/zjukg/SUBARU
一、引言

本論文關(guān)注大型語言模型(LLMs)在知識密集型任務(wù)中面臨的關(guān)鍵挑戰(zhàn):事實準(zhǔn)確性不足。雖然結(jié)構(gòu)化知識提示(Structural Knowledge Prompting, SKP)通過將知識圖譜(KGs)的結(jié)構(gòu)化表示整合到LLMs中,顯著提升了如問答和知識圖譜補全等任務(wù)的性能,成為主流范式,如下圖所示,已有的SKP通常用一個結(jié)構(gòu)編碼器+適配器的形式將從KG中提取到的結(jié)構(gòu)化信息注入LLM,但現(xiàn)有研究大多聚焦于特定任務(wù)應(yīng)用,缺乏對SKP范式本身泛化能力的系統(tǒng)性評估。

本文旨在填補這一空白,首次對SKP的泛化能力進(jìn)行全面審視,圍繞四個核心維度展開:知識粒度(Granularity)、跨任務(wù)與元素的可遷移性(Transferability)、可擴(kuò)展性(Scalability) 以及對不同LLM的普適性(Universality)。為此,作者構(gòu)建了一個全新的多粒度、多難度基準(zhǔn)測試集 SUBARU 來支撐這項評估。

二、方法 2.1 結(jié)構(gòu)化提示的工作流程

SKP的核心目標(biāo)是將知識圖譜(KG)的結(jié)構(gòu)化信息高效注入大型語言模型,以提升其事實準(zhǔn)確性。其工作流程分為三步:

知識抽取與編碼: 給定用戶查詢 ,從外部知識圖譜 中檢索相關(guān)元素(實體 、關(guān)系 或子圖)。通過預(yù)訓(xùn)練的結(jié)構(gòu)編碼器 如 TransE、R-GCN)將每個元素轉(zhuǎn)化為向量嵌入。

表示空間對齊: 由于 KG 嵌入與 LLM 的文本表示空間存在異構(gòu)性,需通過適配器(Adapter) 進(jìn)行映射。適配器將結(jié)構(gòu)嵌入轉(zhuǎn)換為與 LLM 詞向量維度對齊的提示 token

對于單個提示token而言,整個過程可以表示為:

論文測試了四類適配器:單層全連接(FC)、多層感知機(jī)(MLP)、混合專家(MoE)和 QFormer。

LLM 協(xié)同推理: 生成的提示 token 序列 與原始查詢 拼接,輸入凍結(jié)的 LLM。LLM 基于聯(lián)合輸入生成答案:

訓(xùn)練時僅優(yōu)化適配器參數(shù),損失函數(shù)為標(biāo)準(zhǔn)的Next-token Prediction損失

2.2 SUBARU數(shù)據(jù)集的構(gòu)建邏輯

為系統(tǒng)性評估 SKP 的泛化能力,作者設(shè)計了 SUBARU 基準(zhǔn),其構(gòu)建遵循兩個核心原則:多粒度知識覆蓋任務(wù)難度分層。SUBARU設(shè)計了三種不同的任務(wù)粒度和三種不同的任務(wù)難度。

三種粒度:

  • 實體級(EG)

  • 三元組級(TG)

  • 子圖級(SG)

三種難度:

  • 分類(CLS)

  • 選擇(MC)

  • 描述(DESC)

實例采樣。首先,我們從KG中按不同粒度采樣實體/三元組/子圖實例,以準(zhǔn)備不同的任務(wù)。對于EG任務(wù),我們采樣大約2萬個具有充分描述的實體,比例為8:1:1。對于TG任務(wù),我們使用CoDeX-M三元組的拆分來構(gòu)建數(shù)據(jù)集。對于SG任務(wù),我們從EG任務(wù)中選擇實體,然后隨機(jī)采樣它們的一跳和二跳鄰域以構(gòu)建子圖。同時,每個任務(wù)都有特定設(shè)置。對于CLS任務(wù),我們將一個實體ID與其真實的簡短名稱視為正例。對于TG和SG,我們將從現(xiàn)有KG中采樣的每個三元組和子圖視為正例。

我們進(jìn)一步通過隨機(jī)擾動生成負(fù)樣本,保持1:1的比例。在MC任務(wù)中,我們?yōu)槊總€實例采樣四個選擇:對于EG,我們預(yù)測實體名稱;對于TG和SG,我們預(yù)測缺失的實體。TG-MC中的缺失實體預(yù)測類似于傳統(tǒng)的KGC任務(wù),預(yù)測給定查詢(h, r, ?)中的缺失尾實體。對于SG,查詢提供一個子圖,其中缺少一個核心實體,要求預(yù)測子圖中缺失的實體。對于DESC任務(wù),實體、三元組和子圖的描述作為生成的目標(biāo)。實體和三元組的描述直接來自CoDeX數(shù)據(jù)集,而子圖描述是使用{GPT-3.5-turbo}生成的。

提示生成。從CoDeX KG中采樣后,我們通過為每個任務(wù)應(yīng)用手工編寫的指令提示I來創(chuàng)建特定任務(wù)的實例,將這些實例轉(zhuǎn)換為文本格式以便進(jìn)一步評估。遵循現(xiàn)有的范式,我們將SKP放置在輸入序列的前面,向LLM提供來自KG的結(jié)構(gòu)化信息。為了客觀評估模型利用這些SKP的能力,我們?nèi)コ酥噶钅0逯邢嚓P(guān)元素的重要文本信息,使模型主要依靠SKP而不是文本來完成任務(wù),以評估SKP的利用效果。

三、實驗分析

作者在SUBARU上進(jìn)行了廣泛的實驗,測試了多種結(jié)構(gòu)編碼器和適配器組合,主要使用Llama3-8B作為基礎(chǔ)LLM,并擴(kuò)展到其他LLM驗證普適性。核心發(fā)現(xiàn)如下:

知識粒度(RQ1):實驗表明,MLP適配器在絕大多數(shù)任務(wù)中表現(xiàn)最佳,甚至優(yōu)于更復(fù)雜的QFormer或MoE。SKP在粗粒度推理(三元組級/TG和子圖級/SG的多選問答/MC任務(wù))上表現(xiàn)出色,說明它能有效整合子圖或三元組級別的結(jié)構(gòu)化信息輔助LLM決策。然而,SKP在細(xì)粒度理解上存在明顯局限:它幾乎完全無法完成實體級描述生成(EG-DESC)任務(wù),表明LLM無法僅憑SKP準(zhǔn)確識別和理解新的、未見過的實體細(xì)節(jié)。案例研究進(jìn)一步證實,SKP模型生成的子圖描述能捕捉大致語義關(guān)聯(lián)(如職業(yè)、領(lǐng)域),但無法精確復(fù)現(xiàn)關(guān)鍵實體名稱。

可遷移性(RQ2):評估跨任務(wù)遷移性時發(fā)現(xiàn),混合訓(xùn)練來自不同粒度或難度的任務(wù)數(shù)據(jù),對提升目標(biāo)任務(wù)性能幫助有限,表明當(dāng)前SKP架構(gòu)的跨任務(wù)泛化能力不強。但在處理新元素(如新實體) 方面,三元組級任務(wù)(TG-MC)展現(xiàn)了令人鼓舞的結(jié)果:模型在預(yù)測涉及未見實體的三元組時,性能接近其在已知實體上的表現(xiàn),且訓(xùn)練數(shù)據(jù)中涵蓋更多實體有助于提升這種歸納能力。

可擴(kuò)展性(RQ3):研究適配器深度(MLP層數(shù))的影響發(fā)現(xiàn),性能并非隨深度單調(diào)增長。3-4層的MLP通常能達(dá)到最佳效果,更深層可能導(dǎo)致性能下降。這表明適配器存在一個舒適區(qū),過深的網(wǎng)絡(luò)在當(dāng)前數(shù)據(jù)規(guī)模下可能引入不必要的復(fù)雜性或訓(xùn)練難度。

普適性(RQ4):SKP范式被證明具有較好的模型無關(guān)性。在Llama2-7B、Llama3-8B和Mistral-7B等不同架構(gòu)的LLM上應(yīng)用SKP,整體性能趨勢保持一致,盡管不同LLM間存在微小差異。這證實了SKP作為一種增強LLM知識能力的通用方法是可行的。

案例分析

在我們在SUBARU基準(zhǔn)測試中設(shè)計的三個難度級別中,分類(CLS) 和多選問答(MC)任務(wù)能提供明確的答案和量化指標(biāo),便于精確比較模型性能。然而,對于子圖描述生成(DESC)任務(wù)而言,評估生成文本的質(zhì)量更具主觀性。因此,本節(jié)通過案例研究分析SKP模型在描述子圖結(jié)構(gòu)時的能力。本案例研究的目的并非比較不同SKP模型的性能差異,而是揭示其在描述中存在的共性特征。

如圖5所示,我們展示了一個簡單案例:提供標(biāo)準(zhǔn)答案(Golden Answer)與多個不同SKP模型的預(yù)測結(jié)果(均以人工描述形式呈現(xiàn))。通過觀察可得出以下兩點關(guān)鍵結(jié)論:

  1. 所有SKP模型均無法準(zhǔn)確識別中心實體,這突顯了SKP在傳遞高度精確和個性化信息上的能力缺失。這也解釋了為何表2中所有SKP模型均在實體級描述任務(wù)(EG DESC)中失敗——該任務(wù)要求精確識別實體。

  2. SKP模型展現(xiàn)出對粗粒度知識的理解能力:模型能捕捉輸入SKP中實體與關(guān)系的語義關(guān)聯(lián),并在生成文本中體現(xiàn)理解。優(yōu)秀的預(yù)測結(jié)果可解碼出SKP中隱含的信息(如職業(yè)、專業(yè)領(lǐng)域、國籍、技能等)。

綜上可知,SKP能為LLMs提供粗粒度信息以大致理解子圖結(jié)構(gòu),卻難以處理細(xì)節(jié)信息(如具體名稱、地點或?qū)I(yè)術(shù)語)。盡管SKP擅長識別實體屬性等宏觀知識,但其缺乏對細(xì)粒度細(xì)節(jié)的認(rèn)知能力??紤]到文本生成與深層理解是LLMs的核心能力,我們認(rèn)為未來SKP的改進(jìn)應(yīng)聚焦于通過額外的提示token激活更精確、細(xì)粒度的信息。

四、結(jié)論

本研究首次對結(jié)構(gòu)化知識提示(SKP)范式進(jìn)行了系統(tǒng)性的泛化能力評估。核心結(jié)論是:當(dāng)前的SKP方法(尤其是結(jié)合MLP適配器)能有效地為LLMs注入粗粒度的結(jié)構(gòu)化知識,顯著提升其在子圖和三元組級別推理任務(wù)(如知識圖譜補全、多選問答)上的表現(xiàn)。然而,研究也揭示了其關(guān)鍵局限性無法實現(xiàn)細(xì)粒度的、精確的事實感知,特別是在理解和描述新實體方面能力欠缺;跨任務(wù)遷移性較弱;適配器的可擴(kuò)展性也存在邊界(3-4層最佳)。

這些發(fā)現(xiàn)對領(lǐng)域發(fā)展具有重要意義:它們解釋了現(xiàn)有SKP方法在特定任務(wù)(如QA, KGC)上成功的原因(擅長粗粒度推理),同時也為未來研究指明了方向——需要設(shè)計更先進(jìn)的SKP方法,以突破其細(xì)粒度理解和新元素泛化的瓶頸,從而更全面地提升LLM的事實準(zhǔn)確性。

作者:張溢弛 來源:公眾號【知識引擎實驗室-ZJU】

llustration From IconScout By IconScout Store

-The End-

本周上新!

掃碼觀看!

“AI技術(shù)流”原創(chuàng)投稿計劃

TechBeat是由將門創(chuàng)投建立的AI學(xué)習(xí)社區(qū)(www.techbeat.net)。社區(qū)上線700+期talk視頻,3000+篇技術(shù)干貨文章,方向覆蓋CV/NLP/ML/Robotis等;每月定期舉辦頂會及其他線上交流活動,不定期舉辦技術(shù)人線下聚會交流活動。我們正在努力成為AI人才喜愛的高質(zhì)量、知識型交流平臺,希望為AI人才打造更專業(yè)的服務(wù)和體驗,加速并陪伴其成長。

投稿內(nèi)容

// 最新技術(shù)解讀/系統(tǒng)性知識分享 //

// 前沿資訊解說/心得經(jīng)歷講述 //

投稿須知

稿件需要為原創(chuàng)文章,并標(biāo)明作者信息。

我們會選擇部分在深度技術(shù)解析及科研心得方向,對用戶啟發(fā)更大的文章,做原創(chuàng)性內(nèi)容獎勵

投稿方式

發(fā)送郵件到

michellechang@thejiangmen.com

或添加工作人員微信(michelle333_)投稿,溝通投稿詳情

關(guān)于我“門”

將門是一家以專注于數(shù)智核心科技領(lǐng)域新型創(chuàng)投機(jī)構(gòu),也是北京市標(biāo)桿型孵化器。 公司致力于通過連接技術(shù)與商業(yè),發(fā)掘和培育具有全球影響力的科技創(chuàng)新企業(yè),推動企業(yè)創(chuàng)新發(fā)展與產(chǎn)業(yè)升級。

將門成立于2015年底,創(chuàng)始團(tuán)隊由微軟創(chuàng)投在中國的創(chuàng)始團(tuán)隊原班人馬構(gòu)建而成,曾為微軟優(yōu)選和深度孵化了126家創(chuàng)新的技術(shù)型創(chuàng)業(yè)公司。

如果您是技術(shù)領(lǐng)域的初創(chuàng)企業(yè),不僅想獲得投資,還希望獲得一系列持續(xù)性、有價值的投后服務(wù),歡迎發(fā)送或者推薦項目給我“門”:

bp@thejiangmen.com

點擊右上角,把文章分享到朋友圈

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
410次開房記錄流出:央企“女老虎”陶荔芳,背后還有多少同伙

410次開房記錄流出:央企“女老虎”陶荔芳,背后還有多少同伙

深度報
2025-12-14 22:36:54
被罵上熱搜后,山姆終于低頭了!這6款下架神物悄悄回來了

被罵上熱搜后,山姆終于低頭了!這6款下架神物悄悄回來了

半身Naked
2026-03-11 20:25:32
于冬被曝欠澳門賭場百萬!律師稱已還清,投了沈騰新片票房已41億

于冬被曝欠澳門賭場百萬!律師稱已還清,投了沈騰新片票房已41億

頭號電影院
2026-03-13 21:56:30
半天11艘船,亮出“中方身份”

半天11艘船,亮出“中方身份”

觀察者網(wǎng)
2026-03-13 23:21:09
北京樓市:用真實的數(shù)據(jù)說話

北京樓市:用真實的數(shù)據(jù)說話

說故事的阿襲
2026-03-14 19:22:02
包養(yǎng)10位情婦,睡覺翻牌生下11個私生子,75歲還在拼命生娃!

包養(yǎng)10位情婦,睡覺翻牌生下11個私生子,75歲還在拼命生娃!

來科點譜
2026-02-16 07:12:06
令人唏噓!5年過去了,曾經(jīng)打進(jìn)東決的五人首發(fā),如今全部離隊!

令人唏噓!5年過去了,曾經(jīng)打進(jìn)東決的五人首發(fā),如今全部離隊!

籃球圈里的那些事
2026-03-14 22:21:15
今年“3·15”晚會將關(guān)注食品安全、公共安全等領(lǐng)域侵害消費者權(quán)益違法行為

今年“3·15”晚會將關(guān)注食品安全、公共安全等領(lǐng)域侵害消費者權(quán)益違法行為

新京報
2026-03-13 22:06:17
楊尚昆和哈梅內(nèi)伊的“三無”會見,楊尚昆說了幾句轉(zhuǎn)身就走

楊尚昆和哈梅內(nèi)伊的“三無”會見,楊尚昆說了幾句轉(zhuǎn)身就走

犀利強哥
2026-03-04 21:40:54
兩艘印度運輸船順利通過霍爾木茲海峽

兩艘印度運輸船順利通過霍爾木茲海峽

界面新聞
2026-03-14 17:42:02
上海人有錢到令人發(fā)指!奢侈品商場斷崖式領(lǐng)先~

上海人有錢到令人發(fā)指!奢侈品商場斷崖式領(lǐng)先~

次元君情感
2026-03-14 19:05:05
趴在中國仁愛礁9000多天的菲律賓軍艦,如今已經(jīng)再也拖不走了!

趴在中國仁愛礁9000多天的菲律賓軍艦,如今已經(jīng)再也拖不走了!

青煙小先生
2026-03-14 10:26:24
致命碰撞!伊以同時吹響總攻號角,終極對決正式打響!

致命碰撞!伊以同時吹響總攻號角,終極對決正式打響!

大嘴說天下
2026-03-13 19:45:52
86:76拿下南蘇丹,中國女籃余下的任務(wù)就一個

86:76拿下南蘇丹,中國女籃余下的任務(wù)就一個

丑蕪
2026-03-14 21:20:45
伊朗女足主帥:國家電視臺把我們定性為戰(zhàn)時叛徒 迫使球員們逃走

伊朗女足主帥:國家電視臺把我們定性為戰(zhàn)時叛徒 迫使球員們逃走

念洲
2026-03-14 06:48:31
低頭了!古巴扛不住重壓與美談判,革命風(fēng)骨終究敗給生存

低頭了!古巴扛不住重壓與美談判,革命風(fēng)骨終究敗給生存

老馬拉車莫少裝
2026-03-13 23:56:24
有沒有人敢爆自己的瓜?網(wǎng)友:確定玩這么大嗎?

有沒有人敢爆自己的瓜?網(wǎng)友:確定玩這么大嗎?

夜深愛雜談
2026-02-18 20:55:58
死亡威脅中,受傷的伊朗最高領(lǐng)袖“亮相”了

死亡威脅中,受傷的伊朗最高領(lǐng)袖“亮相”了

中國新聞周刊
2026-03-13 16:48:07
哈梅內(nèi)伊沒有“遇害”

哈梅內(nèi)伊沒有“遇害”

西樓飲月
2026-03-02 22:33:08
江蘇5歲孫子幼兒園失蹤,2天后背著書包回家,誰料,書包里竟背著20萬現(xiàn)金,爺爺當(dāng)場愣住

江蘇5歲孫子幼兒園失蹤,2天后背著書包回家,誰料,書包里竟背著20萬現(xiàn)金,爺爺當(dāng)場愣住

感覺會火
2026-03-14 14:52:10
2026-03-14 23:04:49
將門創(chuàng)投 incentive-icons
將門創(chuàng)投
加速及投資技術(shù)驅(qū)動型初創(chuàng)企業(yè)
2310文章數(shù) 596關(guān)注度
往期回顧 全部

科技要聞

xAI創(chuàng)始伙伴只剩兩人!馬斯克“痛改前非”

頭條要聞

女孩邊照顧患癌母親邊考研 二戰(zhàn)上岸卻確診癌癥晚期

頭條要聞

女孩邊照顧患癌母親邊考研 二戰(zhàn)上岸卻確診癌癥晚期

體育要聞

NBA唯一巴西球員,增重20KG頂內(nèi)線

娛樂要聞

九成美曝田栩?qū)幵衅诔鲕?AI反轉(zhuǎn)引熱議

財經(jīng)要聞

3·15影子暗訪|神秘的“特供酒”

汽車要聞

吉利銀河M7技術(shù)首秀 實力重構(gòu)主流電混SUV

態(tài)度原創(chuàng)

藝術(shù)
本地
親子
公開課
軍事航空

藝術(shù)要聞

海口江東第一高樓,中國石化打造,形如“鉆石”!

本地新聞

坐標(biāo)北京,過敏季反向遷徒

親子要聞

小龍寶為啥不跟爺爺奶奶玩了?婆婆買蝦怪兒媳婦愛吃,兒子氣跑了

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

特朗普宣布空襲伊石油出口樞紐哈爾克島

無障礙瀏覽 進(jìn)入關(guān)懷版