国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

句子級(jí)溯源+生成式歸因,C2-Cite重塑大模型可信度

0
分享至



在人工智能快速發(fā)展的今天,大語言模型已經(jīng)深入到我們工作和生活的方方面面。然而,如何讓AI生成的內(nèi)容更加可信、可追溯,一直是學(xué)術(shù)界和工業(yè)界關(guān)注的焦點(diǎn)問題。想象一下,當(dāng)你向ChatGPT提問時(shí),它不僅給出答案,還能像學(xué)術(shù)論文一樣標(biāo)注每句話的信息來源——這就是"溯源大語言模型"要解決的核心問題。

北郵百家AI團(tuán)隊(duì)聯(lián)合小米大模型團(tuán)隊(duì)提出的溯源大模型C2-Cite,首創(chuàng)上下文感知的歸因生成技術(shù),不僅能讓大模型在生成內(nèi)容時(shí)自動(dòng)標(biāo)注精準(zhǔn)的信息來源,更能確保生成內(nèi)容與引用的外部知識(shí)高度語義對(duì)齊,實(shí)現(xiàn)每一處表述都有溯源依據(jù)、與參考來源深度協(xié)同,從根本上解決大模型生成內(nèi)容的可信度問題。該工作已被國際頂級(jí)會(huì)議WSDM 2026收錄。C2-Cite針對(duì)現(xiàn)有歸因模型存在的關(guān)鍵缺陷,通過引入"上下文感知"機(jī)制,讓引用標(biāo)記從被動(dòng)的占位符轉(zhuǎn)變?yōu)閹в猩舷挛恼Z義的特殊令牌,顯著提升了引用質(zhì)量和模型回答準(zhǔn)確性。



  • 論文標(biāo)題:

C2-Cite:Contextual-Aware Citation Generation for Attributed Large Language Models

  • 論文鏈接:

https://github.com/BAI-LAB/c2cite/blob/main/paper_wsdm_c2cite.pdf

  • 代碼倉庫:

https://github.com/BAI-LAB/c2cite

引言

在信息爆炸的時(shí)代,大語言模型雖然能夠生成流暢的文本,但"幻覺"問題(即生成虛假或不準(zhǔn)確的內(nèi)容)始終困擾著研究者。為了增強(qiáng)模型輸出的可信度,研究人員提出了歸因技術(shù)——在生成內(nèi)容中添加明確的引用標(biāo)記(如[1]、[2]),將每句話鏈接到具體的信息源。然而現(xiàn)有歸因模型存在顯著缺陷:

1.技術(shù)路徑存在固有局限:上下文學(xué)習(xí)歸因(P-ICL/I-ICL)依賴提示工程或迭代檢索,耗時(shí)且泛化性弱;指令微調(diào)歸因過度依賴高質(zhì)量訓(xùn)練數(shù)據(jù),缺乏對(duì)引用上下文的主動(dòng)關(guān)聯(lián),大大削弱大模型的溯源能力;事后歸因(Post-Hoc)采用兩階段處理,難以精確到句子級(jí)別,缺乏內(nèi)在歸因能力。

2.引用標(biāo)記淪為“通用占位符”:現(xiàn)有模型未賦予引用標(biāo)記(如 [i])上下文語義,僅將其視為無意義符號(hào),導(dǎo)致引用與所指內(nèi)容脫節(jié)、知識(shí)整合效果差;

3.引用質(zhì)量與回答準(zhǔn)確性失衡:部分模型雖能提升引用精準(zhǔn)度,但會(huì)破壞回答的語義連貫性和正確性;另一部分模型則因引用混亂,難以支撐回答可信度;

這些問題導(dǎo)致現(xiàn)有模型要么引用錯(cuò)誤/ 虛構(gòu)、溯源失效,要么回答邏輯斷裂、準(zhǔn)確性下滑,難以同時(shí)滿足 “引用可信” 與 “回答有效” 的核心需求。

C2-Cite溯源機(jī)制

為解決上述缺陷,北郵百家AI團(tuán)隊(duì)聯(lián)合小米提出上下文感知的溯源大模型框架(C2-Cite),核心思路是通過“上下文語義融入” 讓引用標(biāo)記從被動(dòng)占位符轉(zhuǎn)變?yōu)閹в忻鞔_語義指向的主動(dòng)知識(shí)指針,具體包含三大關(guān)鍵組件:

1.上下文感知嵌入機(jī)制(Contextual-Aware Embedding):將多令牌引用標(biāo)記(如“[i]”)標(biāo)準(zhǔn)化為單一引用符號(hào)令牌(如“?>”),并通過均值池化計(jì)算對(duì)應(yīng)檢索文檔的語義嵌入,替換傳統(tǒng)無意義占位符嵌入,使引用標(biāo)記攜帶所指文檔的語義信息;

2.上下文引用對(duì)齊機(jī)制Contextual Citation Alignment:引入引用路由器(二進(jìn)制分類器)區(qū)分默認(rèn)令牌與引用令牌,分別優(yōu)化兩類令牌的損失函數(shù)—— 默認(rèn)令牌采用交叉熵?fù)p失保證回答流暢性,引用令牌通過語義相似度匹配實(shí)現(xiàn)與檢索文檔的精準(zhǔn)對(duì)齊;

3.上下文注意力增強(qiáng)機(jī)制:通過距離衰減系數(shù)和注意力約束,放大后續(xù)生成令牌對(duì)先前引用令牌的關(guān)注度,維持引用與內(nèi)容的語義連貫性,避免因引用插入導(dǎo)致回答邏輯斷裂。

模型最終損失函數(shù)為默認(rèn)損失、引用對(duì)齊損失、路由器損失與注意力增強(qiáng)損失的加權(quán)和,確保引用質(zhì)量與回答準(zhǔn)確性的協(xié)同優(yōu)化。



實(shí)驗(yàn)

研究團(tuán)隊(duì)在ALCE基準(zhǔn)測(cè)試的三個(gè)數(shù)據(jù)集(ASQA、ELI5、QAMPARI)上進(jìn)行了全面評(píng)估,對(duì)比了多種主流歸因方法

3.1 主實(shí)驗(yàn)結(jié)果



實(shí)驗(yàn)結(jié)果令人振奮:

  • 引用質(zhì)量大幅提升:C2-Cite++在引用F1分?jǐn)?shù)上平均提升5.8%
  • 回答準(zhǔn)確性顯著增強(qiáng):在回答正確性指標(biāo)上平均提升17.4%
  • 泛化能力強(qiáng):在不同質(zhì)量的訓(xùn)練數(shù)據(jù)(SynSciQA 系列)上均表現(xiàn)穩(wěn)定,即使使用普通訓(xùn)練數(shù)據(jù)也能超越依賴高質(zhì)量數(shù)據(jù)的傳統(tǒng)微調(diào)模型。

3.2 效率分析

在保證效果的同時(shí),C2-Cite++還展現(xiàn)出卓越的計(jì)算效率。吞吐量(每秒處理樣本數(shù))測(cè)試顯示,相比需要多輪迭代的方法(如Blueprint),C2-Cite++實(shí)現(xiàn)了最高的處理速度,在實(shí)際應(yīng)用中具有明顯優(yōu)勢(shì)。



3.3溯源生成模型中注意力模式的轉(zhuǎn)變

注意力熱力圖可視化,直觀展示了C2-Cite的工作機(jī)制。在原生LLM中,引用符號(hào)前后的句子幾乎沒有交互;而在C2-Cite中,后續(xù)句子對(duì)前文的注意力顯著增強(qiáng),形成了緊密的語義連接。這種"跨引用的語義橋梁"正是模型生成高質(zhì)量溯源內(nèi)容的關(guān)鍵。



總結(jié)

C2-Cite框架通過"上下文感知"這一核心理念,成功解決了現(xiàn)有歸因大語言模型的關(guān)鍵痛點(diǎn):

  • 從符號(hào)到語義:將引用標(biāo)記從被動(dòng)占位符轉(zhuǎn)化為主動(dòng)知識(shí)指針
  • 精準(zhǔn)對(duì)齊:通過路由機(jī)制確保引用編號(hào)與文檔內(nèi)容的準(zhǔn)確匹配
  • 語義連貫:利用注意力增強(qiáng)保持引用前后內(nèi)容的流暢性
  • 雙重優(yōu)化:同時(shí)提升引用質(zhì)量和回答準(zhǔn)確性,而非顧此失彼

最后,僅僅優(yōu)化訓(xùn)練數(shù)據(jù)是不夠的,大模型的溯源能力需設(shè)計(jì)有效的學(xué)習(xí)機(jī)制。相比于復(fù)雜的數(shù)據(jù)合成流程,C2-Cite通過其"上下文感知"的設(shè)計(jì)思想,在內(nèi)容生成的過程依賴可靠的引用知識(shí)庫,為構(gòu)建更加可靠、透明的AI溯源系統(tǒng)提供了重要的技術(shù)路徑。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
隨著一場(chǎng)奪冠 斯諾克最新排名:丁俊暉升第14 趙心童第5中國一哥

隨著一場(chǎng)奪冠 斯諾克最新排名:丁俊暉升第14 趙心童第5中國一哥

削桐作琴
2026-03-02 17:17:08
男子愛吃蒸蘋果3個(gè)月后去體檢,體檢結(jié)果出來后,納悶:吃的啥?

男子愛吃蒸蘋果3個(gè)月后去體檢,體檢結(jié)果出來后,納悶:吃的啥?

路醫(yī)生健康科普
2026-03-02 17:31:11
中方呼吁美以立即停止對(duì)伊軍事行動(dòng)

中方呼吁美以立即停止對(duì)伊軍事行動(dòng)

看看新聞Knews
2026-03-01 12:31:25
“整個(gè)寒假都不弄,開學(xué)了帶孩子整牙!”二百萬媽媽又火了!

“整個(gè)寒假都不弄,開學(xué)了帶孩子整牙!”二百萬媽媽又火了!

知曉科普
2026-02-28 20:17:30
430分生死戰(zhàn)!鄭欽文亮出隱藏殺招,新教練能否救贖23位危機(jī)?

430分生死戰(zhàn)!鄭欽文亮出隱藏殺招,新教練能否救贖23位危機(jī)?

卿子書
2026-03-02 09:48:37
美國對(duì)中國滲透沒白費(fèi),扶持的“內(nèi)鬼”,終于開始在中國露頭了

美國對(duì)中國滲透沒白費(fèi),扶持的“內(nèi)鬼”,終于開始在中國露頭了

歷史求知所
2025-12-01 11:30:06
原來他已去世9年,45歲離世留下年幼孩子,王寶強(qiáng)張譯葬禮上痛哭

原來他已去世9年,45歲離世留下年幼孩子,王寶強(qiáng)張譯葬禮上痛哭

白面書誏
2026-03-02 17:21:56
突發(fā)要聞!中國通告全球:王毅同伊朗外長(zhǎng)阿拉格齊通電話

突發(fā)要聞!中國通告全球:王毅同伊朗外長(zhǎng)阿拉格齊通電話

科技處長(zhǎng)
2026-03-02 22:17:02
美國中央司令部稱正持續(xù)空襲伊朗

美國中央司令部稱正持續(xù)空襲伊朗

每日經(jīng)濟(jì)新聞
2026-03-02 11:39:51
48小時(shí)送走哈梅內(nèi)伊:令人恐怖的技術(shù)代差,現(xiàn)代戰(zhàn)爭(zhēng)的形態(tài)變了

48小時(shí)送走哈梅內(nèi)伊:令人恐怖的技術(shù)代差,現(xiàn)代戰(zhàn)爭(zhēng)的形態(tài)變了

黑企鵝觀察
2026-03-01 14:40:34
清華大學(xué)副校長(zhǎng):要求大一至大三學(xué)生每學(xué)期至少完成24次課外鍛煉 不會(huì)游泳不能畢業(yè)

清華大學(xué)副校長(zhǎng):要求大一至大三學(xué)生每學(xué)期至少完成24次課外鍛煉 不會(huì)游泳不能畢業(yè)

紅星新聞
2026-02-27 16:40:25
伊朗越打越猛,14座美軍基地遇襲,數(shù)百名美軍死傷?特朗普急了

伊朗越打越猛,14座美軍基地遇襲,數(shù)百名美軍死傷?特朗普急了

墨羽怪談
2026-03-02 21:30:37
知名主持人暴瘦到認(rèn)不出,五年進(jìn)4次ICU,病重時(shí)前妻分走大半財(cái)產(chǎn)

知名主持人暴瘦到認(rèn)不出,五年進(jìn)4次ICU,病重時(shí)前妻分走大半財(cái)產(chǎn)

夢(mèng)錄的西方史話
2026-03-02 16:28:20
又有5國參戰(zhàn)!中東亂成一鍋粥,美媒再爆料:沙特欺騙了全世界

又有5國參戰(zhàn)!中東亂成一鍋粥,美媒再爆料:沙特欺騙了全世界

東極妙嚴(yán)
2026-03-02 15:50:51
一只蒼蠅困死整個(gè)大陸?無法種地不能養(yǎng)馬,這才是非洲的窮根!

一只蒼蠅困死整個(gè)大陸?無法種地不能養(yǎng)馬,這才是非洲的窮根!

你是我心中最美星空
2026-02-27 07:53:59
“戲混子”沒走,比資本家丑孩子更可怕的是“星二代”開始世襲了

“戲混子”沒走,比資本家丑孩子更可怕的是“星二代”開始世襲了

流史歲月
2026-01-26 10:58:30
“以為是六個(gè)博士,結(jié)果是六個(gè)送外賣的!”六個(gè)兒子征婚視頻火了

“以為是六個(gè)博士,結(jié)果是六個(gè)送外賣的!”六個(gè)兒子征婚視頻火了

阿凱銷售場(chǎng)
2026-03-01 01:46:42
MVP沒跑了!他又拿一個(gè)歷史第一!

MVP沒跑了!他又拿一個(gè)歷史第一!

柚子說球
2026-03-02 17:23:11
伊朗革命衛(wèi)隊(duì)宣布大規(guī)模軍事行動(dòng)

伊朗革命衛(wèi)隊(duì)宣布大規(guī)模軍事行動(dòng)

界面新聞
2026-02-28 18:18:55
戲子誤國!2026年剛開年,就有3位明星相繼塌房,個(gè)個(gè)荒唐

戲子誤國!2026年剛開年,就有3位明星相繼塌房,個(gè)個(gè)荒唐

不似少年游
2026-02-24 19:24:23
2026-03-02 23:07:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12395文章數(shù) 142575關(guān)注度
往期回顧 全部

科技要聞

榮耀發(fā)布機(jī)器人手機(jī)、折疊屏、人形機(jī)器人

頭條要聞

美記者詢問就伊朗局勢(shì)中方會(huì)采取什么行動(dòng) 外交部回應(yīng)

頭條要聞

美記者詢問就伊朗局勢(shì)中方會(huì)采取什么行動(dòng) 外交部回應(yīng)

體育要聞

“想要我簽名嗎” 梅西逆轉(zhuǎn)后嘲諷對(duì)手主帥

娛樂要聞

李亞鵬與哥哥和解 只有一條真心話短信

財(cái)經(jīng)要聞

油價(jià)飆升 美伊沖突將如何攪動(dòng)全球經(jīng)濟(jì)

汽車要聞

國民SUV再添一員 瑞虎7L靜態(tài)體驗(yàn)

態(tài)度原創(chuàng)

教育
手機(jī)
時(shí)尚
健康
軍事航空

教育要聞

石室小學(xué)育賢分校:騏驥少年馭“機(jī)”而上 科技體育點(diǎn)亮校園新程

手機(jī)要聞

首款機(jī)器人手機(jī)!榮耀Robot Phone上手:攝像頭竟會(huì)跳舞

女人“會(huì)穿衣”才更美,看看這些穿搭就知道,穿對(duì)了真顯氣質(zhì)

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

軍事要聞

美國中央司令部透露對(duì)伊朗動(dòng)武全部武器裝備清單

無障礙瀏覽 進(jìn)入關(guān)懷版