国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

再不怕亂引文獻(xiàn)!繞過付費(fèi)墻,BibAgent把學(xué)術(shù)核驗(yàn)轉(zhuǎn)為證據(jù)鏈

0
分享至


新智元報(bào)道

編輯:LRST

【新智元導(dǎo)讀】大模型正在批量生成「看起來很像真的」學(xué)術(shù)論述,但這些論述背后的引用,真的成立嗎?更關(guān)鍵的是:當(dāng)被引論文被付費(fèi)墻鎖住、原文根本讀不到時(shí),自動(dòng)化核驗(yàn)是否就注定失效?BIBAGENT給出了一個(gè)極具沖擊力的答案:不破解付費(fèi)墻,也能驗(yàn)證引文語義真?zhèn)巍K状伟选覆豢稍L問原文」從驗(yàn)證終點(diǎn),改寫成一種仍可推理、仍可審計(jì)的證據(jù)場(chǎng)景。

在生成式 AI 全面進(jìn)入科研寫作之后,學(xué)術(shù)世界正在遭遇一個(gè)比「寫得像不像論文」更根本的問題:它引用的文獻(xiàn),究竟有沒有真正支持它說的話?

這并不是吹毛求疵。引用是科學(xué)論證的承重墻,決定一項(xiàng)結(jié)論究竟是建立在證據(jù)之上,還是只是披著文獻(xiàn)外衣的「合理幻覺」。

現(xiàn)實(shí)中,錯(cuò)誤引用并不罕見:把相關(guān)性說成因果,把局部結(jié)果外推為普遍規(guī)律,把綜述包裝成一手實(shí)驗(yàn)依據(jù),甚至直接引用一個(gè)根本無法定位的「幽靈文獻(xiàn)」。

而當(dāng)大模型開始大規(guī)模生成流暢、完整、格式正確的科研文字時(shí),這類問題正在被成倍放大。

于是,一個(gè)看似基礎(chǔ)、其實(shí)極難的問題被推到了臺(tái)前:我們能不能把 citation verification 這件事,真正做成規(guī)?;?、系統(tǒng)化、可追溯的能力?

難點(diǎn)恰恰在于,過去絕大多數(shù)方法都默認(rèn)了一個(gè)并不真實(shí)的前提:被引論文是可以讀到全文的。

可現(xiàn)實(shí)世界里,大量論文被鎖在 publisher paywall 之后。只要原文不可訪問,自動(dòng)化引文核驗(yàn)通常就會(huì)陷入兩難:要么直接放棄,要么依賴零碎的搜索片段和模型腦補(bǔ),給出一個(gè)聽起來有理、實(shí)際上卻并不可靠的判斷。也就是說,最值得被嚴(yán)格審查的那部分引用,長期恰恰處在自動(dòng)化驗(yàn)證的盲區(qū)里。

BIBAGENT 的真正突破,就從這里開始。


論文鏈接:https://arxiv.org/abs/2601.16993

不是「查引用」

而是「驗(yàn)引用語義」

很多相關(guān)工作做的是 citation classification,或者只回答一個(gè)很粗的問題:這條引用看起來「像不像支持」這句話。

但BIBAGENT要處理的是更難、也更接近真實(shí)學(xué)術(shù)審稿的問題:一條引用究竟有沒有被正確使用?如果錯(cuò)了,錯(cuò)在什么層級(jí)?證據(jù)又在哪里?

為了讓這個(gè)問題可以被系統(tǒng)地定義和評(píng)測(cè),論文先提出了一套統(tǒng)一的五類 miscitation taxonomy,把過去籠統(tǒng)的「壞引用」拆成五種具有操作性的錯(cuò)誤類型:

  • Attribution & Traceability:引用本身無法可靠追溯,例如 ghost citation、作者或來源錯(cuò)配;

  • Citation Validity:文獻(xiàn)本身不應(yīng)再被當(dāng)作當(dāng)前主張的有效證據(jù),例如撤稿論文、過時(shí)證據(jù)、二手綜述被誤當(dāng)作一手研究;

  • Content Misrepresentation:引用者實(shí)質(zhì)性歪曲、偽造或反轉(zhuǎn)了原文結(jié)論;

  • Scope Extrapolation:原文在特定對(duì)象、任務(wù)或條件下成立,卻被不當(dāng)外推到更廣范圍;

  • Evidence Characterization:對(duì)證據(jù)類型或強(qiáng)度的夸大,例如把相關(guān)性寫成因果,把邊際結(jié)果寫成定論。

這套taxonomy的價(jià)值很大。它讓系統(tǒng)的輸出不再只是一個(gè)模糊的「對(duì)/錯(cuò)」,而是一個(gè)帶有錯(cuò)誤碼、證據(jù)鏈和解釋邏輯的判斷。換句話說,BIBAGENT不是在做「引用格式檢查器」,而是在做引用語義審計(jì)器

把citation verification拆成兩個(gè)世界

BIBAGENT最聰明的地方,在于它沒有把所有引用都塞進(jìn)同一種處理邏輯里,而是非常清楚地承認(rèn):現(xiàn)實(shí)中citation verification天生存在兩個(gè)regime。


原文可訪問:難點(diǎn)不是「能不能看」,而是「能不能找到?jīng)Q定性證據(jù)」

對(duì)于可訪問全文的被引論文,BIBAGENT走的是ACSV(Accessible Cited Source Verifier)分支。它沒有簡單把「引用上下文 + 被引全文」整篇喂給大模型,而是設(shè)計(jì)了一條更像真正審稿過程的漏斗式路徑:

1. 先在被引論文中做高召回的粗檢索,抓出最相關(guān)的段落;

2. 再用cross-encoder精排,把焦點(diǎn)縮小到更小的證據(jù)集合;

3. 隨后用NLI判斷哪些證據(jù)窗口明顯支持、明顯沖突,先解決掉一批簡單樣本;

4. 只有在證據(jù)弱、沖突多、語義依賴上下文時(shí),才把問題送入更強(qiáng)的大模型做深度推理與自一致性表決。

這條鏈路看上去像工程細(xì)節(jié),實(shí)際上恰恰擊中了citation verification的要害:決定一條引用真?zhèn)蔚年P(guān)鍵信息,往往并不在整篇論文里平均分布,而是埋在極少數(shù)局部窗口、限定條件、實(shí)驗(yàn)caveat和邊界描述里。

如果把整篇全文暴力喂給模型,模型確實(shí)可能「讀到了很多東西」,但也更容易被長上下文稀釋、被無關(guān)段落干擾,最后輸出一段流暢卻并不真正grounded的解釋。ACSV的核心價(jià)值,就是把判斷盡可能錨定在小而準(zhǔn)的證據(jù)窗口上。

原文不可訪問:不再「猜原文」,而是重建社區(qū)證據(jù)

真正讓這篇論文一下子拉開層級(jí)的,是ICSV(Inaccessible Cited Source Verifier),也就是它為paywalled source設(shè)計(jì)的驗(yàn)證機(jī)制。


這一步的思想非常漂亮:當(dāng)系統(tǒng)無法直接讀取被引論文 (B) 時(shí),它不再試圖「假裝看過 B」,也不把問題退化成一次脆弱的網(wǎng)頁檢索;相反,它把注意力轉(zhuǎn)向所有后續(xù)引用了 B 的開放論文,去收集這些論文究竟是如何描述B的。

具體來說,ICSV會(huì)先把當(dāng)前citing paper對(duì) (B) 的說法,抽取成一個(gè)盡量自足、明確、去代詞化的原子claim;然后在所有可訪問的下游引用者中,提取它們關(guān)于 (B) 的局部引用語境,再通過語義聚類,把這些描述分成若干「方面」:

例如某篇論文的方法貢獻(xiàn)、數(shù)據(jù)集角色、關(guān)鍵實(shí)驗(yàn)發(fā)現(xiàn)、適用邊界等。接著,系統(tǒng)會(huì)為每個(gè)方面蒸餾出一條規(guī)范化的 canonical evidence statement,并結(jié)合見證論文在本領(lǐng)域內(nèi)的影響力,對(duì)這些證據(jù)做加權(quán)。

論文把這套機(jī)制稱為Evidence Committee。

它本質(zhì)上是在問一個(gè)非常有力量的問題:當(dāng)原文本身不可讀時(shí),學(xué)術(shù)共同體究竟如何在后續(xù)文獻(xiàn)中持續(xù)描述它?

這比簡單搜索一個(gè)摘要、抓一段snippet要可靠得多。因?yàn)樗话褑我凰槠?dāng)成「原文替身」,而是把多個(gè)獨(dú)立下游見證整合成一份帶權(quán)重、帶沖突感知、帶棄權(quán)機(jī)制的「社區(qū)證詞」。

最后,ICSV再把這份證詞與當(dāng)前引用的說法進(jìn)行比對(duì),判斷它是被支持、被反駁,還是證據(jù)不足。

最關(guān)鍵的是,當(dāng)見證論文太少、證據(jù)彼此沖突、社區(qū)記憶并不穩(wěn)定時(shí),系統(tǒng)不會(huì)硬判,而是明確輸出Undecidable。這點(diǎn)極其重要。

它讓BIBAGENT在paywall場(chǎng)景下的能力,不是「神奇猜中原文內(nèi)容」,而是在證據(jù)足夠時(shí)謹(jǐn)慎判斷,在證據(jù)不足時(shí)誠實(shí)棄權(quán)。這正是一個(gè)可信核驗(yàn)系統(tǒng)該有的姿態(tài)。

真正夠硬的benchmark

為了系統(tǒng)評(píng)測(cè)miscitation,論文同時(shí)構(gòu)建了MISCITEBENCH。這是一個(gè)覆蓋254個(gè)JCR學(xué)科類別、21個(gè)高層級(jí)學(xué)科、共6,350條專家校驗(yàn)樣本的大規(guī)模benchmark。

它最值得注意的,不只是「大」,而是「干凈」。作者專門設(shè)計(jì)了knowledge-blank cleanroom protocol:候選論文只有在一組強(qiáng)模型面對(duì)僅給元數(shù)據(jù)的法醫(yī)式提問時(shí)全部回答失敗,才允許進(jìn)入benchmark。

也就是說,MISCITEBENCH有意避免讓模型靠參數(shù)記憶「背題」過關(guān),而是逼著方法真正去做citation-level reasoning。

更進(jìn)一步,論文還確保benchmark與上面的五類taxonomy 一一對(duì)齊。

于是,BIBAGENT 的預(yù)測(cè)空間和 benchmark 的標(biāo)簽空間是統(tǒng)一的:系統(tǒng)不僅要判斷對(duì)錯(cuò),還必須給出錯(cuò)的類型。這使得它的評(píng)測(cè)目標(biāo)更加接近真實(shí)科研審稿,而不是一個(gè)過于抽象的「支持/反駁」二分類。

結(jié)果非常硬:可訪問場(chǎng)景更準(zhǔn)更省,不可訪問場(chǎng)景第一次真正能做


MisciteBench-Open上,也就是被引論文全文可訪問的場(chǎng)景,BIBAGENT相比同backbone的full-text baseline,準(zhǔn)確率提升+5.7到+19.8個(gè)點(diǎn),同時(shí)節(jié)省44.6%到79.4%的token消耗。這說明它不是靠「喂更多上下文」暴力取勝,而是靠更貼合問題結(jié)構(gòu)的agentic過程,把引用核驗(yàn)做得更準(zhǔn)、更省、更可解釋。


而在最難、也最有現(xiàn)實(shí)意義的MisciteBench-Paywall上,差距更大。 傳統(tǒng) Search baseline 即便允許外部搜索,在強(qiáng)模型上也只有22.1到36.2的Acc-pass@3;而 BIBAGENT 的 ICSV 分支可以把結(jié)果提升到66.5到80.3。更重要的是,這個(gè)提升不是靠「偶然搜到一段相似文本」,而是來自對(duì)社區(qū)共識(shí)的系統(tǒng)重建。


論文還做了一個(gè)非常關(guān)鍵的可靠性分析:當(dāng)某個(gè) paywalled source 的主導(dǎo)語義方面擁有至少6個(gè)獨(dú)立downstream witnesses時(shí),系統(tǒng)的非棄權(quán)率和條件精度都會(huì)明顯穩(wěn)定下來。這個(gè)結(jié)果并不只是一個(gè)數(shù)字,它揭示了ICSV的可信來源:它依賴的不是某次檢索運(yùn)氣,而是一個(gè)可以觀察、可以解釋的證據(jù)密度閾值。

這篇工作的真正意義:給 AI 時(shí)代的科學(xué)寫作補(bǔ)上一層「可審計(jì)基礎(chǔ)設(shè)施」

BIBAGENT最值得重視的地方,不只是「又做了一個(gè)論文工具」,而是它提出了一個(gè)更深的判斷:在AI 時(shí)代,寫作和驗(yàn)證必須解耦;引用完整性不能繼續(xù)停留在人工抽查,而必須進(jìn)入系統(tǒng)審計(jì)。

它告訴我們,miscitation不是零散的寫作疏漏,而是一個(gè)可以被結(jié)構(gòu)化定義、規(guī)?;瘷z測(cè)、證據(jù)化追溯的問題;它也告訴我們,paywall不應(yīng)該繼續(xù)作為自動(dòng)化科學(xué)核驗(yàn)的絕對(duì)終點(diǎn)。

只要把「直接讀原文」擴(kuò)展為「重建可追溯的社區(qū)證據(jù)」,那些過去被視為無解的場(chǎng)景,其實(shí)可以進(jìn)入一個(gè)可驗(yàn)證、可解釋、可保守棄權(quán)的框架。

換句話說,這篇paper修補(bǔ)的,不是citation format,而是科學(xué)寫作最底層的一條信任鏈:當(dāng)一句學(xué)術(shù)論斷被寫下時(shí),我們終于開始有機(jī)會(huì)系統(tǒng)地追問——這條引用,真的說了你說的那句話嗎?

參考資料:

https://arxiv.org/abs/2601.16993

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
1954 年萬余志愿軍戰(zhàn)俘從臺(tái)灣歸來,蔣經(jīng)國親迎現(xiàn)場(chǎng)落淚失語

1954 年萬余志愿軍戰(zhàn)俘從臺(tái)灣歸來,蔣經(jīng)國親迎現(xiàn)場(chǎng)落淚失語

嘮叨說歷史
2026-04-09 17:41:05
拒演率93%!最寒酸綜藝收官,趙曉卉兩天救場(chǎng)炸翻全場(chǎng):你們裝什么裝?

拒演率93%!最寒酸綜藝收官,趙曉卉兩天救場(chǎng)炸翻全場(chǎng):你們裝什么裝?

可樂談情感
2026-04-12 16:58:49
廣東一男子3年內(nèi)累計(jì)出險(xiǎn)記錄高達(dá)30次!自稱開車時(shí)不會(huì)讓行…

廣東一男子3年內(nèi)累計(jì)出險(xiǎn)記錄高達(dá)30次!自稱開車時(shí)不會(huì)讓行…

廣東活動(dòng)
2026-04-12 12:14:13
真無奈!家長哭訴,孩子英語本科送外賣,工資比很多文職崗位都高

真無奈!家長哭訴,孩子英語本科送外賣,工資比很多文職崗位都高

火山詩話
2026-04-12 10:32:30
古力娜扎:真空上陣是放飛自我還是資本博弈?

古力娜扎:真空上陣是放飛自我還是資本博弈?

娛樂領(lǐng)航家
2026-04-02 21:00:03
快訊!中國海軍遠(yuǎn)洋戰(zhàn)力迎來歷史性突破!

快訊!中國海軍遠(yuǎn)洋戰(zhàn)力迎來歷史性突破!

達(dá)文西看世界
2026-04-12 10:59:04
埃梅里:大馬丁賽前小腿感覺不適;我們正在重新找回信心

埃梅里:大馬丁賽前小腿感覺不適;我們正在重新找回信心

懂球帝
2026-04-13 00:23:38
四處播種的后果!24歲狀元,4個(gè)孩子4位母親,現(xiàn)在又被告上法庭

四處播種的后果!24歲狀元,4個(gè)孩子4位母親,現(xiàn)在又被告上法庭

你的籃球頻道
2026-04-12 08:38:25
缺少5100萬強(qiáng)援,火箭隊(duì)仍超50勝!休賽期2首發(fā)歸隊(duì),奪冠有戲?

缺少5100萬強(qiáng)援,火箭隊(duì)仍超50勝!休賽期2首發(fā)歸隊(duì),奪冠有戲?

梅亭談
2026-04-12 23:23:41
如果沒罰分,中超5強(qiáng)表現(xiàn)怎樣?國安距副班長僅2分,申花仍排第2

如果沒罰分,中超5強(qiáng)表現(xiàn)怎樣?國安距副班長僅2分,申花仍排第2

體壇鑒春秋
2026-04-12 22:52:41
2026年車企“最慘”開局:一季度的目標(biāo)完成度,幾乎都低于20%

2026年車企“最慘”開局:一季度的目標(biāo)完成度,幾乎都低于20%

互聯(lián)網(wǎng).亂侃秀
2026-04-12 11:33:02
魯比奧再撤銷伊朗精英綠卡,將其驅(qū)逐出境,撤銷人數(shù)或高達(dá)4000人

魯比奧再撤銷伊朗精英綠卡,將其驅(qū)逐出境,撤銷人數(shù)或高達(dá)4000人

山河路口
2026-04-12 00:55:26
成都蓉城逆轉(zhuǎn)國安!媒體人熱議:真的要奪冠,蛻變成真正強(qiáng)隊(duì)

成都蓉城逆轉(zhuǎn)國安!媒體人熱議:真的要奪冠,蛻變成真正強(qiáng)隊(duì)

奧拜爾
2026-04-12 21:52:55
2-1絕殺 讓亞洲杯變東亞杯!四強(qiáng)對(duì)陣出爐 中國女足跟日本爭(zhēng)決賽

2-1絕殺 讓亞洲杯變東亞杯!四強(qiáng)對(duì)陣出爐 中國女足跟日本爭(zhēng)決賽

侃球熊弟
2026-04-13 00:02:58
馬伊琍官宣喜訊不到24小時(shí) 文章高調(diào)求“復(fù)合” 姚笛才是笑到最后

馬伊琍官宣喜訊不到24小時(shí) 文章高調(diào)求“復(fù)合” 姚笛才是笑到最后

潮鹿逐夢(mèng)
2026-04-11 14:48:49
深圳大學(xué)擬租800萬元豪宅當(dāng)學(xué)生宿舍?業(yè)主擔(dān)憂:公共資源會(huì)被嚴(yán)重?cái)D占,不愿小區(qū)被貼上“宿舍”標(biāo)簽;網(wǎng)友羨慕:每月幾百元就能住豪宅

深圳大學(xué)擬租800萬元豪宅當(dāng)學(xué)生宿舍?業(yè)主擔(dān)憂:公共資源會(huì)被嚴(yán)重?cái)D占,不愿小區(qū)被貼上“宿舍”標(biāo)簽;網(wǎng)友羨慕:每月幾百元就能住豪宅

大風(fēng)新聞
2026-04-12 15:46:21
廣東戰(zhàn)勝廣廈! 聽聽各界專家媒體怎么說 宏遠(yuǎn)已經(jīng)坐穩(wěn)前四!

廣東戰(zhàn)勝廣廈! 聽聽各界專家媒體怎么說 宏遠(yuǎn)已經(jīng)坐穩(wěn)前四!

體壇熱消息
2026-04-12 21:46:53
47歲智性戀天花板,讓10w網(wǎng)友對(duì)“大女主”祛魅了

47歲智性戀天花板,讓10w網(wǎng)友對(duì)“大女主”祛魅了

英國那些事兒
2026-04-11 23:19:13
為啥淘寶,拼多多幾塊錢的東西還能包郵?看完你就明白了!

為啥淘寶,拼多多幾塊錢的東西還能包郵?看完你就明白了!

呼呼歷史論
2026-04-10 21:17:24
向太勸醒年輕人:沒200萬存款別買車!自己只開二手車錢全投房產(chǎn)

向太勸醒年輕人:沒200萬存款別買車!自己只開二手車錢全投房產(chǎn)

觀魚聽雨
2026-04-11 20:38:34
2026-04-13 01:11:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
14954文章數(shù) 66768關(guān)注度
往期回顧 全部

科技要聞

理想稱遭惡意拉踩,東風(fēng)日產(chǎn):尊重同行

頭條要聞

特朗普:將封鎖任何試圖進(jìn)出霍爾木茲海峽的船只

頭條要聞

特朗普:將封鎖任何試圖進(jìn)出霍爾木茲海峽的船只

體育要聞

創(chuàng)造歷史!五大聯(lián)賽首位女性主教練誕生

娛樂要聞

賭王女兒何超蕸病逝,常年和乳癌斗爭(zhēng)

財(cái)經(jīng)要聞

美伊談判破裂的三大癥結(jié)

汽車要聞

煥新極氪007/007GT上市 限時(shí)19.39萬起

態(tài)度原創(chuàng)

健康
教育
房產(chǎn)
旅游
軍事航空

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

教育要聞

小班教學(xué),9月開校,樹德派校長!這所中學(xué),正在招老師

房產(chǎn)要聞

土地供應(yīng)突然暴跌!2026??跇鞘?,格局大變!

旅游要聞

北京:郁金香迎來盛花期

軍事要聞

美國副總統(tǒng)萬斯:美伊談判未能達(dá)成協(xié)議

無障礙瀏覽 進(jìn)入關(guān)懷版