国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

ACM SIGIR 2025 | SAFT:融合結(jié)構(gòu)感知的Transformer,精準(zhǔn)識別文本交互中的虛實

0
分享至

文本交互網(wǎng)絡(luò)(Textual Interaction Networks, TIN)上的文本交互分類(Textual Interaction Classification, TIC)——用文本描述(如電子商務(wù)評論、社交媒體帖子)對用戶項目交互行為建模的數(shù)據(jù)結(jié)構(gòu)——對于垃圾郵件檢測和欺詐識別等任務(wù)至關(guān)重要。而現(xiàn)有的TIC方法要么無法捕獲上下文文本語義(依賴于TF-IDF等上下文無關(guān)嵌入),要么忽略TIN的二分結(jié)構(gòu)和節(jié)點異構(gòu)性,從而降低性能。

為了解決這個問題,本文提出了SAFT(Structure Aware Transformer),該框架集成了語言和圖形模塊,融合了文本和結(jié)構(gòu)語義,使用線圖注意力( Line Graph Attention, LGA)/門控注意力單元(Gated Attention Units, GAU)作為交互級信號,采用預(yù)訓(xùn)練語言模型(Pretrained Language Models, PLM)作為令牌級信號,通過代理令牌(Proxy Token)耦合,并將TIN的局部/全局拓撲編碼為結(jié)構(gòu)嵌入,設(shè)計高效的圖采樣,為文本交互分類任務(wù)提供了強大而靈活的解決方案。


論文標(biāo)題: SAFT: Structure-aware Transformers for Textual Interaction 論文鏈接: https://arxiv.org/abs/2504.04861
一、背景與面臨的挑戰(zhàn)

在電子商務(wù)、社交媒體和金融領(lǐng)域,用戶與物品之間的交互無處不在,這些交互通常伴隨著文本描述(如商品評論、帖子、交易備注),共同構(gòu)成了一個龐大的文本交互網(wǎng)絡(luò)(TINs)。精準(zhǔn)地對這些交互進行分類,對于識別垃圾評論、金融欺詐、檢測網(wǎng)絡(luò)水軍等任務(wù)至關(guān)重要。然而,現(xiàn)有的解決方案普遍以下問題:

  • 傳統(tǒng)的上下文文本語義(Contextual Text Semantics)依賴于淺層的、與上下文無關(guān)的嵌入(例如Word2Vec),無法捕捉文本中豐富和動態(tài)的語境信息,使得文本語義理解不足。

  • TIN的二分結(jié)構(gòu)(用戶和物品分離)和節(jié)點異構(gòu)性被大多數(shù)為同質(zhì)網(wǎng)絡(luò)量身定制的圖模型忽略。而目前許多方法未能充分利用TINs中用戶和物品之間的二部圖結(jié)構(gòu)和異構(gòu)特性,導(dǎo)致模型性能受限。

  • 現(xiàn)有方法無法實現(xiàn)文本和結(jié)構(gòu)的統(tǒng)一融合,即無法以上下文化、統(tǒng)一的方式將文本語義(微觀、令牌級)和結(jié)構(gòu)信息(宏觀、交互級)整合到TIC中,很難同時捕捉到文本內(nèi)容和結(jié)構(gòu)模式。

如下圖所示的場景中(圖 1),左側(cè)的“網(wǎng)絡(luò)水軍”(Review Bomber)通過同一用戶賬戶發(fā)布大量負面評論,這些評論在網(wǎng)絡(luò)結(jié)構(gòu)上緊密相連(局部結(jié)構(gòu));右側(cè)的“異常交易”則可能表現(xiàn)為連接兩個本無交集的社群,在網(wǎng)絡(luò)中扮演了不尋常的“橋梁”角色(全局結(jié)構(gòu))。但現(xiàn)有方法在分析時往往無法兼顧文本的深層語義與網(wǎng)絡(luò)的拓撲結(jié)構(gòu),導(dǎo)致這類關(guān)鍵模式被忽略。


圖 1 TIN中的局部和全局結(jié)構(gòu)模式 二、方法

為了解決以上的挑戰(zhàn),本文提出了SAFT (Structure-Aware TransFormer) 框架(圖 2),其核心是通過基于Transformer的架構(gòu)統(tǒng)一文本和結(jié)構(gòu)學(xué)習(xí),讓信息在文本的微觀世界(詞語之間)和網(wǎng)絡(luò)的宏觀世界(交互之間)自由流動與融合。SAFT 框架主要通過以下幾個創(chuàng)新模塊實現(xiàn)突破:


圖 2 SAFT的總體框

1. 文本與結(jié)構(gòu)的深度融合:語言模型與圖模型的協(xié)同

SAFT 的核心是一個多層 Transformer 結(jié)構(gòu)。與傳統(tǒng)應(yīng)用不同,它的輸入不僅包含交互的文本內(nèi)容,還為用戶、物品以及網(wǎng)絡(luò)的拓撲結(jié)構(gòu)模式創(chuàng)建了專門的“身份令牌”(Tokens)。這使得強大的預(yù)訓(xùn)練語言模型(PLMs)在處理文本時,能“感知”到這條交互是由“誰”發(fā)出、指向“哪個”物品,以及它在整個網(wǎng)絡(luò)中所處的位置。

2. 宏觀與微觀的橋梁:代理令牌(Proxy Token)

為了讓文本語義和結(jié)構(gòu)信息高效互動,我們引入了一個“代理令牌”。在模型內(nèi)部,它像一個信息中樞:對內(nèi),它聚合來自所有文本詞語的語義;對外,它接收并整合來自用戶、物品和結(jié)構(gòu)層面的宏觀信號。這個設(shè)計有力地促進了跨層次信息的深度耦合。

3. 洞悉網(wǎng)絡(luò)拓撲:創(chuàng)新的結(jié)構(gòu)化編碼

為了讓模型理解交互在網(wǎng)絡(luò)中的“位置感”,我們設(shè)計了兩種高效且有理論依據(jù)的結(jié)構(gòu)嵌入方法:

  • 距離嵌入 (Distance Embedding):基于“電阻距離”(Resistance Distance),它能精確刻畫交互之間的局部連接緊密程度,有效識別像“網(wǎng)絡(luò)水軍”這樣的聚集性模式。

  • 中心性嵌入 (Centrality Embedding):基于“生成樹中心性”(Spanning Centrality),它衡量一個交互在維持整個網(wǎng)絡(luò)連通性中的重要程度,對于發(fā)現(xiàn)像“異常交易”這樣的關(guān)鍵“橋梁”節(jié)點至關(guān)重要。

4. 高效的信息傳遞:LGA / GAU 機制

為了在龐大的交互網(wǎng)絡(luò)中實現(xiàn)高效的信息聚合,我們沒有采用計算成本高昂的全局注意力,而是設(shè)計了基于線路圖注意力(LGA)和門控注意力單元(GAU)的輕量級消息傳遞方案。這使得模型訓(xùn)練不僅效果好,而且速度快,能夠擴展到大規(guī)模網(wǎng)絡(luò)中。

三、實驗驗證

我們在來自 Amazon、Goodreads 和 Google 的8個真實大型數(shù)據(jù)集上進行了廣泛實驗,并將 SAFT 與17個當(dāng)前主流的基準(zhǔn)方法進行了全面對比。

實驗結(jié)果表明,SAFT在所有數(shù)據(jù)集上始終表現(xiàn)最佳,性能全面超越了所有基準(zhǔn)模型(圖 3,圖 4)。 例如,在 Amazon-Apps 數(shù)據(jù)集上,SAFT (LGA) 的 Micro-F1 分?jǐn)?shù)達到了 61.06;在 Google-Hawaii 數(shù)據(jù)集上,SAFT (GAU) 的 Macro-F1 分?jǐn)?shù)達到了 57.72,充分展示了其在融合語義與結(jié)構(gòu)信息方面的卓越能力。


圖 3 TIC在小數(shù)據(jù)集上的性能。最佳結(jié)果以粗體顯示,而最佳基線則以下劃線顯示


圖 4 TIC在中型/大型數(shù)據(jù)集上的性能。最佳結(jié)果以粗體顯示,而最佳基線則以下劃線顯示。OOT(超時)表示該方法無法在1天內(nèi)報告結(jié)果。

此外,我們的消融實驗進一步證實了模型各個創(chuàng)新模塊(如消息傳遞機制、距離嵌入、中心性嵌入)的必要性和有效性,移除任何一個關(guān)鍵組件都會導(dǎo)致模型性能顯著下降(圖 5)。


圖 5 SAFT消融實驗 四、總結(jié)

SAFT通過集成PLM(用于文本語義)和基于圖的模塊(LGA/GAU、結(jié)構(gòu)嵌入)來統(tǒng)一文本和結(jié)構(gòu)學(xué)習(xí),從而解決了TIC的局限性。代理令牌橋接微觀(令牌級)和宏觀(交互級)信號,而高效的采樣和結(jié)構(gòu)編碼使大型TIN具有可擴展性。它不僅能深入理解交互的文本語義,還能敏銳地捕捉其在復(fù)雜網(wǎng)絡(luò)中的局部和全局結(jié)構(gòu)角色。大量的實驗證明,SAFT在文本交互分類任務(wù)上的表現(xiàn)優(yōu)于現(xiàn)有 SOTA (State-of-the-Art) 方法,顯著提升了性能基準(zhǔn)。

未來的工作將沿著以下幾個有前景的方向展開:

  • 擴展至動態(tài)網(wǎng)絡(luò) (Extending to Dynamic Networks): 現(xiàn)實世界的交互網(wǎng)絡(luò)是持續(xù)演變的。未來的研究將致力于把SAFT框架從處理靜態(tài)圖快照擴展到動態(tài)TINs ,使其能夠增量、高效地處理新加入的用戶、物品和交互流,以捕捉時序動態(tài)信息。

  • 融合多模態(tài)信息 (Multi-modal Extensions): 許多交互不僅包含文本,還包含圖像、視頻等信息。因此,另一個重要方向是為SAFT開發(fā)多模態(tài)擴展能力,通過融合視覺、音頻等多源信息,構(gòu)建更全面的交互表示。

  • 探索自監(jiān)督預(yù)訓(xùn)練 (Self-supervised Pre-training): 為了減少對大量標(biāo)注數(shù)據(jù)的依賴 ,未來的工作將探索為SAFT設(shè)計自監(jiān)督預(yù)訓(xùn)練范式。通過在海量無標(biāo)簽的TINs數(shù)據(jù)上進行預(yù)訓(xùn)練,模型可以學(xué)習(xí)到語言和圖結(jié)構(gòu)之間更通用的知識,從而在下游任務(wù)中實現(xiàn)更高的樣本效率和泛化性能。

llustration From IconScout By IconScout Store

-The End-

本周上新!

掃碼觀看!

“AI技術(shù)流”原創(chuàng)投稿計劃

TechBeat是由將門創(chuàng)投建立的AI學(xué)習(xí)社區(qū)(www.techbeat.net)。社區(qū)上線700+期talk視頻,3000+篇技術(shù)干貨文章,方向覆蓋CV/NLP/ML/Robotis等;每月定期舉辦頂會及其他線上交流活動,不定期舉辦技術(shù)人線下聚會交流活動。我們正在努力成為AI人才喜愛的高質(zhì)量、知識型交流平臺,希望為AI人才打造更專業(yè)的服務(wù)和體驗,加速并陪伴其成長。

投稿內(nèi)容

// 最新技術(shù)解讀/系統(tǒng)性知識分享 //

// 前沿資訊解說/心得經(jīng)歷講述 //

投稿須知

稿件需要為原創(chuàng)文章,并標(biāo)明作者信息。

我們會選擇部分在深度技術(shù)解析及科研心得方向,對用戶啟發(fā)更大的文章,做原創(chuàng)性內(nèi)容獎勵

投稿方式

發(fā)送郵件到

michellechang@thejiangmen.com

或添加工作人員微信(michelle333_)投稿,溝通投稿詳情

關(guān)于我“門”

將門是一家以專注于數(shù)智核心科技領(lǐng)域新型創(chuàng)投機構(gòu),也是北京市標(biāo)桿型孵化器。 公司致力于通過連接技術(shù)與商業(yè),發(fā)掘和培育具有全球影響力的科技創(chuàng)新企業(yè),推動企業(yè)創(chuàng)新發(fā)展與產(chǎn)業(yè)升級。

將門成立于2015年底,創(chuàng)始團隊由微軟創(chuàng)投在中國的創(chuàng)始團隊原班人馬構(gòu)建而成,曾為微軟優(yōu)選和深度孵化了126家創(chuàng)新的技術(shù)型創(chuàng)業(yè)公司。

如果您是技術(shù)領(lǐng)域的初創(chuàng)企業(yè),不僅想獲得投資,還希望獲得一系列持續(xù)性、有價值的投后服務(wù),歡迎發(fā)送或者推薦項目給我“門”:

bp@thejiangmen.com


點擊右上角,把文章分享到朋友圈

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
浙江全省正在嚴(yán)查!“不要購買,更不要駕駛”

浙江全省正在嚴(yán)查!“不要購買,更不要駕駛”

極目新聞
2026-03-14 21:37:21
特朗普動起歪腦筋,稱美軍在伊朗打仗,給中國送了一份“大禮”

特朗普動起歪腦筋,稱美軍在伊朗打仗,給中國送了一份“大禮”

空天力量
2026-03-14 19:09:49
隨著廣廈加時輸3分!山東贏9分!上??駝?0分,CBA最新排名大變

隨著廣廈加時輸3分!山東贏9分!上海狂勝50分,CBA最新排名大變

老吳說體育
2026-03-14 22:14:20
第6輪會談美方表態(tài),魯比奧接受邀請將隨特朗普訪華

第6輪會談美方表態(tài),魯比奧接受邀請將隨特朗普訪華

似水流年忘我
2026-03-14 16:25:05
隨著中國女籃86-76勝南蘇丹,世預(yù)賽最新形勢:4隊爭3個出線名額

隨著中國女籃86-76勝南蘇丹,世預(yù)賽最新形勢:4隊爭3個出線名額

小火箭愛體育
2026-03-14 21:32:52
巴拿馬急了:中遠海運,恢復(fù)運營吧

巴拿馬急了:中遠海運,恢復(fù)運營吧

觀察者網(wǎng)
2026-03-14 09:24:05
2025霧霾最嚴(yán)重的十個城市

2025霧霾最嚴(yán)重的十個城市

電工知庫
2026-03-14 15:04:40
農(nóng)民自愿永久退出承包地:2026最新補償標(biāo)準(zhǔn)與辦理流程全說明

農(nóng)民自愿永久退出承包地:2026最新補償標(biāo)準(zhǔn)與辦理流程全說明

現(xiàn)代小青青慕慕
2026-03-14 12:56:29
今年的315,草莓第一個翻車,重金屬農(nóng)殘超標(biāo),敵敵畏隨便用

今年的315,草莓第一個翻車,重金屬農(nóng)殘超標(biāo),敵敵畏隨便用

Mr王的飯后茶
2026-03-14 13:15:36
“戰(zhàn)斧”首次交付日本,中方正告!

“戰(zhàn)斧”首次交付日本,中方正告!

環(huán)球時報國際
2026-03-14 17:02:11
大爭議!F1外媒官號曬合照“裁掉”頒獎嘉賓吳艷妮 做法太low

大爭議!F1外媒官號曬合照“裁掉”頒獎嘉賓吳艷妮 做法太low

醉臥浮生
2026-03-14 15:45:44
淚目了!伊朗向死而生,讓美以最絕望的出現(xiàn)了!

淚目了!伊朗向死而生,讓美以最絕望的出現(xiàn)了!

大嘴說天下
2026-03-14 19:36:56
特朗普越過紅線?美軍空襲伊朗關(guān)鍵而脆弱的“石油心臟” 專家:奪島容易控島難

特朗普越過紅線?美軍空襲伊朗關(guān)鍵而脆弱的“石油心臟” 專家:奪島容易控島難

紅星新聞
2026-03-14 10:18:18
“伊朗想放部分油輪過海峽,前提是石油以人民幣結(jié)算”

“伊朗想放部分油輪過海峽,前提是石油以人民幣結(jié)算”

觀察者網(wǎng)
2026-03-14 08:19:04
我國臺灣問題不談判不退讓不惜一戰(zhàn),哪怕犧牲億人毀城百座城池

我國臺灣問題不談判不退讓不惜一戰(zhàn),哪怕犧牲億人毀城百座城池

瀚霖學(xué)史
2026-03-14 08:58:49
突發(fā):霍爾木茲海峽前哨戰(zhàn)打響!

突發(fā):霍爾木茲海峽前哨戰(zhàn)打響!

西樓飲月
2026-03-14 22:03:05
600年前城磚上出現(xiàn)“劉德華”?南京官方回應(yīng)

600年前城磚上出現(xiàn)“劉德華”?南京官方回應(yīng)

澎湃新聞
2026-03-14 20:02:09
1984年,張宗遜之子張又俠8個多小時拿下松毛嶺:預(yù)備隊還沒上呢

1984年,張宗遜之子張又俠8個多小時拿下松毛嶺:預(yù)備隊還沒上呢

歷史甄有趣
2026-03-13 12:45:14
泰州市監(jiān)委通報,于浩被查

泰州市監(jiān)委通報,于浩被查

上觀新聞
2026-03-14 19:41:03
字節(jié)辟謠「武漢全部被裁」:超2000人base武漢,將加大對湖北投入

字節(jié)辟謠「武漢全部被裁」:超2000人base武漢,將加大對湖北投入

鞭牛士
2026-03-14 12:04:14
2026-03-15 03:31:00
將門創(chuàng)投 incentive-icons
將門創(chuàng)投
加速及投資技術(shù)驅(qū)動型初創(chuàng)企業(yè)
2310文章數(shù) 596關(guān)注度
往期回顧 全部

科技要聞

xAI創(chuàng)始伙伴只剩兩人!馬斯克“痛改前非”

頭條要聞

伊朗船只迫近林肯號航母 美軍連開數(shù)炮全打空

頭條要聞

伊朗船只迫近林肯號航母 美軍連開數(shù)炮全打空

體育要聞

NBA唯一巴西球員,增重20KG頂內(nèi)線

娛樂要聞

九成美曝田栩?qū)幵衅诔鲕?AI反轉(zhuǎn)引熱議

財經(jīng)要聞

3·15影子暗訪|神秘的“特供酒”

汽車要聞

吉利銀河M7技術(shù)首秀 實力重構(gòu)主流電混SUV

態(tài)度原創(chuàng)

親子
健康
家居
游戲
公開課

親子要聞

從"疲憊帶娃"到"從容陪娃":每位家長都能掌握的魔法轉(zhuǎn)變

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

家居要聞

藝術(shù)之家 法式優(yōu)雅

FS社新作終于有新消息!NS2獨占 多人在線

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版