国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

AAAI 2026 | 填補(bǔ)多語言語音幻覺檢測(cè)空白,CCFQA基準(zhǔn)助力評(píng)估大模型跨語言與跨模態(tài)事實(shí)一致性

0
分享至

隨著多模態(tài)大語言模型(MLLMs)在多語言場(chǎng)景中的廣泛應(yīng)用,模型的事實(shí)準(zhǔn)確性問題日益凸顯。然而,現(xiàn)有事實(shí)性評(píng)估基準(zhǔn)主要聚焦英語文本或視覺模態(tài),對(duì)多語言、尤其是語音輸入的評(píng)估仍存在明顯不足。

為此,哈爾濱工業(yè)大學(xué)社會(huì)計(jì)算與交互機(jī)器人研究中心知識(shí)計(jì)算組聯(lián)合鵬城實(shí)驗(yàn)室數(shù)據(jù)智能研究所,提出跨語言跨模態(tài)事實(shí)性基準(zhǔn) CCFQA。該基準(zhǔn)包含覆蓋 8 種語言的平行語音—文本事實(shí)問答數(shù)據(jù),用于系統(tǒng)評(píng)估 MLLMs 在跨語言與跨模態(tài)條件下的事實(shí)一致性。實(shí)驗(yàn)結(jié)果顯示,現(xiàn)有模型在多語言語音問答任務(wù)中表現(xiàn)受限,語音與文本輸入下的回答存在顯著不一致。針對(duì)這一問題,本文提出一種基于少樣本遷移學(xué)習(xí)的改進(jìn)方法,以提升模型的事實(shí)準(zhǔn)確性。該研究已被 AAAI 2026 接收。


論文名稱: CCFQA: A Benchmark for Cross-Lingual and Cross-Modal Speech and Text Factuality Evaluation 論文鏈接: https://arxiv.org/pdf/2508.07295 代碼鏈接: https://github.com/yxduir/ccfqa 數(shù)據(jù)集鏈接: https://huggingface.co/datasets/yxdu/ccfqa
一、引言

隨著多模態(tài)大語言模型(MLLMs)在多語言環(huán)境中的日益普及,確保無幻覺的事實(shí)準(zhǔn)確性變得尤為重要。然而,現(xiàn)有評(píng)估可靠性的基準(zhǔn)主要集中在以英語為主的文本或視覺模態(tài),這導(dǎo)致在處理多語言輸入(尤其是語音)時(shí)存在評(píng)估空白。

為彌補(bǔ)這一不足,哈爾濱工業(yè)大學(xué)社會(huì)計(jì)算與交互機(jī)器人研究中心知識(shí)計(jì)算組和鵬城實(shí)驗(yàn)室數(shù)據(jù)智能研究所聯(lián)合發(fā)布跨語言跨模態(tài)事實(shí)性基準(zhǔn)(CCFQA),以推動(dòng)具備更可靠語音理解能力的MLLMs發(fā)展。該基準(zhǔn)包含涵蓋8種語言的平行語音-文本事實(shí)問答數(shù)據(jù)集,旨在系統(tǒng)評(píng)估MLLMs的跨語言與跨模態(tài)事實(shí)性一致性能力。

實(shí)驗(yàn)結(jié)果表明,當(dāng)前多模態(tài)大語言模型在CCFQA基準(zhǔn)上仍面臨顯著挑戰(zhàn),尤其是在多語言語音問答任務(wù)中表現(xiàn)有待提升,模型對(duì)語音與文本輸入的回復(fù)存在明顯不一致。針對(duì)MLLMs的跨語言與跨模態(tài)事實(shí)不一致問題,本文提出了一種基于少樣本遷移學(xué)習(xí)的改進(jìn)策略,旨在增強(qiáng)模型的事實(shí)準(zhǔn)確性。該論文現(xiàn)已被AAAI 2026錄用。


圖1:MLLM中的事實(shí)性不一致(a)對(duì)同一問題,不同語言回復(fù)的答案不一致;(b)對(duì)同一問題,不同模態(tài)輸入的答案不一致。 二、CCFQA基準(zhǔn)介紹 2.1 事實(shí)性基準(zhǔn)

事實(shí)性基準(zhǔn)作為評(píng)幻覺的有效工具受到越來越多關(guān)注。如表1所示,當(dāng)前基準(zhǔn)側(cè)重于文本或視覺輸入,且主要針對(duì)英語設(shè)計(jì),缺乏對(duì)多語言語音場(chǎng)景的覆蓋。目前仍然缺少用于評(píng)估多語言語音設(shè)置下模型事實(shí)性的綜合基準(zhǔn)。


表1:CCFQA與已有基準(zhǔn)對(duì)比 2.2 CCFQA介紹

為了彌補(bǔ)多語言語音幻覺檢測(cè)空白,研究團(tuán)隊(duì)提出了跨語言和跨模態(tài)事實(shí)性基準(zhǔn)(CCFQA),系統(tǒng)評(píng)估MLLM在跨語言和跨模態(tài)場(chǎng)景中的事實(shí)知識(shí)一致性。CCFQA基準(zhǔn)的獨(dú)特之處在于,每個(gè)事實(shí)性問題都以文本和語音兩種輸入形式呈現(xiàn),旨在評(píng)估MLLM在不同語言和輸入模態(tài)之間的一致性:

  • 跨語言一致性:模型能否在多種語言中產(chǎn)生等效的答案?

  • 跨模態(tài)一致性:模型能否在文本和語音輸入之間保持答案質(zhì)量?

該基準(zhǔn)包含8種語言的平行語音-文本事實(shí)性問題:英語、中文普通話、法語、日語、韓語、俄語、西班牙語、港式粵語。


表2:CCFQA樣本示例

研究團(tuán)隊(duì)從MKQA和MOOCCubeX數(shù)據(jù)集中收集原始英文問答文本,經(jīng)過翻譯和真人錄制,最終構(gòu)建了包含14,400個(gè)語音和文本問題樣本的高質(zhì)量數(shù)據(jù)集,涵蓋20個(gè)不同領(lǐng)域知識(shí)類別。

CCFQA基準(zhǔn)支持四種任務(wù)設(shè)置:多語言文本問答(QA)、跨語言文本問答(XQA)、多語言口語問答(SQA)、跨語言口語問答(XSQA)。


圖2:CCFQA數(shù)據(jù)集統(tǒng)計(jì) 三、少樣本遷移學(xué)習(xí)策略

為了提高M(jìn)LLM在事實(shí)知識(shí)方面的一致性,研究團(tuán)隊(duì)提出了一種基于英語作為樞紐語言的策略,以彌合跨語言問答中的知識(shí)鴻溝。該方法采用了一種簡潔而有效的端到端流程:首先將非英語問題翻譯成英語,然后利用LLM在英語語境下強(qiáng)大的事實(shí)推理能力生成答案,最后將答案翻譯回目標(biāo)語言。實(shí)驗(yàn)表明,該方法僅需使用5樣本進(jìn)行跨語言語音問答訓(xùn)練,即可實(shí)現(xiàn)多語言語音問答功能,顯著提升了MLLM的事實(shí)一致性和可靠性。


圖3:少樣本遷移學(xué)習(xí)策略 四、實(shí)驗(yàn)

系統(tǒng)評(píng)估表明,現(xiàn)有MLLM在跨語言和跨模態(tài)的事實(shí)知識(shí)方面存在顯著不一致。即使是簡單的問題,模型在同一查詢以不同語言或模態(tài)呈現(xiàn)時(shí),也經(jīng)常產(chǎn)生矛盾的答案,這凸顯了在多樣化輸入下保持事實(shí)一致性的難度。

實(shí)驗(yàn)結(jié)果顯示,當(dāng)前多模態(tài)大語言模型在CCFQA 基準(zhǔn)上仍面臨嚴(yán)峻挑戰(zhàn),尤其在跨語言和跨模態(tài)場(chǎng)景中,模型性能顯著下降。實(shí)驗(yàn)對(duì)比了包括 GPT-4o-mini-Audio、Qwen2.5-Omni等當(dāng)前效果最佳的多模態(tài)大語言模型。結(jié)果表明,當(dāng)前主流多模態(tài)大語言模型在多語言語音問答任務(wù)中,普遍存在相比文本模態(tài)明顯的性能不一致問題。


表3:MLLMs在4個(gè)任務(wù)上的F1和LLM評(píng)估得分 五、總結(jié)

本研究針對(duì)多模態(tài)大語言模型在多語言語音中存在的事實(shí)性幻覺問題,提出了一個(gè)名為CCFQA的創(chuàng)新基準(zhǔn)。該基準(zhǔn)填補(bǔ)了現(xiàn)有評(píng)估體系在多語言語音模態(tài)上的空白,涵蓋8種語言的平行語音-文本問答數(shù)據(jù),支持跨語言與跨模態(tài)一致性評(píng)估。實(shí)驗(yàn)表明,當(dāng)前MLLMs在應(yīng)對(duì)不同語言和輸入模態(tài)時(shí)存在顯著的事實(shí)不一致性。后續(xù)的研究有待在提升提升模型在多語言與跨模態(tài)場(chǎng)景下的一致性,并探索更有效的抗幻覺方法。

論文作者:都業(yè)興,劉開元,潘囿丞,初征,楊博,馮驍騁,劉銘,相洋 來源:公眾號(hào)【賽爾實(shí)驗(yàn)室】

llustration From IconScout By IconScout Store

-The End-

本周上新!

掃碼觀看!

“AI技術(shù)流”原創(chuàng)投稿計(jì)劃


TechBeat是由將門創(chuàng)投建立的AI學(xué)習(xí)社區(qū)(www.techbeat.net)。社區(qū)上線700+期talk視頻,3000+篇技術(shù)干貨文章,方向覆蓋CV/NLP/ML/Robotis等;每月定期舉辦頂會(huì)及其他線上交流活動(dòng),不定期舉辦技術(shù)人線下聚會(huì)交流活動(dòng)。我們正在努力成為AI人才喜愛的高質(zhì)量、知識(shí)型交流平臺(tái),希望為AI人才打造更專業(yè)的服務(wù)和體驗(yàn),加速并陪伴其成長。


投稿內(nèi)容

// 最新技術(shù)解讀/系統(tǒng)性知識(shí)分享 //

// 前沿資訊解說/心得經(jīng)歷講述 //

投稿須知

稿件需要為原創(chuàng)文章,并標(biāo)明作者信息。

我們會(huì)選擇部分在深度技術(shù)解析及科研心得方向,對(duì)用戶啟發(fā)更大的文章,做原創(chuàng)性內(nèi)容獎(jiǎng)勵(lì)

投稿方式

發(fā)送郵件到

michellechang@thejiangmen.com

或添加工作人員微信(michelle333_投稿,溝通投稿詳情

關(guān)于我“門”

將門是一家以專注于數(shù)智核心科技領(lǐng)域新型創(chuàng)投機(jī)構(gòu),也是北京市標(biāo)桿型孵化器。 公司致力于通過連接技術(shù)與商業(yè),發(fā)掘和培育具有全球影響力的科技創(chuàng)新企業(yè),推動(dòng)企業(yè)創(chuàng)新發(fā)展與產(chǎn)業(yè)升級(jí)。

將門成立于2015年底,創(chuàng)始團(tuán)隊(duì)由微軟創(chuàng)投在中國的創(chuàng)始團(tuán)隊(duì)原班人馬構(gòu)建而成,曾為微軟優(yōu)選和深度孵化了126家創(chuàng)新的技術(shù)型創(chuàng)業(yè)公司。

如果您是技術(shù)領(lǐng)域的初創(chuàng)企業(yè),不僅想獲得投資,還希望獲得一系列持續(xù)性、有價(jià)值的投后服務(wù),歡迎發(fā)送或者推薦項(xiàng)目給我“門”:

bp@thejiangmen.com


點(diǎn)擊右上角,把文章分享到朋友圈

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
人還沒到北京,特朗普一道命令下來,盟友全傻眼,中國卻很淡定

人還沒到北京,特朗普一道命令下來,盟友全傻眼,中國卻很淡定

鐵錘簡科
2026-03-13 14:03:58
收藏!國家衛(wèi)健委主任給出的5個(gè)“防癌處方”,尤其最后一條關(guān)乎全家

收藏!國家衛(wèi)健委主任給出的5個(gè)“防癌處方”,尤其最后一條關(guān)乎全家

人民日?qǐng)?bào)健康客戶端
2026-03-10 21:42:01
列寧曾派特工來到中國,專門暗殺一個(gè)人:腦袋至今保存在俄博物館

列寧曾派特工來到中國,專門暗殺一個(gè)人:腦袋至今保存在俄博物館

老范談史
2026-03-06 07:28:20
央視直播有變化!新加坡大滿貫2月25日完整版賽程

央視直播有變化!新加坡大滿貫2月25日完整版賽程

好乒乓
2026-02-25 11:39:46
中國女籃半場(chǎng)領(lǐng)先南蘇丹10分:張子宇8分 李月汝2分3犯規(guī)低迷

中國女籃半場(chǎng)領(lǐng)先南蘇丹10分:張子宇8分 李月汝2分3犯規(guī)低迷

醉臥浮生
2026-03-14 20:15:51
快船119-108擊敗公牛!倫納德創(chuàng)51年紀(jì)錄,此戰(zhàn)誕生3個(gè)事實(shí):快船新援真厲害

快船119-108擊敗公牛!倫納德創(chuàng)51年紀(jì)錄,此戰(zhàn)誕生3個(gè)事實(shí):快船新援真厲害

生活新鮮市
2026-03-14 19:55:33
72萬個(gè)充電樁,年入40億,常州夫婦邊賺錢邊收割,如今要上市了

72萬個(gè)充電樁,年入40億,常州夫婦邊賺錢邊收割,如今要上市了

毒sir財(cái)經(jīng)
2026-02-22 10:38:14
吃蘭州拉面的人為什么越來越少了?網(wǎng)友:進(jìn)店小心翼翼的怕說錯(cuò)話

吃蘭州拉面的人為什么越來越少了?網(wǎng)友:進(jìn)店小心翼翼的怕說錯(cuò)話

另子維愛讀史
2026-02-27 20:31:34
小楊阿姨松口了,若真回不去臺(tái)北,聽老板安排,反正她不喜歡做飯

小楊阿姨松口了,若真回不去臺(tái)北,聽老板安排,反正她不喜歡做飯

削桐作琴
2026-03-13 18:18:23
騎士擁有東部最輕松的剩余賽程,東西部前四對(duì)手僅剩湖人

騎士擁有東部最輕松的剩余賽程,東西部前四對(duì)手僅剩湖人

林子說事
2026-03-14 12:41:56
記住作惡者的名字,是對(duì)罪惡的一種震懾

記住作惡者的名字,是對(duì)罪惡的一種震懾

寄居在世
2026-01-15 19:15:07
問界主播“40歲開豐田就跳樓”言論引爆輿論:營銷底線何在?品牌緊急切割

問界主播“40歲開豐田就跳樓”言論引爆輿論:營銷底線何在?品牌緊急切割

驅(qū)動(dòng)中國
2026-03-12 10:58:04
凍干草莓測(cè)出二十幾種農(nóng)藥,多家公司主動(dòng)收購問題凍干草莓,“農(nóng)殘超標(biāo)的話我們一般銷售國內(nèi)”,超標(biāo)、過期無所謂,可當(dāng)合格品賣或打粉加工冰淇淋等食品

凍干草莓測(cè)出二十幾種農(nóng)藥,多家公司主動(dòng)收購問題凍干草莓,“農(nóng)殘超標(biāo)的話我們一般銷售國內(nèi)”,超標(biāo)、過期無所謂,可當(dāng)合格品賣或打粉加工冰淇淋等食品

觀威海
2026-03-13 18:19:09
3-1,橫掃日本張本美和,重慶冠軍賽:石洵瑤欲復(fù)制2年前神跡

3-1,橫掃日本張本美和,重慶冠軍賽:石洵瑤欲復(fù)制2年前神跡

劉哥談體育
2026-03-14 15:52:12
他接受紀(jì)律審查和監(jiān)察調(diào)查

他接受紀(jì)律審查和監(jiān)察調(diào)查

錫望
2026-03-13 16:18:29
俄羅斯對(duì)委內(nèi)瑞拉高層很滿意,就算馬杜羅越獄殺出美國也無力回天

俄羅斯對(duì)委內(nèi)瑞拉高層很滿意,就算馬杜羅越獄殺出美國也無力回天

緊跟時(shí)代脈搏
2026-03-14 20:53:31
7500枚炸彈,以色列滅國大轟炸,油庫爆炸,9000萬伊朗人存亡時(shí)刻

7500枚炸彈,以色列滅國大轟炸,油庫爆炸,9000萬伊朗人存亡時(shí)刻

古事尋蹤記
2026-03-13 07:10:47
太突然!北京一4S店即將暫停營業(yè)!

太突然!北京一4S店即將暫停營業(yè)!

大北京早知道
2026-03-13 16:03:54
WTT再爆大冷!3大世界冠軍被淘汰,日本大潰敗,國乒新星2-3出局

WTT再爆大冷!3大世界冠軍被淘汰,日本大潰敗,國乒新星2-3出局

籃球看比賽
2026-02-24 15:15:56
4天8將退賽!趙心童抵達(dá)玉山備戰(zhàn),與GOAT聚餐,火箭今日撈金!

4天8將退賽!趙心童抵達(dá)玉山備戰(zhàn),與GOAT聚餐,火箭今日撈金!

劉姚堯的文字城堡
2026-03-14 09:25:44
2026-03-14 21:39:00
將門創(chuàng)投 incentive-icons
將門創(chuàng)投
加速及投資技術(shù)驅(qū)動(dòng)型初創(chuàng)企業(yè)
2310文章數(shù) 596關(guān)注度
往期回顧 全部

科技要聞

xAI創(chuàng)始伙伴只剩兩人!馬斯克“痛改前非”

頭條要聞

胖東來給店長每人2000萬普通員工人均20萬 于東來回應(yīng)

頭條要聞

胖東來給店長每人2000萬普通員工人均20萬 于東來回應(yīng)

體育要聞

NBA唯一巴西球員,增重20KG頂內(nèi)線

娛樂要聞

九成美曝田栩?qū)幵衅诔鲕?AI反轉(zhuǎn)引熱議

財(cái)經(jīng)要聞

3·15影子暗訪|神秘的“特供酒”

汽車要聞

吉利銀河M7技術(shù)首秀 實(shí)力重構(gòu)主流電混SUV

態(tài)度原創(chuàng)

房產(chǎn)
教育
數(shù)碼
游戲
公開課

房產(chǎn)要聞

不容易??!??诮K于又要賣地了!

教育要聞

3月12日,山東,寶媽分享:如何正確教育孩子

數(shù)碼要聞

AWE2026對(duì)話黃宏生:創(chuàng)維的AI客廳革命與年輕化突圍

"我的摯愛已經(jīng)離去!"《巔峰守衛(wèi)》停服 外媒扼腕嘆息

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版