国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

華中科技大學(xué)等頂尖高校聯(lián)合破解噪音環(huán)境下的語(yǔ)音檢索難題

0
分享至


這項(xiàng)由華中科技大學(xué)、香港大學(xué)、蘇州大學(xué)、中國(guó)科學(xué)技術(shù)大學(xué)、武漢大學(xué)、清華大學(xué)和東京大學(xué)等七所知名高校聯(lián)合開(kāi)展的重要研究,發(fā)表于2026年2月13日的arXiv學(xué)術(shù)論文庫(kù),論文編號(hào)為arXiv:2602.12783v1。對(duì)于那些希望深入了解技術(shù)細(xì)節(jié)的讀者,可以通過(guò)該編號(hào)查找到完整的研究論文。

當(dāng)我們用手機(jī)對(duì)著Siri或小愛(ài)同學(xué)說(shuō)話時(shí),通常都是在相對(duì)安靜的環(huán)境中。但現(xiàn)實(shí)生活中,我們更多時(shí)候是在嘈雜的環(huán)境中使用語(yǔ)音助手——比如在地鐵站詢問(wèn)路線,在咖啡廳里搜索附近的餐廳,或者在汽車?yán)飳ふ壹佑驼?。這種噪音環(huán)境下的語(yǔ)音搜索,就像在喧鬧的集市中尋找特定商品一樣困難。研究團(tuán)隊(duì)發(fā)現(xiàn),現(xiàn)有的評(píng)估體系就像只在安靜圖書館中測(cè)試學(xué)生聽(tīng)力,完全無(wú)法反映真實(shí)世界的復(fù)雜情況。

為了解決這個(gè)問(wèn)題,研究團(tuán)隊(duì)構(gòu)建了一個(gè)名為SQuTR的全新測(cè)試平臺(tái),這就像是為語(yǔ)音搜索系統(tǒng)專門設(shè)計(jì)的"聲音障礙訓(xùn)練場(chǎng)"。他們從六個(gè)不同領(lǐng)域的數(shù)據(jù)庫(kù)中收集了超過(guò)37000個(gè)查詢問(wèn)題,涵蓋了從金融知識(shí)到醫(yī)學(xué)信息的各個(gè)方面。更重要的是,他們使用了200個(gè)不同聲音特征的虛擬發(fā)聲者,模擬真實(shí)人群的語(yǔ)音多樣性,然后在這些語(yǔ)音上人工添加了17種不同類型的環(huán)境噪音——從地鐵站的轟鳴聲到餐廳里的嘈雜聲,從公園里的鳥叫聲到辦公室里的鍵盤敲擊聲。

通過(guò)這個(gè)創(chuàng)新的測(cè)試平臺(tái),研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)令人擔(dān)憂的現(xiàn)象:即使是目前最先進(jìn)的語(yǔ)音搜索系統(tǒng),在面對(duì)噪音干擾時(shí)也會(huì)出現(xiàn)明顯的性能下降。這就像一位平時(shí)表現(xiàn)優(yōu)秀的學(xué)生,在嘈雜環(huán)境中突然無(wú)法集中注意力一樣。更有趣的是,不同類型的搜索系統(tǒng)在面對(duì)噪音時(shí)表現(xiàn)出了截然不同的"抗干擾能力"。

一、語(yǔ)音搜索的現(xiàn)實(shí)困境

在我們?nèi)粘J褂谜Z(yǔ)音助手的過(guò)程中,很少會(huì)意識(shí)到背景噪音對(duì)搜索效果的影響。研究團(tuán)隊(duì)發(fā)現(xiàn),目前大多數(shù)語(yǔ)音搜索系統(tǒng)的測(cè)試都是在理想化的安靜環(huán)境中進(jìn)行的,這就像在溫室中培養(yǎng)的植物突然被移植到野外環(huán)境中一樣不適應(yīng)。

現(xiàn)有的測(cè)試方法存在三個(gè)主要問(wèn)題。首先,大部分測(cè)試只使用簡(jiǎn)單的問(wèn)題,比如"今天天氣怎么樣"這類單一信息查詢,而忽略了現(xiàn)實(shí)中更復(fù)雜的搜索需求。其次,測(cè)試環(huán)境通常過(guò)于簡(jiǎn)化,沒(méi)有考慮到真實(shí)世界中各種復(fù)雜的聲音干擾。最后,不同研究團(tuán)隊(duì)使用的評(píng)估標(biāo)準(zhǔn)各不相同,就像用不同的尺子測(cè)量同一個(gè)物體,很難得出可比較的結(jié)論。

這種情況就像汽車廠商只在平坦公路上測(cè)試車輛性能,卻忽略了山路、雨天和擁堵路況下的表現(xiàn)。語(yǔ)音搜索系統(tǒng)在實(shí)際應(yīng)用中面臨的挑戰(zhàn)遠(yuǎn)比實(shí)驗(yàn)室環(huán)境復(fù)雜得多。當(dāng)用戶在地鐵站里詢問(wèn)路線時(shí),系統(tǒng)需要同時(shí)處理用戶的語(yǔ)音、地鐵的轟鳴聲、其他乘客的對(duì)話聲以及廣播聲等多重聲音信息。

研究團(tuán)隊(duì)注意到,雖然已有一些嘗試將語(yǔ)音納入搜索評(píng)估的工作,比如MSEB項(xiàng)目中的簡(jiǎn)單語(yǔ)音問(wèn)題測(cè)試,但這些測(cè)試存在明顯局限。測(cè)試問(wèn)題大多是直接的事實(shí)查詢,缺乏復(fù)雜的推理需求,而且測(cè)試語(yǔ)料主要來(lái)自維基百科等通用領(lǐng)域,無(wú)法涵蓋專業(yè)領(lǐng)域的搜索需求。更重要的是,這些測(cè)試沒(méi)有系統(tǒng)地控制噪音強(qiáng)度,無(wú)法準(zhǔn)確評(píng)估系統(tǒng)在不同干擾程度下的表現(xiàn)。

二、創(chuàng)新的測(cè)試框架設(shè)計(jì)

為了解決這些問(wèn)題,研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)全新的測(cè)試框架,就像為語(yǔ)音搜索系統(tǒng)建造了一個(gè)全方位的"體能訓(xùn)練館"。這個(gè)名為SQuTR的系統(tǒng)不是簡(jiǎn)單地錄制一些語(yǔ)音樣本,而是系統(tǒng)性地構(gòu)建了一個(gè)可控的、可重復(fù)的測(cè)試環(huán)境。

首先,研究團(tuán)隊(duì)從六個(gè)不同的專業(yè)數(shù)據(jù)庫(kù)中精心挑選了查詢問(wèn)題。這些數(shù)據(jù)庫(kù)涵蓋了金融、醫(yī)學(xué)、百科知識(shí)、多步推理等多個(gè)領(lǐng)域,確保測(cè)試的多樣性和實(shí)用性。這就像準(zhǔn)備一場(chǎng)全能比賽,不僅要測(cè)試選手的跑步能力,還要測(cè)試游泳、射擊、騎馬等多項(xiàng)技能。英文數(shù)據(jù)庫(kù)包括自然問(wèn)題數(shù)據(jù)庫(kù)、多步推理問(wèn)題數(shù)據(jù)庫(kù)和金融問(wèn)答數(shù)據(jù)庫(kù),中文數(shù)據(jù)庫(kù)則包括百科檢索、醫(yī)學(xué)檢索和段落檢索數(shù)據(jù)庫(kù)。

在語(yǔ)音合成方面,研究團(tuán)隊(duì)使用了先進(jìn)的CosyVoice-3技術(shù),這種技術(shù)能夠生成極其自然的人工語(yǔ)音。他們使用了200個(gè)不同的聲音檔案,包括不同性別、年齡和口音的發(fā)聲者,確保測(cè)試覆蓋了真實(shí)用戶群體的語(yǔ)音多樣性。這就像電影制作中需要不同演員來(lái)演繹不同角色一樣,每種聲音都代表了真實(shí)用戶的某種特征。

最重要的創(chuàng)新是噪音控制系統(tǒng)。研究團(tuán)隊(duì)設(shè)計(jì)了四個(gè)不同的聲學(xué)環(huán)境:完全安靜的環(huán)境、輕微噪音環(huán)境(信噪比20分貝)、中等噪音環(huán)境(信噪比10分貝)和強(qiáng)烈噪音環(huán)境(信噪比0分貝)。這種設(shè)計(jì)就像調(diào)節(jié)收音機(jī)的音量旋鈕一樣,可以精確控制噪音的強(qiáng)度,從而系統(tǒng)地觀察不同噪音程度對(duì)搜索效果的影響。

環(huán)境噪音的選擇也極其用心。研究團(tuán)隊(duì)收錄了17種不同類型的真實(shí)環(huán)境聲音,從地鐵站的機(jī)械轟鳴到客廳里的日常生活聲音,從公園里的自然環(huán)境音到辦公室里的工作環(huán)境音。這些聲音都來(lái)自真實(shí)的錄音,而不是人工合成的,確保了測(cè)試的真實(shí)性和有效性。

三、系統(tǒng)性能的深度分析

通過(guò)這個(gè)創(chuàng)新的測(cè)試平臺(tái),研究團(tuán)隊(duì)對(duì)當(dāng)前主流的語(yǔ)音搜索系統(tǒng)進(jìn)行了全面的性能評(píng)估,結(jié)果揭示了許多令人意外的發(fā)現(xiàn)。這就像用專業(yè)的體檢設(shè)備對(duì)運(yùn)動(dòng)員進(jìn)行全面檢查,發(fā)現(xiàn)了一些平時(shí)注意不到的問(wèn)題。

在系統(tǒng)架構(gòu)方面,研究團(tuán)隊(duì)測(cè)試了兩種主要的技術(shù)路線。第一種是"分步處理"方式,就像工廠的流水線操作一樣,先用語(yǔ)音識(shí)別技術(shù)將用戶的話轉(zhuǎn)換成文字,然后用文本搜索技術(shù)在數(shù)據(jù)庫(kù)中查找答案。第二種是"直接處理"方式,就像經(jīng)驗(yàn)豐富的同聲傳譯一樣,直接從語(yǔ)音信號(hào)中理解用戶需求并給出答案。

在分步處理系統(tǒng)中,研究團(tuán)隊(duì)測(cè)試了多種不同規(guī)模的語(yǔ)音識(shí)別系統(tǒng)。從最小的Whisper-Tiny(只有3900萬(wàn)個(gè)參數(shù))到最大的Whisper-Large-v3(擁有15.5億個(gè)參數(shù)),系統(tǒng)規(guī)模的差異就像從小型摩托車到大型貨車的區(qū)別。同時(shí),他們也測(cè)試了多種不同的搜索引擎,從傳統(tǒng)的關(guān)鍵詞匹配方法BM25,到最新的人工智能搜索模型如Qwen3-Embedding-8B。

測(cè)試結(jié)果顯示,隨著噪音強(qiáng)度的增加,幾乎所有系統(tǒng)的性能都會(huì)出現(xiàn)下降,但下降的程度和模式卻大不相同。這就像不同品牌的汽車在雨天行駛時(shí)表現(xiàn)不同,有些下降明顯,有些相對(duì)穩(wěn)定。更有趣的是,系統(tǒng)的規(guī)模大小與抗噪能力并不總是成正比關(guān)系。

在中文語(yǔ)音識(shí)別方面,研究團(tuán)隊(duì)使用了專門針對(duì)中文優(yōu)化的Paraformer-Large系統(tǒng)。這個(gè)系統(tǒng)在處理中文語(yǔ)音時(shí)表現(xiàn)出了不錯(cuò)的魯棒性,即使在噪音環(huán)境下也能保持相對(duì)穩(wěn)定的識(shí)別準(zhǔn)確率。但是,當(dāng)噪音強(qiáng)度達(dá)到最高級(jí)別時(shí),字符錯(cuò)誤率仍然會(huì)從安靜環(huán)境下的2.71%上升到7.14%。

英文語(yǔ)音識(shí)別的情況類似,Whisper-Large-v3在安靜環(huán)境下的詞錯(cuò)誤率只有3.33%,但在強(qiáng)噪音環(huán)境中上升到7.75%。這種性能下降直接影響了后續(xù)的搜索質(zhì)量,因?yàn)殄e(cuò)誤的文字轉(zhuǎn)換會(huì)導(dǎo)致搜索系統(tǒng)無(wú)法準(zhǔn)確理解用戶的真實(shí)需求。

四、不同系統(tǒng)的抗噪表現(xiàn)

研究團(tuán)隊(duì)發(fā)現(xiàn),不同類型的搜索系統(tǒng)在面對(duì)噪音干擾時(shí)展現(xiàn)出了截然不同的"性格"。這就像不同性格的人在面對(duì)壓力時(shí)的反應(yīng)不同,有些人能夠保持冷靜,有些人則容易慌亂。

傳統(tǒng)的關(guān)鍵詞搜索方法BM25展現(xiàn)出了令人意外的穩(wěn)定性。這種方法就像一位經(jīng)驗(yàn)豐富的圖書管理員,即使在嘈雜的環(huán)境中也能根據(jù)模糊的關(guān)鍵詞找到相關(guān)書籍。BM25的標(biāo)準(zhǔn)差只有0.031,表明它在不同噪音條件下的性能波動(dòng)很小。這種穩(wěn)定性源于其工作原理的簡(jiǎn)單直接——只要能識(shí)別出查詢中的關(guān)鍵詞匯,就能找到相關(guān)文檔。

相比之下,基于人工智能的密集檢索系統(tǒng)表現(xiàn)出了更高的敏感性。以BGE-Base為例,它的標(biāo)準(zhǔn)差達(dá)到了0.100,表明其性能在不同噪音條件下的波動(dòng)要大得多。這些系統(tǒng)就像敏感的藝術(shù)家,在理想條件下能夠創(chuàng)作出精美作品,但一旦環(huán)境發(fā)生變化就容易受到影響。

然而,隨著模型規(guī)模的增大,人工智能系統(tǒng)的抗噪能力逐漸提升。Qwen3系列模型的表現(xiàn)就很好地說(shuō)明了這一點(diǎn)。從6億參數(shù)的Qwen3-Embedding-0.6B到80億參數(shù)的Qwen3-Embedding-8B,隨著模型規(guī)模的增長(zhǎng),不僅平均性能有所提升,抗噪穩(wěn)定性也顯著改善。這就像經(jīng)驗(yàn)更豐富的專家能夠在復(fù)雜環(huán)境中保持更穩(wěn)定的表現(xiàn)。

最令人印象深刻的是端到端系統(tǒng)Omni-Embed-Nemotron-3B的表現(xiàn)。這個(gè)系統(tǒng)跳過(guò)了傳統(tǒng)的語(yǔ)音轉(zhuǎn)文字步驟,直接從語(yǔ)音信號(hào)中提取搜索所需的信息。它的標(biāo)準(zhǔn)差只有0.054,表現(xiàn)出了優(yōu)異的穩(wěn)定性。這就像一位能夠直接理解方言的本地向?qū)В恍枰ㄟ^(guò)標(biāo)準(zhǔn)普通話的"翻譯"就能準(zhǔn)確理解游客的需求。

在實(shí)際應(yīng)用場(chǎng)景中,這些差異意味著什么呢?當(dāng)用戶在地鐵站詢問(wèn)"附近哪里有好吃的川菜館"時(shí),傳統(tǒng)的關(guān)鍵詞搜索可能會(huì)因?yàn)樽R(shí)別出"川菜"、"餐館"等關(guān)鍵詞而給出相關(guān)結(jié)果,即使其他詞匯識(shí)別不準(zhǔn)確。而人工智能系統(tǒng)雖然在安靜環(huán)境下能夠更準(zhǔn)確地理解用戶的完整意圖,但在噪音干擾下可能會(huì)因?yàn)檎Z(yǔ)義理解的偏差而給出不太相關(guān)的結(jié)果。

五、語(yǔ)音識(shí)別精度的影響

語(yǔ)音識(shí)別的準(zhǔn)確程度直接決定了后續(xù)搜索的質(zhì)量,就像地圖的精確度直接影響導(dǎo)航效果一樣。研究團(tuán)隊(duì)通過(guò)詳細(xì)的分析發(fā)現(xiàn),語(yǔ)音識(shí)別錯(cuò)誤對(duì)不同類型搜索系統(tǒng)的影響程度存在顯著差異。

在測(cè)試中,研究團(tuán)隊(duì)比較了多種不同規(guī)模的語(yǔ)音識(shí)別系統(tǒng)。最小的Whisper-Tiny在強(qiáng)噪音環(huán)境下的錯(cuò)誤率高達(dá)26.48%,這意味著每四個(gè)詞中就有一個(gè)識(shí)別錯(cuò)誤。而最大的Whisper-Large-v3在同樣條件下的錯(cuò)誤率只有7.75%,性能提升非常明顯。這種差異就像使用放大鏡和顯微鏡觀察細(xì)小物體的區(qū)別,更精密的工具能夠提供更準(zhǔn)確的信息。

但是,一個(gè)有趣的發(fā)現(xiàn)是語(yǔ)音識(shí)別系統(tǒng)的規(guī)模與最終搜索效果的關(guān)系并不是簡(jiǎn)單的線性關(guān)系。當(dāng)使用最小的語(yǔ)音識(shí)別系統(tǒng)Whisper-Tiny配合先進(jìn)的人工智能搜索引擎Qwen3-Embedding-8B時(shí),其搜索效果竟然超過(guò)了使用最大語(yǔ)音識(shí)別系統(tǒng)Whisper-Large-v3配合傳統(tǒng)搜索引擎BM25的組合。這說(shuō)明了一個(gè)重要道理:系統(tǒng)的整體性能取決于各個(gè)組件的協(xié)調(diào)配合,而不僅僅是單個(gè)組件的強(qiáng)弱。

這種現(xiàn)象的原因在于不同搜索技術(shù)的容錯(cuò)能力不同。傳統(tǒng)的關(guān)鍵詞搜索就像通過(guò)零散線索拼湊真相的偵探,需要準(zhǔn)確的關(guān)鍵詞才能找到相關(guān)信息。如果語(yǔ)音識(shí)別將"糖尿病治療"錯(cuò)誤識(shí)別為"唐尿病治療",關(guān)鍵詞搜索就可能完全找不到相關(guān)信息。而人工智能搜索引擎則像理解能力很強(qiáng)的智能助手,即使聽(tīng)到一些錯(cuò)誤的詞匯,也能通過(guò)上下文推斷出用戶的真實(shí)意圖。

在不同語(yǔ)言的處理上,系統(tǒng)表現(xiàn)也有所差異。中文語(yǔ)音識(shí)別面臨著特殊的挑戰(zhàn),因?yàn)橹形牡耐糇脂F(xiàn)象比英文更為常見(jiàn)。比如"治療"和"支撐"在某些方言中聽(tīng)起來(lái)很相似,這就要求語(yǔ)音識(shí)別系統(tǒng)具備更強(qiáng)的上下文理解能力。研究結(jié)果顯示,專門針對(duì)中文優(yōu)化的Paraformer-Large系統(tǒng)在處理中文查詢時(shí)確實(shí)表現(xiàn)出了更好的穩(wěn)定性。

六、真實(shí)應(yīng)用場(chǎng)景的啟示

這項(xiàng)研究的發(fā)現(xiàn)對(duì)于我們?nèi)粘J褂谜Z(yǔ)音搜索具有重要的指導(dǎo)意義。就像天氣預(yù)報(bào)幫助我們決定是否帶傘一樣,了解語(yǔ)音搜索系統(tǒng)的性能特點(diǎn)能夠幫助我們?cè)诓煌闆r下選擇合適的使用策略。

在相對(duì)安靜的家庭環(huán)境中,各種語(yǔ)音搜索系統(tǒng)都能提供不錯(cuò)的服務(wù)。但當(dāng)我們?cè)卩须s的公共場(chǎng)所使用語(yǔ)音助手時(shí),就需要采取一些技巧來(lái)提高搜索成功率。比如,可以盡量使用簡(jiǎn)單清晰的關(guān)鍵詞,避免復(fù)雜的長(zhǎng)句子。這就像在噪音環(huán)境中與人交流時(shí),我們會(huì)自然地提高音量并使用更簡(jiǎn)單直接的表達(dá)一樣。

研究結(jié)果也揭示了當(dāng)前語(yǔ)音搜索技術(shù)的發(fā)展方向。端到端系統(tǒng)的優(yōu)異表現(xiàn)表明,跳過(guò)中間的文字轉(zhuǎn)換環(huán)節(jié),直接從語(yǔ)音中提取搜索信息可能是未來(lái)的發(fā)展趨勢(shì)。這就像從傳統(tǒng)的"聽(tīng)-寫-讀-理解"模式升級(jí)為直接的"聽(tīng)-理解"模式,減少了信息傳遞過(guò)程中的損耗。

對(duì)于開(kāi)發(fā)者而言,這項(xiàng)研究提供了寶貴的性能基準(zhǔn)和優(yōu)化方向。傳統(tǒng)觀念認(rèn)為語(yǔ)音識(shí)別越準(zhǔn)確越好,但研究表明,在整個(gè)語(yǔ)音搜索系統(tǒng)中,搜索引擎的容錯(cuò)能力同樣重要。一個(gè)能夠理解模糊查詢的智能搜索引擎,配合中等精度的語(yǔ)音識(shí)別系統(tǒng),可能比高精度語(yǔ)音識(shí)別配合簡(jiǎn)單關(guān)鍵詞搜索的組合表現(xiàn)更好。

研究團(tuán)隊(duì)還發(fā)現(xiàn),不同類型的查詢對(duì)噪音的敏感程度也不相同。事實(shí)性查詢(比如"北京的人口是多少")相對(duì)容易處理,因?yàn)榧词褂行┰~匯識(shí)別錯(cuò)誤,關(guān)鍵信息通常還是能夠保留。而復(fù)雜的推理查詢(比如"如果我想在北京買房,需要考慮哪些因素")則對(duì)語(yǔ)音識(shí)別的準(zhǔn)確性要求更高,因?yàn)橥评磉^(guò)程需要完整準(zhǔn)確的信息輸入。

七、技術(shù)發(fā)展的未來(lái)展望

基于這項(xiàng)研究的發(fā)現(xiàn),我們可以預(yù)見(jiàn)語(yǔ)音搜索技術(shù)將朝著更加智能化和人性化的方向發(fā)展。就像智能手機(jī)從簡(jiǎn)單的通訊工具進(jìn)化為全方位的智能助手一樣,語(yǔ)音搜索也正在經(jīng)歷類似的進(jìn)化過(guò)程。

多模態(tài)融合將成為未來(lái)的重要趨勢(shì)?,F(xiàn)在的語(yǔ)音搜索系統(tǒng)主要依賴聽(tīng)覺(jué)信息,但人類在理解他人意圖時(shí)會(huì)同時(shí)使用視覺(jué)、聽(tīng)覺(jué)和上下文信息。未來(lái)的系統(tǒng)可能會(huì)結(jié)合用戶的位置信息、使用歷史、當(dāng)前時(shí)間等多種信號(hào)來(lái)更準(zhǔn)確地理解用戶需求。比如,當(dāng)系統(tǒng)檢測(cè)到用戶在餐廳附近詢問(wèn)某個(gè)模糊的問(wèn)題時(shí),會(huì)優(yōu)先向餐飲相關(guān)的搜索結(jié)果傾斜。

個(gè)性化適應(yīng)也將變得更加重要。每個(gè)人的語(yǔ)音特征、說(shuō)話習(xí)慣和表達(dá)方式都不相同,就像每個(gè)人的指紋都是獨(dú)一無(wú)二的一樣。未來(lái)的語(yǔ)音搜索系統(tǒng)將能夠?qū)W習(xí)用戶的個(gè)人語(yǔ)音特征和使用習(xí)慣,提供更加精準(zhǔn)的服務(wù)。比如,系統(tǒng)會(huì)記住用戶經(jīng)常將"附近"說(shuō)成"負(fù)荊",并自動(dòng)進(jìn)行糾正。

環(huán)境自適應(yīng)能力的提升也是重要方向。目前的系統(tǒng)在面對(duì)不同環(huán)境時(shí)基本采用相同的處理策略,但研究表明不同噪音環(huán)境需要不同的優(yōu)化方法。未來(lái)的系統(tǒng)將能夠?qū)崟r(shí)檢測(cè)環(huán)境噪音的類型和強(qiáng)度,并相應(yīng)調(diào)整處理策略。在地鐵站的低頻轟鳴環(huán)境中使用一種優(yōu)化方法,在餐廳的人聲嘈雜環(huán)境中使用另一種方法。

此外,這項(xiàng)研究也為語(yǔ)音搜索系統(tǒng)的評(píng)估和優(yōu)化提供了新的思路。傳統(tǒng)的測(cè)試方法過(guò)于理想化,無(wú)法反映真實(shí)使用場(chǎng)景的復(fù)雜性。SQuTR這樣的綜合測(cè)試平臺(tái)將幫助開(kāi)發(fā)者更好地了解系統(tǒng)的真實(shí)性能,從而開(kāi)發(fā)出更加實(shí)用的產(chǎn)品。

說(shuō)到底,語(yǔ)音搜索技術(shù)的發(fā)展目標(biāo)是讓人機(jī)交互變得更加自然流暢。這項(xiàng)研究讓我們看到了當(dāng)前技術(shù)的優(yōu)勢(shì)和局限,也指出了未來(lái)改進(jìn)的方向。雖然在嘈雜環(huán)境中進(jìn)行語(yǔ)音搜索仍然面臨挑戰(zhàn),但隨著技術(shù)的不斷進(jìn)步,我們有理由相信,未來(lái)的語(yǔ)音助手將能夠在任何環(huán)境中準(zhǔn)確理解我們的需求,真正成為我們生活中不可或缺的智能伙伴。這項(xiàng)由多所頂尖高校聯(lián)合完成的研究,不僅為學(xué)術(shù)界提供了寶貴的研究成果,也為整個(gè)語(yǔ)音搜索行業(yè)的發(fā)展指明了方向。

Q&A

Q1:SQuTR是什么?

A:SQuTR是由華中科技大學(xué)等七所高校聯(lián)合開(kāi)發(fā)的語(yǔ)音搜索測(cè)試平臺(tái),專門用于評(píng)估語(yǔ)音搜索系統(tǒng)在噪音環(huán)境下的表現(xiàn)。它包含超過(guò)37000個(gè)不同領(lǐng)域的查詢問(wèn)題,使用200個(gè)不同聲音特征的虛擬發(fā)聲者,并模擬17種真實(shí)環(huán)境噪音,能夠系統(tǒng)地測(cè)試語(yǔ)音搜索系統(tǒng)在從安靜到極度嘈雜環(huán)境下的性能變化。

Q2:為什么語(yǔ)音搜索在噪音環(huán)境下表現(xiàn)不好?

A:語(yǔ)音搜索系統(tǒng)通常需要先將用戶語(yǔ)音轉(zhuǎn)換成文字,然后在數(shù)據(jù)庫(kù)中搜索答案。噪音會(huì)干擾語(yǔ)音識(shí)別的準(zhǔn)確性,導(dǎo)致關(guān)鍵詞識(shí)別錯(cuò)誤,進(jìn)而影響搜索結(jié)果的質(zhì)量。就像在嘈雜環(huán)境中聽(tīng)電話一樣,背景噪音會(huì)讓我們聽(tīng)不清對(duì)方說(shuō)的話,語(yǔ)音搜索系統(tǒng)也面臨同樣的困難。

Q3:什么類型的語(yǔ)音搜索系統(tǒng)抗噪能力更強(qiáng)?

A:研究發(fā)現(xiàn),端到端系統(tǒng)(直接從語(yǔ)音提取搜索信息)比傳統(tǒng)的分步處理系統(tǒng)抗噪能力更強(qiáng)。此外,大規(guī)模的人工智能搜索引擎比傳統(tǒng)關(guān)鍵詞搜索對(duì)語(yǔ)音識(shí)別錯(cuò)誤的容忍度更高,即使語(yǔ)音識(shí)別有錯(cuò)誤也能理解用戶的真實(shí)意圖。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
《妻子的浪漫旅行8》錄制路透,金莎孫丞瀟牽手,秦昊伊能靜撒糖

《妻子的浪漫旅行8》錄制路透,金莎孫丞瀟牽手,秦昊伊能靜撒糖

章眽八卦
2026-03-14 19:34:29
今年春季,事業(yè)像開(kāi)掛一樣飆升的三個(gè)星座,升職加薪只是開(kāi)始

今年春季,事業(yè)像開(kāi)掛一樣飆升的三個(gè)星座,升職加薪只是開(kāi)始

小晴星座說(shuō)
2026-03-14 19:34:17
同濟(jì)醫(yī)院核磁共振事故:患者不能自己脫困嗎

同濟(jì)醫(yī)院核磁共振事故:患者不能自己脫困嗎

金牌娛樂(lè)
2026-03-14 09:31:27
宮魯鳴若下課,女籃新帥3選1,王治郅在列,57歲名宿解禁成熱門

宮魯鳴若下課,女籃新帥3選1,王治郅在列,57歲名宿解禁成熱門

萌蘭聊個(gè)球
2026-03-14 14:44:40
陳立夫:從高官到雞農(nóng),58歲患糖尿病,活102歲的長(zhǎng)壽秘訣是什么

陳立夫:從高官到雞農(nóng),58歲患糖尿病,活102歲的長(zhǎng)壽秘訣是什么

林雁飛
2026-03-06 14:35:14
哈馬斯呼吁伊朗不要將襲擊目標(biāo)對(duì)準(zhǔn)鄰國(guó)

哈馬斯呼吁伊朗不要將襲擊目標(biāo)對(duì)準(zhǔn)鄰國(guó)

新華社
2026-03-14 18:14:07
擊落美軍加油機(jī)?B-1B轟炸機(jī)對(duì)伊朗扔炸彈,以色列財(cái)長(zhǎng)之子受重傷

擊落美軍加油機(jī)?B-1B轟炸機(jī)對(duì)伊朗扔炸彈,以色列財(cái)長(zhǎng)之子受重傷

鷹眼Defence
2026-03-13 17:40:40
1944年,宋氏三姐妹拍了最后一張照片后,天各一方,相會(huì)無(wú)期

1944年,宋氏三姐妹拍了最后一張照片后,天各一方,相會(huì)無(wú)期

浩渺青史
2026-03-13 19:38:07
比安東尼還坑!曼聯(lián) 5000 萬(wàn)新水貨,弗格森后最爛引援!

比安東尼還坑!曼聯(lián) 5000 萬(wàn)新水貨,弗格森后最爛引援!

瀾歸序
2026-03-14 04:18:00
她果然沒(méi)離,畢竟400億資產(chǎn)的男人也不多??!

她果然沒(méi)離,畢竟400億資產(chǎn)的男人也不多?。?/a>

BenSir本色說(shuō)
2026-03-11 22:06:22
貴州茅臺(tái)董秘蔣焰嚴(yán)重違紀(jì)違法被留置 此前已被“帶走”

貴州茅臺(tái)董秘蔣焰嚴(yán)重違紀(jì)違法被留置 此前已被“帶走”

21世紀(jì)經(jīng)濟(jì)報(bào)道
2026-03-13 21:14:12
伊朗最大的內(nèi)鬼被處決了

伊朗最大的內(nèi)鬼被處決了

犀利辣椒
2026-03-13 06:40:38
8次搶斷,劉洋刷新山東泰山隊(duì)史球員中超單場(chǎng)搶斷紀(jì)錄

8次搶斷,劉洋刷新山東泰山隊(duì)史球員中超單場(chǎng)搶斷紀(jì)錄

懂球帝
2026-03-14 18:17:53
廣東男籃本賽季消失的“七位故人”!他們都在哪?過(guò)的還好嗎?

廣東男籃本賽季消失的“七位故人”!他們都在哪?過(guò)的還好嗎?

男足的小球童
2026-03-14 19:37:29
1萬(wàn)5起價(jià) 蘋果iPhone Fold計(jì)劃銷量上調(diào)20%

1萬(wàn)5起價(jià) 蘋果iPhone Fold計(jì)劃銷量上調(diào)20%

PChome電腦之家
2026-03-13 11:21:45
新版《呼嘯山莊》“一刀未剪”,海報(bào)標(biāo)注“未成年人謹(jǐn)慎觀看”

新版《呼嘯山莊》“一刀未剪”,海報(bào)標(biāo)注“未成年人謹(jǐn)慎觀看”

韓小娛
2026-03-14 07:31:32
大批美國(guó)游客涌入中國(guó),回國(guó)后坦言:客觀對(duì)比,中國(guó)比美國(guó)強(qiáng)多了

大批美國(guó)游客涌入中國(guó),回國(guó)后坦言:客觀對(duì)比,中國(guó)比美國(guó)強(qiáng)多了

燦若銀爛
2026-02-27 20:11:39
太善良!王藝迪4比3險(xiǎn)勝申裕斌,接受采訪擔(dān)心申裕斌是不是受傷

太善良!王藝迪4比3險(xiǎn)勝申裕斌,接受采訪擔(dān)心申裕斌是不是受傷

鳳幻洋
2026-03-14 14:30:08
中國(guó)女足艱難晉級(jí)!媒體人熱議:衛(wèi)冕提前結(jié)束,米帥注定是恥辱

中國(guó)女足艱難晉級(jí)!媒體人熱議:衛(wèi)冕提前結(jié)束,米帥注定是恥辱

奧拜爾
2026-03-14 15:48:55
西部排名又變了:火箭超越湖人,快船高歌猛進(jìn),勇士岌岌可危

西部排名又變了:火箭超越湖人,快船高歌猛進(jìn),勇士岌岌可危

籃球大視野
2026-03-14 17:26:40
2026-03-14 20:11:00
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
7585文章數(shù) 555關(guān)注度
往期回顧 全部

教育要聞

“終于不用為站崗請(qǐng)假了!”已有學(xué)校取消“家長(zhǎng)護(hù)學(xué)崗”引發(fā)熱議!

頭條要聞

霍爾木茲海峽上周末僅4艘船通過(guò) 繞行要多走5500公里

頭條要聞

霍爾木茲海峽上周末僅4艘船通過(guò) 繞行要多走5500公里

體育要聞

NBA唯一巴西球員,增重20KG頂內(nèi)線

娛樂(lè)要聞

張藝興,犯了大忌

財(cái)經(jīng)要聞

3·15影子暗訪|神秘的“特供酒”

科技要聞

xAI創(chuàng)始伙伴只剩兩人!馬斯克“痛改前非”

汽車要聞

吉利銀河M7技術(shù)首秀 實(shí)力重構(gòu)主流電混SUV

態(tài)度原創(chuàng)

游戲
家居
旅游
手機(jī)
公開(kāi)課

《GTA》歷代開(kāi)發(fā)成本對(duì)比:25年來(lái)暴增上百倍!

家居要聞

藝術(shù)之家 法式優(yōu)雅

旅游要聞

濟(jì)南2026花期預(yù)報(bào)來(lái)了,帶你精準(zhǔn)打卡春日花海

手機(jī)要聞

華為新機(jī)三箭齊發(fā):暢享90系列、Pura X2、Pura 90,均迎大變化!

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版