国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

真實音頻場景,大模型集體掛科!首個原生語音基準(zhǔn)MultiChallenge

0
分享至


新智元報道

編輯:LRST

【新智元導(dǎo)讀】文本領(lǐng)域的大模型滿分選手,換成語音就集體掛科?大模型引以為傲的多輪對話邏輯,在真實人聲面前竟然如此脆弱。Scale AI正式發(fā)布首個原生音頻多輪對話基準(zhǔn)Audio MultiChallenge,直接撕開了大模型靠合成語音評測維持的優(yōu)等生假象。實驗顯示,強如Gemini 3 Pro在真實場景下的通過率也僅過半數(shù),而GPT-4o Audio的表現(xiàn)更是令人大跌眼鏡。

隨著實時語音大模型的普及,人們一度以為AI實時伴侶已經(jīng)跨越了自然交互的最后一道門檻。

然而,大模型在語音對話中表現(xiàn)出的聰明,很大程度上源于評測手段的滯后。

此前,Scale AI推出的MultiChallenge基準(zhǔn)憑借對指令保留、推理記憶和自我一致性的嚴(yán)苛考察,被公認(rèn)為評估大模型邏輯長性的黃金標(biāo)準(zhǔn)。

但長久以來,該基準(zhǔn)一直缺少一個真正的音頻原聲版本。

最近,Scale AI正式補齊了這塊拼圖,發(fā)布Audio MultiChallenge,不僅刷新了語音交互的新高度,更揭開了行業(yè)內(nèi)一個公開的秘密:

由于缺乏原生音頻測試集,模型廠商在發(fā)布報告時,往往不得不利用T2S(Text-to-Speech)將文本基準(zhǔn)轉(zhuǎn)換為語音進(jìn)行評測


論文鏈接:https://arxiv.org/pdf/2512.14865

這種做法雖然讓數(shù)據(jù)看起來很漂亮,卻在無形中給模型加了一層過度美化的濾鏡。



撕掉語音外殼

為什么TTS測不出真本事?

利用TTS轉(zhuǎn)換來進(jìn)行評測,實際上是為模型營造了一個完美的無菌環(huán)境。

TTS 生成的語音平滑、規(guī)律且高度標(biāo)準(zhǔn)化,徹底過濾掉了人類語言中最重要的特質(zhì):日常說話時的各種吞吐、重復(fù)、瑣碎停頓以及臨時改口。

當(dāng)你對AI說:我想定周一,哦不,是周三的票,等下……還是周二吧。

這種充滿了邏輯回溯和口語碎片的自然場景,是目前TTS技術(shù)極力避免但在現(xiàn)實生活中無處不在的。

過去,模型穿上了一層由合成語音搭建的語音外殼,本質(zhì)上是在用文本思維處理潔凈信號。

而一旦脫離這個外殼,面對Audio MultiChallenge中47名真實說話者錄制的原始音頻,模型的邏輯鏈條便會迅速崩塌。

論文直言不諱地指出:模型在合成語音上的得分顯著高于真實人聲,這證實了干凈的合成音頻掩蓋了模型在現(xiàn)實世界中的失敗模式(Masking real-world failure modes)。

Gemini 3 Pro勉強登頂

GPT-4o意外折戟標(biāo)題

Audio MultiChallenge延續(xù)了原版的嚴(yán)苛邏輯,并針對音頻特性新增了致命的一擊,從指令保留、推理記憶、自我一致性以及核心的Voice Editing(語音編輯) 四個軸向?qū)δP瓦M(jìn)行綜合考核。

根據(jù)論文公布的排行榜,目前全球頂尖模型的音頻原生能力普遍處于及格線以下:


實驗數(shù)據(jù)揭露了一個驚人的落差:Gemini 3 Pro Preview憑借其推理架構(gòu)在邏輯深度上維持了領(lǐng)先;而GPT-4o Audio Preview在面對真實人類語音時,表現(xiàn)出的魯棒性遠(yuǎn)低于預(yù)期,通過率甚至只有Gemini的一半左右。

揭秘三大失敗模式

語音邏輯的深層鴻溝

論文通過詳細(xì)的錯誤分析,精準(zhǔn)捕捉到了模型在音頻模態(tài)下的三個軟肋,這些結(jié)論直接指出了大模型在語音交互中的底層Gap:

語音編輯是邏輯黑洞:這是本次基準(zhǔn)新增的維度。當(dāng)用戶在說話過程中中途改口或邏輯回溯時,大多數(shù)模型會死板地執(zhí)行聽到的第一個指令。該維度的平均通過率僅為17.99%,這意味著模型在聽覺上無法有效處理信息的撤回與覆蓋。

時長驅(qū)動的崩潰:模型表現(xiàn)隨著音頻總時長增加而穩(wěn)步惡化。數(shù)據(jù)顯示,當(dāng)對話累計音頻超過8分鐘時,模型的自我一致性得分會驟降至 13% 左右。這意味著目前的語音模型在處理長程語音上下文時,狀態(tài)追蹤能力極其薄弱。

音頻線索的感知缺失:當(dāng)任務(wù)要求模型識別非語義信號(如背景的環(huán)境聲、說話人的語氣情緒)來輔助推理時,模型表現(xiàn)比純語義任務(wù)下降了 36.5%。這說明模型依然把語音當(dāng)成脫水的文字在讀,而沒能真正聽懂聲音背后的物理世界。

結(jié)語

Audio MultiChallenge的發(fā)布證明了語音絕不僅是文本的簡單投射,包含著實時狀態(tài)跟蹤、情緒理解以及復(fù)雜的口語特質(zhì)處理。

Scale AI的這一記重錘敲醒了業(yè)界:如果我們不能撕掉那層精美的語音外殼,解決模型對自然語音中不完美特征的感知斷層,那么AGI驅(qū)動的自由交互,將永遠(yuǎn)停留在聽懂單詞卻不懂邏輯的初級階段。

參考資料:

https://arxiv.org/pdf/2512.14865

秒追ASI

?點贊、轉(zhuǎn)發(fā)、在看一鍵三連?

點亮星標(biāo),鎖定新智元極速推送!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
劉宇杰告別上海申花:感謝陪伴了我十年并且培養(yǎng)了我的俱樂部

劉宇杰告別上海申花:感謝陪伴了我十年并且培養(yǎng)了我的俱樂部

懂球帝
2026-01-09 08:31:04
妮可·基德曼正式離婚,達(dá)成和解協(xié)議:兩個女兒每年和媽媽生活306天,“每隔一個周末”和爸爸見面

妮可·基德曼正式離婚,達(dá)成和解協(xié)議:兩個女兒每年和媽媽生活306天,“每隔一個周末”和爸爸見面

魯中晨報
2026-01-07 19:21:03
烏克蘭海馬斯導(dǎo)彈摧毀紅軍村大量車隊!空襲俄軍指揮部

烏克蘭海馬斯導(dǎo)彈摧毀紅軍村大量車隊!空襲俄軍指揮部

項鵬飛
2026-01-07 17:45:09
向太太敢說了!向華強今年已經(jīng)78了,但是她和向華強還有X生活!

向太太敢說了!向華強今年已經(jīng)78了,但是她和向華強還有X生活!

心靜物娛
2025-12-24 11:02:28
別被“某音”前凸后翹的網(wǎng)紅美女騙了....

別被“某音”前凸后翹的網(wǎng)紅美女騙了....

健身廚屋
2025-11-22 15:41:18
證明自己,火箭記者:楊瀚森是我見過的最有天賦的球員之一

證明自己,火箭記者:楊瀚森是我見過的最有天賦的球員之一

懂球帝
2026-01-08 15:28:45
從碾壓安踏李寧,到月虧過億:曾經(jīng)的運動品牌頂流,到底錯在哪?

從碾壓安踏李寧,到月虧過億:曾經(jīng)的運動品牌頂流,到底錯在哪?

法老不說教
2025-11-29 22:23:08
為什么說“跑步、騎行、羽毛球”,是體育三毒呢?

為什么說“跑步、騎行、羽毛球”,是體育三毒呢?

馬拉松跑步健身
2025-12-03 06:35:06
老婆敗光20億真相大白10個月,張學(xué)友近況引人擔(dān)憂,王晶真沒說錯

老婆敗光20億真相大白10個月,張學(xué)友近況引人擔(dān)憂,王晶真沒說錯

攬星河的筆記
2025-12-29 17:05:48
北京今天北風(fēng)明顯,部分地區(qū)有揚沙,最高氣溫7℃

北京今天北風(fēng)明顯,部分地區(qū)有揚沙,最高氣溫7℃

北青網(wǎng)-北京青年報
2026-01-09 07:27:18
關(guān)之琳老了,林青霞老了,陳紅也老了,唯有56歲的她看起來像36歲

關(guān)之琳老了,林青霞老了,陳紅也老了,唯有56歲的她看起來像36歲

付老師種植技術(shù)團隊
2026-01-05 13:15:15
2025不說再見

2025不說再見

青蘋果sht
2025-12-31 16:08:44
多哈冠軍賽女單16強四席誕生,國乒開門紅韓國一姐被淘汰

多哈冠軍賽女單16強四席誕生,國乒開門紅韓國一姐被淘汰

嘴角上翹的弧度
2026-01-08 04:23:02
為了英國永居權(quán)我和60歲大爺結(jié)婚,誰知領(lǐng)證后大爺說:永居權(quán)給你

為了英國永居權(quán)我和60歲大爺結(jié)婚,誰知領(lǐng)證后大爺說:永居權(quán)給你

朝暮書屋
2026-01-04 18:20:07
U23國足0比0伊拉克,拜合拉木:目標(biāo)小組仍是第一

U23國足0比0伊拉克,拜合拉木:目標(biāo)小組仍是第一

澎湃新聞
2026-01-09 07:46:27
59年彭德懷申請搬離中南海,毛主席指示楊尚昆:找一處好點的房子

59年彭德懷申請搬離中南海,毛主席指示楊尚昆:找一處好點的房子

輿圖看世界
2026-01-07 11:15:03
【關(guān)注】中紀(jì)委開年第一槍:2026嚴(yán)查醫(yī)療腐??!

【關(guān)注】中紀(jì)委開年第一槍:2026嚴(yán)查醫(yī)療腐敗!

魏子檸說
2026-01-09 00:13:49
默多克繼承戰(zhàn)結(jié)束,長子出血33億美元,鄧文迪26年的心機全部兌現(xiàn)

默多克繼承戰(zhàn)結(jié)束,長子出血33億美元,鄧文迪26年的心機全部兌現(xiàn)

電影爛番茄
2025-09-14 22:41:57
2026社保新規(guī)來了!2億靈活就業(yè)者必看

2026社保新規(guī)來了!2億靈活就業(yè)者必看

桑尼先生談理財
2026-01-07 21:01:05
我國南海發(fā)現(xiàn)4艘英國沉船,船上皆為圓明園文物,英國:“請歸還我們!”

我國南海發(fā)現(xiàn)4艘英國沉船,船上皆為圓明園文物,英國:“請歸還我們!”

中國藝術(shù)家
2025-12-04 05:25:58
2026-01-09 09:55:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
14288文章數(shù) 66451關(guān)注度
往期回顧 全部

科技要聞

17.68萬起售!何小鵬一口氣發(fā)了4款車

頭條要聞

媒體:看到委內(nèi)瑞拉總統(tǒng)被美軍活捉 李顯龍怕了

頭條要聞

媒體:看到委內(nèi)瑞拉總統(tǒng)被美軍活捉 李顯龍怕了

體育要聞

世乒賽銀牌得主,說自己夢里都是孫穎莎

娛樂要聞

抗戰(zhàn)劇《馬背搖籃》首播,獲觀眾好評

財經(jīng)要聞

郁亮的萬科35年:從"寶萬之爭"到"活下去"

汽車要聞

限時7.98萬元起!2026款秦L DM-i/秦PLUS DM-i長續(xù)航上市

態(tài)度原創(chuàng)

本地
時尚
健康
手機
軍事航空

本地新聞

1986-2026,一通電話的時空旅程

60+女性穿搭指南來了:4招告別“大媽感”,解鎖冬日優(yōu)雅氣質(zhì)

這些新療法,讓化療不再那么痛苦

手機要聞

Statcounter報告1月全球iOS 26.x普及率約為16%

軍事要聞

特朗普:已開始從委石油資源中賺錢

無障礙瀏覽 進(jìn)入關(guān)懷版