国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

端到端語音模型:從語音表征到模型架構(gòu)

0
分享至


演講嘉賓|楊學(xué)銳

編輯|Kitty

策劃|QCon 全球軟件開發(fā)大會(huì)

在大語言模型(LLM)迅猛發(fā)展的時(shí)代,語音技術(shù)正迎來新一輪變革。本文整理自階躍星辰語音模型負(fù)責(zé)人楊學(xué)銳在 2025 年 QCon 全球軟件開發(fā)大會(huì)(上海站) 的分享“端到端語音模型:從語音表征到模型架構(gòu)”。

預(yù)告:將于 4 月 16 - 18 召開的 QCon 北京站設(shè)計(jì)了「多模態(tài)理解與生成的突破」專題,本專題旨在全面介紹多模態(tài)理解與生成的前沿進(jìn)展,重點(diǎn)關(guān)注文本、圖像、音視頻等多模態(tài)的統(tǒng)一表示、跨模態(tài)推理與生成協(xié)同,以及這些能力如何重塑搜索、分析、設(shè)計(jì)與交互體驗(yàn),探索多模態(tài)如何真正進(jìn)入業(yè)務(wù)流程,成為生產(chǎn)力的一部分,為更多企業(yè)引入多模態(tài)理解與生成應(yīng)用提供清晰的指引與借鑒。敬請(qǐng)關(guān)注。

以下是演講實(shí)錄(經(jīng) InfoQ 進(jìn)行不改變?cè)獾木庉嬚恚?/strong>

我想從語音的角度,談?wù)劥竽P徒o這一領(lǐng)域帶來的范式變化。我所在的公司階躍星辰專注基礎(chǔ)模型,因此我會(huì)更多從基模的視角來分享。內(nèi)容大致分三塊:第一,看看大模型技術(shù)如何重塑語音能力;第二,我們?cè)鯓哟罱ㄒ粋€(gè)真正的端到端語音模型;第三,什么樣的端到端語音模型才算“好”。

1 LLM 如何重塑語音技術(shù)

先進(jìn)入第一部分,看看大模型技術(shù)對(duì)語音能力的具體影響。上一代語音系統(tǒng),其實(shí)也不算“上古”,就是深度學(xué)習(xí)時(shí)代,大家都不陌生:無論識(shí)別還是合成,都是級(jí)聯(lián)或流水線結(jié)構(gòu),模塊多、調(diào)優(yōu)難。理解側(cè)只能處理簡(jiǎn)單指令,無法做多輪、多模態(tài)的深度推理;生成側(cè)(TTS)即便加了情感標(biāo)簽,韻律仍顯模板化,離“人感”還有距離。

大模型對(duì)語音的滲透,最早可從 2022 年底的 Whisper 說起。它發(fā)布時(shí)間早于 ChatGPT,卻已經(jīng)把大模型范式搬進(jìn)語音識(shí)別:把語種識(shí)別、語音活動(dòng)檢測(cè)(VAD)和轉(zhuǎn)寫任務(wù)統(tǒng)一在一個(gè) encoder-decoder 框架里。Whisper 仍依賴 cross-attention,計(jì)算效率不高,流式改造也麻煩,但它已經(jīng)能 scale:從 80 M 到 1.5 B 的多個(gè)版本,ASR 性能隨參數(shù)增加穩(wěn)步提升。這算是大模型與語音結(jié)合的第一次認(rèn)真嘗試。


再往前看,同一時(shí)期還有一套并非大模型路線的方案——阿里的 Paraformer。它效果也不錯(cuò),但結(jié)構(gòu)里嚴(yán)格來說有四個(gè)模塊,比 Whisper 復(fù)雜不少。Paraformer 能不能繼續(xù)放大、能不能 scale up,得打個(gè)問號(hào);而能不能 scale,正是大模型時(shí)代最關(guān)鍵的觀察點(diǎn)之一。


再往后,就到了更徹底的大模型范式:我們今年上半年發(fā)布的 StepASR。它完全用大模型思路做語音識(shí)別:語音先過一個(gè) Audio Encoder,再送進(jìn)大模型的 Decoder,以自回歸方式逐 token 輸出文本。這樣既能把語種識(shí)別、語音轉(zhuǎn)寫、上下文理解、熱詞增強(qiáng)全包在一起,也能借助大模型本身的 context 能力,把整段對(duì)話或文檔當(dāng)作提示,提高準(zhǔn)確率;還可以在 prompt 里塞熱詞,讓專有名詞一次到位。碰上特別冷門的術(shù)語,也能用類似 function call 的機(jī)制去外部查,再回填結(jié)果,這些在傳統(tǒng)流水線里很難一口氣做完。


從結(jié)果看,我們拿 Librispeech 這個(gè)經(jīng)典英文測(cè)試集做對(duì)比:從傳統(tǒng)語音時(shí)代到大模型時(shí)代,字錯(cuò)率一路往下走。Librispeech 本身聲學(xué)環(huán)境相對(duì)干凈,如果在更復(fù)雜的場(chǎng)景里,提升幅度還會(huì)更大。


說完識(shí)別,再看合成。TTS 也經(jīng)歷了從 CNN、RNN 到生成式模型,再到如今大模型的迭代?;疑糠执砘诖竽P偷姆桨福?023 年開始陸續(xù)出現(xiàn),到現(xiàn)在已經(jīng)和 diffusion 路線平分秋色。這張圖只更新到今年 3 月,如果拉到 10 月,大模型范式的 TTS 已經(jīng)明顯占上風(fēng)。


再具體看幾個(gè)典型的 TTS 方案。最早把大模型用在自回歸語音合成上的工作之一是 VALL-E。今天回頭看,它的架構(gòu)確實(shí)有些粗糙,甚至缺了不少細(xì)節(jié),但它像一塊敲門磚:用大語言模型建模,把語音轉(zhuǎn)成 token 后自回歸地預(yù)測(cè)音頻 token,再經(jīng)過一個(gè)音頻 decoder 還原音色?,F(xiàn)在的大模型 TTS 基本還是這個(gè)套路,只是做了點(diǎn)小改動(dòng),比如直接喂文本,不再先把文本轉(zhuǎn)成音素序列。下圖綠色框里那個(gè)“文本→音素”的步驟,在 VALL-E 里還存在,我們后來把它省掉了。VALL-E 算是奠基性的工作,后面業(yè)界又冒出很多有影響力的項(xiàng)目。

接著說說我們自己的 StepTTS。模型本身沒開源,但會(huì)開放部分接口或能力。和 VALL-E、CosyVoice 相比,StepTTS 更端到端、也更“大模型”:它的輸入跟文本大模型完全對(duì)齊,支持 Chat 格式的文本 - 音頻混合輸入。這樣做的好處是天然支持多輪上下文。大家都在談“理解與生成一體化”,TTS 怎么一體化?如果只給一句文本、吐一段音頻,那只是個(gè)映射;真實(shí)對(duì)話里,背景知識(shí)、音色、韻律都藏在上下文里。傳統(tǒng) TTS 范式抓不到這些,而 Chat 格式的多輪輸入讓模型能利用大模型的理解能力,實(shí)現(xiàn)可控生成,甚至音頻編輯。


再提幾篇比較新的工作,就是所謂“Diffusion-AR”路線,比如字節(jié)的 DiTAR 和微軟的 VibeVoice。它們?cè)谇岸螘r(shí)間熱度很高,思路是文本進(jìn)去,直接輸出連續(xù)聲學(xué)表征,屬于一種還在探索的前沿范式,后面講到表征時(shí)還會(huì)再提。


前面分別講了語音識(shí)別和合成這兩個(gè)典型能力。實(shí)際使用時(shí),它們常被塞進(jìn)同一個(gè)系統(tǒng),也就是語音對(duì)話系統(tǒng)。一兩年前,這類系統(tǒng)普遍是三段式:語音先進(jìn) ASR 轉(zhuǎn)成文本,再由語言模型生成文本回復(fù),最后經(jīng) TTS 合成語音。大模型時(shí)代,我們能不能把這三段壓成一段,實(shí)現(xiàn)“理解 - 生成一體化”?答案是肯定的。

說到端到端語音模型,繞不開 GPT-4o Audio。在它發(fā)布前,很多人對(duì)“語音進(jìn)、語音出”的端到端對(duì)話持懷疑態(tài)度。GPT-4o 直接給出證明:純音頻輸入,端到端模型輸出語音,一氣呵成。接下來我就說說怎么搭這樣的模型,以及業(yè)界是怎么一步步走到今天的。

2 如何構(gòu)建端到端語音模型一一表征

我想從四個(gè)角度說說怎么搭一個(gè)端到端語音模型:語音表征、訓(xùn)練與推理、模型架構(gòu),以及它到底能干什么。先談表征。

傳統(tǒng)語音系統(tǒng)里,大家習(xí)慣用人工設(shè)計(jì)的特征,最典型的是梅爾譜。它模仿人耳聽覺,要經(jīng)過模數(shù)轉(zhuǎn)換、分幀、加窗、傅里葉變換等一堆信號(hào)處理步驟,才得到一張頻譜圖??蛇@些專家特征對(duì)模型來說是不是最優(yōu),一直是個(gè)問號(hào)。

于是很自然想到:如果人設(shè)計(jì)的不是最好,那就讓模型自己學(xué)。大概三四年前,這類方法陸續(xù)出現(xiàn)。最簡(jiǎn)單的思路是先把音頻送進(jìn)一個(gè)語音編碼器,變成連續(xù)隱向量,再交給大語言模型的 decoder。這里有幾個(gè)代表性工作。

最早的是 2019 年的 Wav2Vec。它把原始波形過卷積提特征,再用對(duì)比學(xué)習(xí)訓(xùn)練。那時(shí) Transformer 還沒現(xiàn)在火,主干是 CNN。后來迭代到 Wav2Vec 2.0,才把主干換成 Transformer。


另一個(gè)影響很大的工作是 HuBERT。它先用 CNN 提特征,再用類似 BERT 的掩碼語言模型訓(xùn)練:隨機(jī) mask 一些幀,讓網(wǎng)絡(luò)猜這些幀對(duì)應(yīng)什么。HuBERT 其實(shí)對(duì)原始音頻做了聚類,這和后面要說的語音離散化密切相關(guān)。

另外,Whisper 識(shí)別能力那么強(qiáng),它的 encoder 表征肯定不差,于是很多人直接拿 Whisper encoder 當(dāng)語音表征提取器。

上面說的都是大模型出現(xiàn)前的語音表征方法。那大模型怎么表征文本?文本天然是離散的,用 BPE 之類方法切成詞表,每個(gè)詞對(duì)應(yīng)一個(gè) ID,就能在模型里自回歸訓(xùn)練。語音是連續(xù)波形,怎么變成離散 token?這就出現(xiàn)了語音離散化方案,大致分三類:語義 token、聲學(xué) token,以及把兩者統(tǒng)一起來的統(tǒng)一 token。此外還有一些額外維度,比如音高、韻律、風(fēng)格等表征。


我們先來看看最常見的 Semantic Token(語義 Token)方案。所謂語義 Token,指的是那些更高層、更抽象的信息,主要對(duì)應(yīng)說話內(nèi)容本身,也就是“說了什么”。前面提到的連續(xù)表征模型,比如 Wav2Vec、HuBERT,都可以通過離散化手段得到語義 Token。以 HuBERT 為例,它先用 k-means 把連續(xù)向量聚類到若干鄰近空間,再把這些空間映射成離散的 Token ID。

比較有代表性的工作是 BEST-RQ。它的做法與 HuBERT 類似:先對(duì)頻譜做掩碼,再用 encoder 預(yù)測(cè)被掩掉的幀。不同之處在于,BEST-RQ 的碼本是隨機(jī)初始化的,聽起來有些反直覺,但實(shí)際效果卻很好,因此字節(jié)跳動(dòng)等公司在訓(xùn)練語音表征時(shí)常常采用這一方案。另一個(gè)例子是 CosyVoice 的 TTS 系統(tǒng):既然 ASR 模型的 encoder 對(duì)語音的抽象能力已經(jīng)很強(qiáng),那就直接對(duì)它的輸出再做一次離散化,得到的 Token 自然就是高層的語義 Token。


接下來是聲學(xué) Token。聲學(xué) Token 粒度更細(xì),除了“說了什么”,還包含“怎么說”,節(jié)奏、停頓、韻律、情緒等。早期聲學(xué)建模并非神經(jīng)網(wǎng)絡(luò),而是用于音頻傳輸?shù)木幗獯a器,比如 Opus、LPCNet。這些方案追求低碼率與可恢復(fù)性,但壓縮率高時(shí)音質(zhì)損失大,壓縮率低又不夠精簡(jiǎn)。神經(jīng)網(wǎng)絡(luò)興起后,CNN 等方法能更好地建模底層信息。Encodec 是其中的代表:它用 encoder-decoder 結(jié)構(gòu),中間插入量化器,并采用多級(jí)殘差量化。一次量化(如 float32→int8)會(huì)丟失大量信息,Encodec 通過多層殘差逐步保留細(xì)節(jié),從而獲得更好的還原效果。

最后,一個(gè)很自然的想法是把語義 Token 與聲學(xué) Token 融合。人與人交流時(shí),兩種信息缺一不可:聽不懂內(nèi)容不行,忽略說話方式也會(huì)帶來誤解。因此,目前主流方案是所謂的 unified token,即同時(shí)兼顧語義與聲學(xué)還原度。大體上有三種做法,第一種是語義蒸餾。以 SemanticCodec 為例,先訓(xùn)練一個(gè)語義 Codec,再通過蒸餾把知識(shí)遷移到聲學(xué) Codec,使最終 Token 同時(shí)攜帶語義與聲學(xué)信息。不過這種方法在 TTS 任務(wù)里常會(huì)出現(xiàn)說話人相似度下降的問題。


第二種做法是開兩條通道,一條跑語義,一條跑聲學(xué),量化時(shí)再把兩條通道的信息合并,這樣既能保留語義,又能保留聲學(xué)細(xì)節(jié)。一個(gè)典型例子是 EXACT,不少 TTS 或其他語音任務(wù)都基于這種表征來做。

說完連續(xù)和離散兩種表征,我們簡(jiǎn)單回顧一下它們各自的優(yōu)缺點(diǎn)。先說輸入側(cè)——也就是語音理解。右邊那張表里列了實(shí)驗(yàn)結(jié)果,一眼就能看出:連續(xù)表征在理解任務(wù)上普遍優(yōu)于離散表征。道理很直觀,離散化必然丟掉信息,而 ASR、聲音事件檢測(cè)、情緒識(shí)別等都需要豐富的聲學(xué)細(xì)節(jié),因此直到今天,輸入側(cè)用連續(xù)表征仍是更穩(wěn)妥的選擇。


再看輸出側(cè),情況略有不同。目前主流觀點(diǎn)認(rèn)為,離散表征在生成任務(wù)里更穩(wěn)定。以 TTS 為例,它本質(zhì)上是“一對(duì)多”的生成:同一句文本可以對(duì)應(yīng)多種自然發(fā)音。如果輸出是連續(xù)向量,取值范圍太大,訓(xùn)練容易發(fā)散。所以大多數(shù) TTS 仍采用離散 Token,后面再掛一個(gè) diffusion 模型來補(bǔ)回聲學(xué)細(xì)節(jié)。連續(xù)表征的問題除了不穩(wěn)定,還有過度平滑,導(dǎo)致風(fēng)格、情緒等維度不容易拉開差距。

3 如何構(gòu)建端到端語音模型——架構(gòu)

既然我們已經(jīng)能把語音表征出來,下一步就是把它們?nèi)M(jìn)大語言模型,搭一個(gè)真正的端到端架構(gòu)。這里仍然要區(qū)分理解側(cè)和生成側(cè)。

理解側(cè)相對(duì)直接:可以喂連續(xù)向量,也可以喂離散 Token;離散 Token 可以用單碼本,也可以像 EnCodec 那樣用多級(jí)殘差碼本,把更多聲學(xué)細(xì)節(jié)保下來。

生成側(cè)就復(fù)雜得多。如果讓大模型只輸出語音 Token、不碰文本,訓(xùn)練容易發(fā)散,語義也容易出現(xiàn)長(zhǎng)程斷裂。因此多數(shù)做法都會(huì)讓模型先給出文本或更高層級(jí)的引導(dǎo)信息。最樸素的想法是先完整生成文本,再用文本去指導(dǎo)音頻生成——類似 CoT,但延遲高,且文本一長(zhǎng)就可能和音頻對(duì)不齊。于是業(yè)界主要走兩條路:Multi-head 和 Interleaved。

Interleaved 是在 Token 層面做交錯(cuò):每生成一個(gè)文字 Token,就立刻跟上一段對(duì)應(yīng)的音頻 Token,再下一個(gè)字、再一段音,像拉鏈一樣咬合。Multi-head 則是給大模型加多個(gè)輸出頭,每個(gè)頭負(fù)責(zé)不同粒度的信息。Delay pattern 也可以看成 Multi-head 的一種變體,這里不再展開。


還有一個(gè)關(guān)鍵問題:我們最終聽到的是聲音,不是 Token。因此模型輸出的 Token 必須再轉(zhuǎn)成波形。常見做法有兩種:

  1. 后接 diffusion 模塊,先把 Token 變成梅爾譜或其他時(shí)頻特征,再用 Vocoder 轉(zhuǎn)成波形;

  2. 直接用純卷積網(wǎng)絡(luò)一步到位。選哪種取決于建模粒度。如果只有語義 Token,聲學(xué)細(xì)節(jié)不足,就需要 diffusion 來補(bǔ);如果 Token 本身已含足夠聲學(xué)信息,也可以省掉 diffusion。


下面看幾個(gè)有代表性的端到端語音模型。Moshi 是法國一家公司做的方案,GPT-4o 之后最早發(fā)布的可體驗(yàn)?zāi)P?。?dāng)時(shí) GPT-4o 沒開源,Moshi 成了唯一可調(diào)試的標(biāo)桿。以今天的眼光來看,它可能存在的問題是結(jié)構(gòu)太“拼盤”:底層是一個(gè)自回歸大模型,上面又疊了獨(dú)立的 Temporal Transformer,再迭代生成語義和聲學(xué) Token,最后解碼。這種異構(gòu)設(shè)計(jì)導(dǎo)致很難 scale,模型也偏小,想再往上提效果比較吃力。


最近千問語音也在持續(xù)開源,做得確實(shí)不錯(cuò)。他們的方案是一個(gè)兩級(jí)架構(gòu),設(shè)計(jì)得挺巧妙,叫 Thinker-Talker。Thinker 負(fù)責(zé)理解:接收語音輸入,產(chǎn)出文本或文本的 hidden state;再把 hidden state 丟給 Talker 去生成音頻。雖然不夠端到端,卻更可控,把理解與生成做了隔離,中間又共享了 condition。他們還用了 DeepSeek-R1 里的 MTP 模塊來輔助多碼本生成,音質(zhì)因此更好。


回到我們自己的做法。我一直強(qiáng)調(diào)階躍的模型更端到端,這也是我們堅(jiān)持的方向:只用一個(gè)大語言模型完成“語音進(jìn)、語音出”。具體設(shè)計(jì)如下。前面說過,理解側(cè)連續(xù)表征效果更好,我們就用連續(xù)向量;生成側(cè)離散 Token 更穩(wěn)定,我們就用離散 Token。這樣雖然有一點(diǎn)點(diǎn)異構(gòu),但各自發(fā)揮了優(yōu)勢(shì)。理解側(cè)的 token 率設(shè)得低一些,因?yàn)樾畔⒏橄?、貼近文本,我們定在 12.5 Hz,輸入 token 總量更少。輸出側(cè)為了保留風(fēng)格、韻律和合成質(zhì)量,token 率更高。怎么跟文本融合?前面提過,純語音 Token 長(zhǎng)程建模容易出問題,需要文本引導(dǎo),我們就用剛才說的交錯(cuò)范式,讓音頻和文本 token 交替出現(xiàn),既對(duì)齊又穩(wěn)定,音質(zhì)也能保住。


4 如何構(gòu)建端到端語音模型——訓(xùn)推

訓(xùn)練這塊我們做的是基礎(chǔ)模型,數(shù)據(jù)量很大,token 數(shù)超過 1 T,分多個(gè)階段訓(xùn)練。預(yù)訓(xùn)練階段會(huì)把語義對(duì)齊、續(xù)寫、ASR、TTS 等各種任務(wù)都跑一遍。第四階段用了一種比較新的范式叫 Midtrain,用少量高質(zhì)量領(lǐng)域數(shù)據(jù)把模型能力往特定方向遷移,效果挺明顯。為了不讓語音任務(wù)沖掉模型原有的“智商”,我們按語音數(shù)據(jù)量 1:1 配了純文本數(shù)據(jù)。


后訓(xùn)練分 SFT 和 RL 兩塊。SFT 用真人對(duì)話 pattern 把理解、識(shí)別、生成任務(wù)都包進(jìn)來。我們搭了一套播客級(jí)對(duì)話數(shù)據(jù)管線,能批量產(chǎn)出真人級(jí)別的對(duì)話語料。

RL 這塊我們算是比較早把完整 RL 流程放進(jìn)端到端語音模型的。先冷啟動(dòng),借鑒了 DeepSeek-R1 的思路,再做 RLHF 和 RLVR。RLHF 調(diào)偏好,RLVR 用預(yù)定義 reward 函數(shù)繼續(xù)提智商。RLHF 用 PPO,RLVR 用 GRPO。最終模型情緒、副語言、音頻理解都不錯(cuò),智商也高,語音和文本能力合在一起。舉個(gè)例子,在心理咨詢或情感安撫場(chǎng)景里,它能做比較深的情感推理。


推理時(shí)我們主要做兩件事。一是交錯(cuò) Token 處理:文本 Token 只起引導(dǎo)作用,最后合成音頻時(shí)會(huì)被丟掉,只用語音 Token 進(jìn) Audio decoder。二是多輪上下文:傳統(tǒng)大模型只把文本當(dāng)上下文,我們把音頻也塞進(jìn)去,信息更完整。

5 如何構(gòu)建端到端語音模型——任務(wù)

第四塊看看端到端語音模型到底能干哪些活。其實(shí)跟傳統(tǒng)語音技術(shù)差不多,核心還是理解與生成兩大類。

先說理解。語音識(shí)別當(dāng)然是必測(cè)項(xiàng)。我們把 Step-Audio2 跟豆包、GPT-4o、千問等模型做了全面對(duì)比,中英文、多語種、方言場(chǎng)景,整體都是最好的。


音頻與副語言理解這塊比較有趣,很多語音模型不太提,因?yàn)榇_實(shí)不好做,但我們專門加強(qiáng)了。舉個(gè)例子:一個(gè)女生帶著哭腔說“我很痛苦了……”,背景還有音樂。傳統(tǒng)做法得先上 VAD,再跑性別識(shí)別、年齡識(shí)別、語音識(shí)別、情感識(shí)別、音樂理解……一堆模塊拼完才能出結(jié)果?,F(xiàn)在用我們的大模型方案,直接一句自然語言描述就能把所有信息一次性拉出來。


再看生成。最直觀的就是以前 TTS 的前端模塊:文本先轉(zhuǎn)拼音,專有名詞得替換成模型能念的字,多音字還得加提示。現(xiàn)在靠模型自己的推理能力就能搞定。實(shí)際推理時(shí),模型會(huì)先“想”:用戶給的拼音是什么、上下文怎么理解、表達(dá)時(shí)要注意什么,想完再輸出音頻,省掉所有前置轉(zhuǎn)換模塊。

可控生成也很重要。純文本輸入時(shí),我們往往想加點(diǎn)停頓、笑聲、嘆氣之類。只要把 SSML 標(biāo)簽直接寫進(jìn)文本,模型就能按標(biāo)簽?zāi)畛鲎匀坏母闭Z言表現(xiàn)。


最后是音頻編輯。大家對(duì)圖像編輯比較熟,音頻編輯做得少,我們算是國內(nèi)較早落地的。輸入一段音頻,可以改情緒、改風(fēng)格、增刪改臺(tái)詞,還能降噪。比如原音頻文本是撒嬌語氣,但聽起來不夠嬌,讓模型編輯成撒嬌風(fēng)格,風(fēng)格就轉(zhuǎn)換過去了。

接下來講工具調(diào)用,也就是最近很熱的 voice agent 概念。核心是怎么規(guī)劃、怎么推理任務(wù),并在執(zhí)行過程中調(diào)用更多工具。Step-Audio2 應(yīng)該是第一個(gè)把語音 tool call 融進(jìn)端到端語音模型的。我們自己測(cè)過,在很多場(chǎng)景下跟文本模型比沒有明顯劣化,有些場(chǎng)景甚至更好。語音 tool call 和文本的最大區(qū)別,是它能支持“音頻級(jí)”工具調(diào)用。比如 Audio Search:用戶說“我想要某某音色”,模型通過 tool call 把對(duì)應(yīng)的波形 prompt 插進(jìn)上下文,后續(xù)對(duì)話就會(huì)換成這個(gè)音色。因?yàn)槭谴竽P头妒?,回?fù)風(fēng)格也會(huì)跟著變,相當(dāng)于用一句話完成角色扮演。


語音經(jīng)常用在實(shí)時(shí)場(chǎng)景,全雙工因此很關(guān)鍵。全雙工指的是:我可以打斷你,你也可以打斷我;我說到一半停頓時(shí),你知道我在思考,不會(huì)搶話。這跟文本的回合制不同,真實(shí)交互要復(fù)雜得多。具體技術(shù)范式有好幾種,這里不展開。

我想重點(diǎn)說的是我們正在做的“全雙工推理”。大模型在全雙工場(chǎng)景下需要實(shí)時(shí)問答,可一旦做推理,思考時(shí)間就變長(zhǎng),延遲上去。我們目前走兩條路:一是“邊聽邊想”,對(duì)方說話時(shí)我就開始思考,這叫 conversational thinking,跟人面對(duì)面交流一樣;二是“邊說邊想”,我開口的同時(shí)繼續(xù)推理,叫 Mind-Paced Speaking。用這兩種方式,模型幾乎零延遲就能輸出帶推理的結(jié)果。


6 模型評(píng)估:什么是好模型

最后簡(jiǎn)單說說“什么叫好模型”以及怎么評(píng)估。跟以前一樣,得全方位測(cè)評(píng):所有單點(diǎn)能力都要測(cè)。對(duì)話能力則比文本模型多不少維度——全雙工、情感與共情、生成音頻的韻律、自然度、風(fēng)格一致性等,文本模型都不用管。多輪對(duì)話里,還要保證情感、說話風(fēng)格、韻律前后一致,這對(duì)語音模型特別重要。我們做了個(gè)叫 Multi-Bench 的評(píng)測(cè),已投 ICASSP,尚未在 arXiv 公開。它填補(bǔ)了之前 benchmark 在多輪一致性上的空白,算是評(píng)估方面的新東西。


演講嘉賓介紹

楊學(xué)銳,歷任階躍星辰語音模型負(fù)責(zé)人,大疆創(chuàng)新音頻負(fù)責(zé)人,云從科技語音算法負(fù)責(zé)人。在相關(guān)領(lǐng)域深耕多年,發(fā)表論文、專利、書籍若干。

會(huì)議推薦

QCon 全球軟件開發(fā)大會(huì)·2026 北京站將于 4 月 16 日 -18 日正式舉辦。本屆大會(huì)以“Agentic AI 時(shí)代的軟件工程重塑”為主題,聚焦 100+ 重磅議題,匯聚來自阿里、騰訊、字節(jié)跳動(dòng)、小米、百度等一線科技企業(yè)與創(chuàng)新團(tuán)隊(duì)的技術(shù)專家,圍繞 AI 工程化、系統(tǒng)架構(gòu)與研發(fā)模式演進(jìn)展開深入探討。更多詳情可掃碼或聯(lián)系票務(wù)經(jīng)理 18514549229 進(jìn)行咨詢。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
廣告使用“清朝長(zhǎng)辮”被指辱華,法國品牌Lemaire致歉

廣告使用“清朝長(zhǎng)辮”被指辱華,法國品牌Lemaire致歉

南方都市報(bào)
2026-04-26 20:40:18
男子一身名牌坐地鐵,被指像成功人士,網(wǎng)友:再有錢也怕堵車

男子一身名牌坐地鐵,被指像成功人士,網(wǎng)友:再有錢也怕堵車

丫頭舫
2026-04-27 17:39:57
38歲王思聰近照認(rèn)不出!滿頭白發(fā)穿睡衣度假,駝背顯老像 50 歲

38歲王思聰近照認(rèn)不出!滿頭白發(fā)穿睡衣度假,駝背顯老像 50 歲

橙星文娛
2026-04-27 14:17:09
2-3!3-3!瘋狂一夜,亞特蘭大爆大冷,拉齊奧補(bǔ)時(shí)絕平,曼聯(lián)險(xiǎn)勝

2-3!3-3!瘋狂一夜,亞特蘭大爆大冷,拉齊奧補(bǔ)時(shí)絕平,曼聯(lián)險(xiǎn)勝

足球狗說
2026-04-28 05:07:09
“酩酊大醉”不讀míng dīng dà zuì了,正確讀音是什么?

“酩酊大醉”不讀míng dīng dà zuì了,正確讀音是什么?

未央看點(diǎn)
2026-04-27 22:13:40
從排隊(duì)入籍到集體觀望?美國入籍申請(qǐng)?bào)E降,綠卡人群態(tài)度變了?

從排隊(duì)入籍到集體觀望?美國入籍申請(qǐng)?bào)E降,綠卡人群態(tài)度變了?

紐約時(shí)間
2026-04-28 02:29:16
看完女排最新集訓(xùn),心里五味雜陳!別說里約,連倫敦周期都比不上

看完女排最新集訓(xùn),心里五味雜陳!別說里約,連倫敦周期都比不上

金毛愛女排
2026-04-28 00:00:04
Deepseek,光通信之后的下一個(gè)主升浪

Deepseek,光通信之后的下一個(gè)主升浪

靜姐的財(cái)富第六感
2026-04-26 22:31:06
淚目 趙心童曬兒時(shí)與丁俊暉合照:偶像暉哥讓我加油 你也要加油啊

淚目 趙心童曬兒時(shí)與丁俊暉合照:偶像暉哥讓我加油 你也要加油啊

風(fēng)過鄉(xiāng)
2026-04-27 06:15:09
有的人為了當(dāng)官,把老婆送給領(lǐng)導(dǎo)睡

有的人為了當(dāng)官,把老婆送給領(lǐng)導(dǎo)睡

斜杠人生
2026-04-28 00:00:04
金價(jià):大家不用等候了!不出意外,金價(jià)可能將歷史重演!

金價(jià):大家不用等候了!不出意外,金價(jià)可能將歷史重演!

殘夢(mèng)重生來
2026-04-28 04:40:09
不到72小時(shí),俞敏洪再迎兩大壞消息,主播集體辭職只是“開胃菜”

不到72小時(shí),俞敏洪再迎兩大壞消息,主播集體辭職只是“開胃菜”

阿廢冷眼觀察所
2026-04-28 00:24:36
皮蛋再次成為關(guān)注對(duì)象!研究發(fā)現(xiàn):高血脂吃皮蛋,身體或有6改善

皮蛋再次成為關(guān)注對(duì)象!研究發(fā)現(xiàn):高血脂吃皮蛋,身體或有6改善

健康科普365
2026-04-25 09:27:08
七萬匹東洋大馬的覆滅:國民黨三年敗光日本四十五年心血

七萬匹東洋大馬的覆滅:國民黨三年敗光日本四十五年心血

小莜讀史
2026-04-26 22:44:33
特朗普轉(zhuǎn)發(fā)“中印是人間地獄”,印度痛批低俗,中方態(tài)度耐人尋味

特朗普轉(zhuǎn)發(fā)“中印是人間地獄”,印度痛批低俗,中方態(tài)度耐人尋味

線裝史冊(cè)
2026-04-28 02:38:29
東南亞隱藏的“電詐大佬”,一個(gè)個(gè)正在浮出水面

東南亞隱藏的“電詐大佬”,一個(gè)個(gè)正在浮出水面

現(xiàn)實(shí)的聲音
2026-04-27 20:36:14
大姑子一家9口住進(jìn)來,老公說他5200養(yǎng)活全家足夠,我?guī)夯啬锛?>
    </a>
        <h3>
      <a href=麥子情感故事
2026-04-27 21:34:15
沒人再提激光雷達(dá)數(shù)量?直擊北京車展:今年智能駕駛“卷”什么

沒人再提激光雷達(dá)數(shù)量?直擊北京車展:今年智能駕駛“卷”什么

時(shí)代周報(bào)
2026-04-26 18:14:26
涉黃被傳喚,馬斯克出事了

涉黃被傳喚,馬斯克出事了

營(yíng)銷頭版
2026-04-27 14:42:14
中國排協(xié)官宣!16點(diǎn)30分,女排訓(xùn)練將直播,第二批球員恐揭曉

中國排協(xié)官宣!16點(diǎn)30分,女排訓(xùn)練將直播,第二批球員恐揭曉

跑者排球視角
2026-04-27 23:48:17
2026-04-28 05:28:49
InfoQ incentive-icons
InfoQ
有內(nèi)容的技術(shù)社區(qū)媒體
12309文章數(shù) 51863關(guān)注度
往期回顧 全部

科技要聞

DeepSeek V4上線三天,第一批實(shí)測(cè)出來了

頭條要聞

坐在特朗普身邊親歷槍擊案的女記者 身份非常不一般

頭條要聞

坐在特朗普身邊親歷槍擊案的女記者 身份非常不一般

體育要聞

人類馬拉松"破二"新紀(jì)元,一場(chǎng)跑鞋軍備競(jìng)賽

娛樂要聞

黃楊鈿甜為“耳環(huán)風(fēng)波”出鏡道歉:謠言已澄清

財(cái)經(jīng)要聞

Meta 140億收購Manus遭中國發(fā)改委否決

汽車要聞

不那么小眾也可以 smart的路會(huì)越走越寬

態(tài)度原創(chuàng)

房產(chǎn)
旅游
本地
手機(jī)
公開課

房產(chǎn)要聞

信號(hào)!海南商業(yè)版圖,迎來大變局!

旅游要聞

不止看花 京津冀春日游花樣翻新

本地新聞

云游中國|逛世界風(fēng)箏都 留學(xué)生探秘中國傳統(tǒng)文化

手機(jī)要聞

一加Nord CE6 Lite官宣5月7日發(fā)布,7000mAh電池

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版