網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

端到端語音模型：從語音表征到模型架構(gòu)

2026-04-09 17:20:51　來源: InfoQ

北京舉報(bào)

分享至

演講嘉賓｜楊學(xué)銳

編輯｜Kitty

策劃｜QCon 全球軟件開發(fā)大會(huì)

在大語言模型（LLM）迅猛發(fā)展的時(shí)代，語音技術(shù)正迎來新一輪變革。本文整理自階躍星辰語音模型負(fù)責(zé)人楊學(xué)銳在 2025 年 QCon 全球軟件開發(fā)大會(huì)（上海站）的分享“端到端語音模型：從語音表征到模型架構(gòu)”。

預(yù)告：將于 4 月 16 - 18 召開的 QCon 北京站設(shè)計(jì)了「多模態(tài)理解與生成的突破」專題，本專題旨在全面介紹多模態(tài)理解與生成的前沿進(jìn)展，重點(diǎn)關(guān)注文本、圖像、音視頻等多模態(tài)的統(tǒng)一表示、跨模態(tài)推理與生成協(xié)同，以及這些能力如何重塑搜索、分析、設(shè)計(jì)與交互體驗(yàn)，探索多模態(tài)如何真正進(jìn)入業(yè)務(wù)流程，成為生產(chǎn)力的一部分，為更多企業(yè)引入多模態(tài)理解與生成應(yīng)用提供清晰的指引與借鑒。敬請(qǐng)關(guān)注。

以下是演講實(shí)錄（經(jīng) InfoQ 進(jìn)行不改變?cè)獾木庉嬚恚?/strong>

我想從語音的角度，談?wù)劥竽Ｐ徒o這一領(lǐng)域帶來的范式變化。我所在的公司階躍星辰專注基礎(chǔ)模型，因此我會(huì)更多從基模的視角來分享。內(nèi)容大致分三塊：第一，看看大模型技術(shù)如何重塑語音能力；第二，我們?cè)鯓哟罱ㄒ粋€(gè)真正的端到端語音模型；第三，什么樣的端到端語音模型才算“好”。

1 LLM 如何重塑語音技術(shù)

先進(jìn)入第一部分，看看大模型技術(shù)對(duì)語音能力的具體影響。上一代語音系統(tǒng)，其實(shí)也不算“上古”，就是深度學(xué)習(xí)時(shí)代，大家都不陌生：無論識(shí)別還是合成，都是級(jí)聯(lián)或流水線結(jié)構(gòu)，模塊多、調(diào)優(yōu)難。理解側(cè)只能處理簡(jiǎn)單指令，無法做多輪、多模態(tài)的深度推理；生成側(cè)（TTS）即便加了情感標(biāo)簽，韻律仍顯模板化，離“人感”還有距離。

大模型對(duì)語音的滲透，最早可從 2022 年底的 Whisper 說起。它發(fā)布時(shí)間早于 ChatGPT，卻已經(jīng)把大模型范式搬進(jìn)語音識(shí)別：把語種識(shí)別、語音活動(dòng)檢測(cè)（VAD）和轉(zhuǎn)寫任務(wù)統(tǒng)一在一個(gè) encoder-decoder 框架里。Whisper 仍依賴 cross-attention，計(jì)算效率不高，流式改造也麻煩，但它已經(jīng)能 scale：從 80 M 到 1.5 B 的多個(gè)版本，ASR 性能隨參數(shù)增加穩(wěn)步提升。這算是大模型與語音結(jié)合的第一次認(rèn)真嘗試。

再往前看，同一時(shí)期還有一套并非大模型路線的方案——阿里的 Paraformer。它效果也不錯(cuò)，但結(jié)構(gòu)里嚴(yán)格來說有四個(gè)模塊，比 Whisper 復(fù)雜不少。Paraformer 能不能繼續(xù)放大、能不能 scale up，得打個(gè)問號(hào)；而能不能 scale，正是大模型時(shí)代最關(guān)鍵的觀察點(diǎn)之一。

再往后，就到了更徹底的大模型范式：我們今年上半年發(fā)布的 StepASR。它完全用大模型思路做語音識(shí)別：語音先過一個(gè) Audio Encoder，再送進(jìn)大模型的 Decoder，以自回歸方式逐 token 輸出文本。這樣既能把語種識(shí)別、語音轉(zhuǎn)寫、上下文理解、熱詞增強(qiáng)全包在一起，也能借助大模型本身的 context 能力，把整段對(duì)話或文檔當(dāng)作提示，提高準(zhǔn)確率；還可以在 prompt 里塞熱詞，讓專有名詞一次到位。碰上特別冷門的術(shù)語，也能用類似 function call 的機(jī)制去外部查，再回填結(jié)果，這些在傳統(tǒng)流水線里很難一口氣做完。

從結(jié)果看，我們拿 Librispeech 這個(gè)經(jīng)典英文測(cè)試集做對(duì)比：從傳統(tǒng)語音時(shí)代到大模型時(shí)代，字錯(cuò)率一路往下走。Librispeech 本身聲學(xué)環(huán)境相對(duì)干凈，如果在更復(fù)雜的場(chǎng)景里，提升幅度還會(huì)更大。

說完識(shí)別，再看合成。TTS 也經(jīng)歷了從 CNN、RNN 到生成式模型，再到如今大模型的迭代?；疑糠执砘诖竽Ｐ偷姆桨福?023 年開始陸續(xù)出現(xiàn)，到現(xiàn)在已經(jīng)和 diffusion 路線平分秋色。這張圖只更新到今年 3 月，如果拉到 10 月，大模型范式的 TTS 已經(jīng)明顯占上風(fēng)。

再具體看幾個(gè)典型的 TTS 方案。最早把大模型用在自回歸語音合成上的工作之一是 VALL-E。今天回頭看，它的架構(gòu)確實(shí)有些粗糙，甚至缺了不少細(xì)節(jié)，但它像一塊敲門磚：用大語言模型建模，把語音轉(zhuǎn)成 token 后自回歸地預(yù)測(cè)音頻 token，再經(jīng)過一個(gè)音頻 decoder 還原音色?，F(xiàn)在的大模型 TTS 基本還是這個(gè)套路，只是做了點(diǎn)小改動(dòng)，比如直接喂文本，不再先把文本轉(zhuǎn)成音素序列。下圖綠色框里那個(gè)“文本→音素”的步驟，在 VALL-E 里還存在，我們后來把它省掉了。VALL-E 算是奠基性的工作，后面業(yè)界又冒出很多有影響力的項(xiàng)目。

接著說說我們自己的 StepTTS。模型本身沒開源，但會(huì)開放部分接口或能力。和 VALL-E、CosyVoice 相比，StepTTS 更端到端、也更“大模型”：它的輸入跟文本大模型完全對(duì)齊，支持 Chat 格式的文本 - 音頻混合輸入。這樣做的好處是天然支持多輪上下文。大家都在談“理解與生成一體化”，TTS 怎么一體化？如果只給一句文本、吐一段音頻，那只是個(gè)映射；真實(shí)對(duì)話里，背景知識(shí)、音色、韻律都藏在上下文里。傳統(tǒng) TTS 范式抓不到這些，而 Chat 格式的多輪輸入讓模型能利用大模型的理解能力，實(shí)現(xiàn)可控生成，甚至音頻編輯。

再提幾篇比較新的工作，就是所謂“Diffusion-AR”路線，比如字節(jié)的 DiTAR 和微軟的 VibeVoice。它們?cè)谇岸螘r(shí)間熱度很高，思路是文本進(jìn)去，直接輸出連續(xù)聲學(xué)表征，屬于一種還在探索的前沿范式，后面講到表征時(shí)還會(huì)再提。

前面分別講了語音識(shí)別和合成這兩個(gè)典型能力。實(shí)際使用時(shí)，它們常被塞進(jìn)同一個(gè)系統(tǒng)，也就是語音對(duì)話系統(tǒng)。一兩年前，這類系統(tǒng)普遍是三段式：語音先進(jìn) ASR 轉(zhuǎn)成文本，再由語言模型生成文本回復(fù)，最后經(jīng) TTS 合成語音。大模型時(shí)代，我們能不能把這三段壓成一段，實(shí)現(xiàn)“理解 - 生成一體化”？答案是肯定的。

說到端到端語音模型，繞不開 GPT-4o Audio。在它發(fā)布前，很多人對(duì)“語音進(jìn)、語音出”的端到端對(duì)話持懷疑態(tài)度。GPT-4o 直接給出證明：純音頻輸入，端到端模型輸出語音，一氣呵成。接下來我就說說怎么搭這樣的模型，以及業(yè)界是怎么一步步走到今天的。

2 如何構(gòu)建端到端語音模型一一表征

我想從四個(gè)角度說說怎么搭一個(gè)端到端語音模型：語音表征、訓(xùn)練與推理、模型架構(gòu)，以及它到底能干什么。先談表征。

傳統(tǒng)語音系統(tǒng)里，大家習(xí)慣用人工設(shè)計(jì)的特征，最典型的是梅爾譜。它模仿人耳聽覺，要經(jīng)過模數(shù)轉(zhuǎn)換、分幀、加窗、傅里葉變換等一堆信號(hào)處理步驟，才得到一張頻譜圖?？蛇@些專家特征對(duì)模型來說是不是最優(yōu)，一直是個(gè)問號(hào)。

于是很自然想到：如果人設(shè)計(jì)的不是最好，那就讓模型自己學(xué)。大概三四年前，這類方法陸續(xù)出現(xiàn)。最簡(jiǎn)單的思路是先把音頻送進(jìn)一個(gè)語音編碼器，變成連續(xù)隱向量，再交給大語言模型的 decoder。這里有幾個(gè)代表性工作。

最早的是 2019 年的 Wav2Vec。它把原始波形過卷積提特征，再用對(duì)比學(xué)習(xí)訓(xùn)練。那時(shí) Transformer 還沒現(xiàn)在火，主干是 CNN。后來迭代到 Wav2Vec 2.0，才把主干換成 Transformer。

另一個(gè)影響很大的工作是 HuBERT。它先用 CNN 提特征，再用類似 BERT 的掩碼語言模型訓(xùn)練：隨機(jī) mask 一些幀，讓網(wǎng)絡(luò)猜這些幀對(duì)應(yīng)什么。HuBERT 其實(shí)對(duì)原始音頻做了聚類，這和后面要說的語音離散化密切相關(guān)。

另外，Whisper 識(shí)別能力那么強(qiáng)，它的 encoder 表征肯定不差，于是很多人直接拿 Whisper encoder 當(dāng)語音表征提取器。

上面說的都是大模型出現(xiàn)前的語音表征方法。那大模型怎么表征文本？文本天然是離散的，用 BPE 之類方法切成詞表，每個(gè)詞對(duì)應(yīng)一個(gè) ID，就能在模型里自回歸訓(xùn)練。語音是連續(xù)波形，怎么變成離散 token？這就出現(xiàn)了語音離散化方案，大致分三類：語義 token、聲學(xué) token，以及把兩者統(tǒng)一起來的統(tǒng)一 token。此外還有一些額外維度，比如音高、韻律、風(fēng)格等表征。

我們先來看看最常見的 Semantic Token（語義 Token）方案。所謂語義 Token，指的是那些更高層、更抽象的信息，主要對(duì)應(yīng)說話內(nèi)容本身，也就是“說了什么”。前面提到的連續(xù)表征模型，比如 Wav2Vec、HuBERT，都可以通過離散化手段得到語義 Token。以 HuBERT 為例，它先用 k-means 把連續(xù)向量聚類到若干鄰近空間，再把這些空間映射成離散的 Token ID。

比較有代表性的工作是 BEST-RQ。它的做法與 HuBERT 類似：先對(duì)頻譜做掩碼，再用 encoder 預(yù)測(cè)被掩掉的幀。不同之處在于，BEST-RQ 的碼本是隨機(jī)初始化的，聽起來有些反直覺，但實(shí)際效果卻很好，因此字節(jié)跳動(dòng)等公司在訓(xùn)練語音表征時(shí)常常采用這一方案。另一個(gè)例子是 CosyVoice 的 TTS 系統(tǒng)：既然 ASR 模型的 encoder 對(duì)語音的抽象能力已經(jīng)很強(qiáng)，那就直接對(duì)它的輸出再做一次離散化，得到的 Token 自然就是高層的語義 Token。

接下來是聲學(xué) Token。聲學(xué) Token 粒度更細(xì)，除了“說了什么”，還包含“怎么說”，節(jié)奏、停頓、韻律、情緒等。早期聲學(xué)建模并非神經(jīng)網(wǎng)絡(luò)，而是用于音頻傳輸?shù)木幗獯a器，比如 Opus、LPCNet。這些方案追求低碼率與可恢復(fù)性，但壓縮率高時(shí)音質(zhì)損失大，壓縮率低又不夠精簡(jiǎn)。神經(jīng)網(wǎng)絡(luò)興起后，CNN 等方法能更好地建模底層信息。Encodec 是其中的代表：它用 encoder-decoder 結(jié)構(gòu)，中間插入量化器，并采用多級(jí)殘差量化。一次量化（如 float32→int8）會(huì)丟失大量信息，Encodec 通過多層殘差逐步保留細(xì)節(jié)，從而獲得更好的還原效果。

最后，一個(gè)很自然的想法是把語義 Token 與聲學(xué) Token 融合。人與人交流時(shí)，兩種信息缺一不可：聽不懂內(nèi)容不行，忽略說話方式也會(huì)帶來誤解。因此，目前主流方案是所謂的 unified token，即同時(shí)兼顧語義與聲學(xué)還原度。大體上有三種做法，第一種是語義蒸餾。以 SemanticCodec 為例，先訓(xùn)練一個(gè)語義 Codec，再通過蒸餾把知識(shí)遷移到聲學(xué) Codec，使最終 Token 同時(shí)攜帶語義與聲學(xué)信息。不過這種方法在 TTS 任務(wù)里常會(huì)出現(xiàn)說話人相似度下降的問題。

第二種做法是開兩條通道，一條跑語義，一條跑聲學(xué)，量化時(shí)再把兩條通道的信息合并，這樣既能保留語義，又能保留聲學(xué)細(xì)節(jié)。一個(gè)典型例子是 EXACT，不少 TTS 或其他語音任務(wù)都基于這種表征來做。

說完連續(xù)和離散兩種表征，我們簡(jiǎn)單回顧一下它們各自的優(yōu)缺點(diǎn)。先說輸入側(cè)——也就是語音理解。右邊那張表里列了實(shí)驗(yàn)結(jié)果，一眼就能看出：連續(xù)表征在理解任務(wù)上普遍優(yōu)于離散表征。道理很直觀，離散化必然丟掉信息，而 ASR、聲音事件檢測(cè)、情緒識(shí)別等都需要豐富的聲學(xué)細(xì)節(jié)，因此直到今天，輸入側(cè)用連續(xù)表征仍是更穩(wěn)妥的選擇。

再看輸出側(cè)，情況略有不同。目前主流觀點(diǎn)認(rèn)為，離散表征在生成任務(wù)里更穩(wěn)定。以 TTS 為例，它本質(zhì)上是“一對(duì)多”的生成：同一句文本可以對(duì)應(yīng)多種自然發(fā)音。如果輸出是連續(xù)向量，取值范圍太大，訓(xùn)練容易發(fā)散。所以大多數(shù) TTS 仍采用離散 Token，后面再掛一個(gè) diffusion 模型來補(bǔ)回聲學(xué)細(xì)節(jié)。連續(xù)表征的問題除了不穩(wěn)定，還有過度平滑，導(dǎo)致風(fēng)格、情緒等維度不容易拉開差距。

3 如何構(gòu)建端到端語音模型——架構(gòu)

既然我們已經(jīng)能把語音表征出來，下一步就是把它們?nèi)M(jìn)大語言模型，搭一個(gè)真正的端到端架構(gòu)。這里仍然要區(qū)分理解側(cè)和生成側(cè)。

理解側(cè)相對(duì)直接：可以喂連續(xù)向量，也可以喂離散 Token；離散 Token 可以用單碼本，也可以像 EnCodec 那樣用多級(jí)殘差碼本，把更多聲學(xué)細(xì)節(jié)保下來。

生成側(cè)就復(fù)雜得多。如果讓大模型只輸出語音 Token、不碰文本，訓(xùn)練容易發(fā)散，語義也容易出現(xiàn)長(zhǎng)程斷裂。因此多數(shù)做法都會(huì)讓模型先給出文本或更高層級(jí)的引導(dǎo)信息。最樸素的想法是先完整生成文本，再用文本去指導(dǎo)音頻生成——類似 CoT，但延遲高，且文本一長(zhǎng)就可能和音頻對(duì)不齊。于是業(yè)界主要走兩條路：Multi-head 和 Interleaved。

Interleaved 是在 Token 層面做交錯(cuò)：每生成一個(gè)文字 Token，就立刻跟上一段對(duì)應(yīng)的音頻 Token，再下一個(gè)字、再一段音，像拉鏈一樣咬合。Multi-head 則是給大模型加多個(gè)輸出頭，每個(gè)頭負(fù)責(zé)不同粒度的信息。Delay pattern 也可以看成 Multi-head 的一種變體，這里不再展開。

還有一個(gè)關(guān)鍵問題：我們最終聽到的是聲音，不是 Token。因此模型輸出的 Token 必須再轉(zhuǎn)成波形。常見做法有兩種：

后接 diffusion 模塊，先把 Token 變成梅爾譜或其他時(shí)頻特征，再用 Vocoder 轉(zhuǎn)成波形；
直接用純卷積網(wǎng)絡(luò)一步到位。選哪種取決于建模粒度。如果只有語義 Token，聲學(xué)細(xì)節(jié)不足，就需要 diffusion 來補(bǔ)；如果 Token 本身已含足夠聲學(xué)信息，也可以省掉 diffusion。

下面看幾個(gè)有代表性的端到端語音模型。Moshi 是法國一家公司做的方案，GPT-4o 之后最早發(fā)布的可體驗(yàn)?zāi)Ｐ?。?dāng)時(shí) GPT-4o 沒開源，Moshi 成了唯一可調(diào)試的標(biāo)桿。以今天的眼光來看，它可能存在的問題是結(jié)構(gòu)太“拼盤”：底層是一個(gè)自回歸大模型，上面又疊了獨(dú)立的 Temporal Transformer，再迭代生成語義和聲學(xué) Token，最后解碼。這種異構(gòu)設(shè)計(jì)導(dǎo)致很難 scale，模型也偏小，想再往上提效果比較吃力。

最近千問語音也在持續(xù)開源，做得確實(shí)不錯(cuò)。他們的方案是一個(gè)兩級(jí)架構(gòu)，設(shè)計(jì)得挺巧妙，叫 Thinker-Talker。Thinker 負(fù)責(zé)理解：接收語音輸入，產(chǎn)出文本或文本的 hidden state；再把 hidden state 丟給 Talker 去生成音頻。雖然不夠端到端，卻更可控，把理解與生成做了隔離，中間又共享了 condition。他們還用了 DeepSeek-R1 里的 MTP 模塊來輔助多碼本生成，音質(zhì)因此更好。

回到我們自己的做法。我一直強(qiáng)調(diào)階躍的模型更端到端，這也是我們堅(jiān)持的方向：只用一個(gè)大語言模型完成“語音進(jìn)、語音出”。具體設(shè)計(jì)如下。前面說過，理解側(cè)連續(xù)表征效果更好，我們就用連續(xù)向量；生成側(cè)離散 Token 更穩(wěn)定，我們就用離散 Token。這樣雖然有一點(diǎn)點(diǎn)異構(gòu)，但各自發(fā)揮了優(yōu)勢(shì)。理解側(cè)的 token 率設(shè)得低一些，因?yàn)樾畔⒏橄?、貼近文本，我們定在 12.5 Hz，輸入 token 總量更少。輸出側(cè)為了保留風(fēng)格、韻律和合成質(zhì)量，token 率更高。怎么跟文本融合？前面提過，純語音 Token 長(zhǎng)程建模容易出問題，需要文本引導(dǎo)，我們就用剛才說的交錯(cuò)范式，讓音頻和文本 token 交替出現(xiàn)，既對(duì)齊又穩(wěn)定，音質(zhì)也能保住。

4 如何構(gòu)建端到端語音模型——訓(xùn)推

訓(xùn)練這塊我們做的是基礎(chǔ)模型，數(shù)據(jù)量很大，token 數(shù)超過 1 T，分多個(gè)階段訓(xùn)練。預(yù)訓(xùn)練階段會(huì)把語義對(duì)齊、續(xù)寫、ASR、TTS 等各種任務(wù)都跑一遍。第四階段用了一種比較新的范式叫 Midtrain，用少量高質(zhì)量領(lǐng)域數(shù)據(jù)把模型能力往特定方向遷移，效果挺明顯。為了不讓語音任務(wù)沖掉模型原有的“智商”，我們按語音數(shù)據(jù)量 1:1 配了純文本數(shù)據(jù)。

后訓(xùn)練分 SFT 和 RL 兩塊。SFT 用真人對(duì)話 pattern 把理解、識(shí)別、生成任務(wù)都包進(jìn)來。我們搭了一套播客級(jí)對(duì)話數(shù)據(jù)管線，能批量產(chǎn)出真人級(jí)別的對(duì)話語料。

RL 這塊我們算是比較早把完整 RL 流程放進(jìn)端到端語音模型的。先冷啟動(dòng)，借鑒了 DeepSeek-R1 的思路，再做 RLHF 和 RLVR。RLHF 調(diào)偏好，RLVR 用預(yù)定義 reward 函數(shù)繼續(xù)提智商。RLHF 用 PPO，RLVR 用 GRPO。最終模型情緒、副語言、音頻理解都不錯(cuò)，智商也高，語音和文本能力合在一起。舉個(gè)例子，在心理咨詢或情感安撫場(chǎng)景里，它能做比較深的情感推理。

推理時(shí)我們主要做兩件事。一是交錯(cuò) Token 處理：文本 Token 只起引導(dǎo)作用，最后合成音頻時(shí)會(huì)被丟掉，只用語音 Token 進(jìn) Audio decoder。二是多輪上下文：傳統(tǒng)大模型只把文本當(dāng)上下文，我們把音頻也塞進(jìn)去，信息更完整。

5 如何構(gòu)建端到端語音模型——任務(wù)

第四塊看看端到端語音模型到底能干哪些活。其實(shí)跟傳統(tǒng)語音技術(shù)差不多，核心還是理解與生成兩大類。

先說理解。語音識(shí)別當(dāng)然是必測(cè)項(xiàng)。我們把 Step-Audio2 跟豆包、GPT-4o、千問等模型做了全面對(duì)比，中英文、多語種、方言場(chǎng)景，整體都是最好的。

音頻與副語言理解這塊比較有趣，很多語音模型不太提，因?yàn)榇_實(shí)不好做，但我們專門加強(qiáng)了。舉個(gè)例子：一個(gè)女生帶著哭腔說“我很痛苦了……”，背景還有音樂。傳統(tǒng)做法得先上 VAD，再跑性別識(shí)別、年齡識(shí)別、語音識(shí)別、情感識(shí)別、音樂理解……一堆模塊拼完才能出結(jié)果?，F(xiàn)在用我們的大模型方案，直接一句自然語言描述就能把所有信息一次性拉出來。

再看生成。最直觀的就是以前 TTS 的前端模塊：文本先轉(zhuǎn)拼音，專有名詞得替換成模型能念的字，多音字還得加提示。現(xiàn)在靠模型自己的推理能力就能搞定。實(shí)際推理時(shí)，模型會(huì)先“想”：用戶給的拼音是什么、上下文怎么理解、表達(dá)時(shí)要注意什么，想完再輸出音頻，省掉所有前置轉(zhuǎn)換模塊。

可控生成也很重要。純文本輸入時(shí)，我們往往想加點(diǎn)停頓、笑聲、嘆氣之類。只要把 SSML 標(biāo)簽直接寫進(jìn)文本，模型就能按標(biāo)簽?zāi)畛鲎匀坏母闭Z言表現(xiàn)。

最后是音頻編輯。大家對(duì)圖像編輯比較熟，音頻編輯做得少，我們算是國內(nèi)較早落地的。輸入一段音頻，可以改情緒、改風(fēng)格、增刪改臺(tái)詞，還能降噪。比如原音頻文本是撒嬌語氣，但聽起來不夠嬌，讓模型編輯成撒嬌風(fēng)格，風(fēng)格就轉(zhuǎn)換過去了。

接下來講工具調(diào)用，也就是最近很熱的 voice agent 概念。核心是怎么規(guī)劃、怎么推理任務(wù)，并在執(zhí)行過程中調(diào)用更多工具。Step-Audio2 應(yīng)該是第一個(gè)把語音 tool call 融進(jìn)端到端語音模型的。我們自己測(cè)過，在很多場(chǎng)景下跟文本模型比沒有明顯劣化，有些場(chǎng)景甚至更好。語音 tool call 和文本的最大區(qū)別，是它能支持“音頻級(jí)”工具調(diào)用。比如 Audio Search：用戶說“我想要某某音色”，模型通過 tool call 把對(duì)應(yīng)的波形 prompt 插進(jìn)上下文，后續(xù)對(duì)話就會(huì)換成這個(gè)音色。因?yàn)槭谴竽Ｐ头妒?，回?fù)風(fēng)格也會(huì)跟著變，相當(dāng)于用一句話完成角色扮演。

語音經(jīng)常用在實(shí)時(shí)場(chǎng)景，全雙工因此很關(guān)鍵。全雙工指的是：我可以打斷你，你也可以打斷我；我說到一半停頓時(shí)，你知道我在思考，不會(huì)搶話。這跟文本的回合制不同，真實(shí)交互要復(fù)雜得多。具體技術(shù)范式有好幾種，這里不展開。

我想重點(diǎn)說的是我們正在做的“全雙工推理”。大模型在全雙工場(chǎng)景下需要實(shí)時(shí)問答，可一旦做推理，思考時(shí)間就變長(zhǎng)，延遲上去。我們目前走兩條路：一是“邊聽邊想”，對(duì)方說話時(shí)我就開始思考，這叫 conversational thinking，跟人面對(duì)面交流一樣；二是“邊說邊想”，我開口的同時(shí)繼續(xù)推理，叫 Mind-Paced Speaking。用這兩種方式，模型幾乎零延遲就能輸出帶推理的結(jié)果。

6 模型評(píng)估：什么是好模型

最后簡(jiǎn)單說說“什么叫好模型”以及怎么評(píng)估。跟以前一樣，得全方位測(cè)評(píng)：所有單點(diǎn)能力都要測(cè)。對(duì)話能力則比文本模型多不少維度——全雙工、情感與共情、生成音頻的韻律、自然度、風(fēng)格一致性等，文本模型都不用管。多輪對(duì)話里，還要保證情感、說話風(fēng)格、韻律前后一致，這對(duì)語音模型特別重要。我們做了個(gè)叫 Multi-Bench 的評(píng)測(cè)，已投 ICASSP，尚未在 arXiv 公開。它填補(bǔ)了之前 benchmark 在多輪一致性上的空白，算是評(píng)估方面的新東西。

演講嘉賓介紹

楊學(xué)銳，歷任階躍星辰語音模型負(fù)責(zé)人，大疆創(chuàng)新音頻負(fù)責(zé)人，云從科技語音算法負(fù)責(zé)人。在相關(guān)領(lǐng)域深耕多年，發(fā)表論文、專利、書籍若干。

會(huì)議推薦

QCon 全球軟件開發(fā)大會(huì)·2026 北京站將于 4 月 16 日 -18 日正式舉辦。本屆大會(huì)以“Agentic AI 時(shí)代的軟件工程重塑”為主題，聚焦 100+ 重磅議題，匯聚來自阿里、騰訊、字節(jié)跳動(dòng)、小米、百度等一線科技企業(yè)與創(chuàng)新團(tuán)隊(duì)的技術(shù)專家，圍繞 AI 工程化、系統(tǒng)架構(gòu)與研發(fā)模式演進(jìn)展開深入探討。更多詳情可掃碼或聯(lián)系票務(wù)經(jīng)理 18514549229 進(jìn)行咨詢。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

/閱讀下一篇/

返回網(wǎng)易首頁下載網(wǎng)易新聞客戶端

相關(guān)推薦

熱點(diǎn)推薦

π0.7的泛化能力有多強(qiáng)？零樣本純靠口述就能用空氣炸鍋

DeepTech深科技 2026-04-17 21:34:56
0 跟貼 0

北大團(tuán)隊(duì)提出 SHINE：任意文本轉(zhuǎn)化大模型 LoRA，僅一次前向傳播

機(jī)器之心Pro 2026-03-23 15:46:38
0 跟貼 0

世界模型雙冠王誕生！國產(chǎn)世界模型力壓谷歌、英偉達(dá)等持續(xù)領(lǐng)跑

機(jī)器之心Pro 2026-04-27 20:55:03
0 跟貼 0

打工人五一自救指南：把活全甩給AI，準(zhǔn)備免打擾出門

量子位 2026-04-27 20:04:37
2 跟貼 2

翻完DeepSeek報(bào)告，我們發(fā)現(xiàn)了中國AI的默契

機(jī)器之心Pro 2026-04-26 13:21:55
12 跟貼 12

ACL 2026 | 中科大&上海AILab揭示強(qiáng)化學(xué)習(xí)后訓(xùn)練的Scaling Law

機(jī)器之心Pro 2026-04-27 21:13:39
0 跟貼 0

發(fā)布元神AI與端模型斑馬智能欲定義智艙AI商業(yè)化路徑

經(jīng)濟(jì)觀察報(bào) 2026-04-27 12:09:26
0 跟貼 0

從倉庫到工廠，具身智能產(chǎn)業(yè)應(yīng)用的“GPT時(shí)刻”還有多遠(yuǎn)？

鈦媒體APP 2026-04-27 11:12:17
0 跟貼 0

00后小哥復(fù)刻Claude最強(qiáng)神話模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟貼 0

谷歌DeepMind重磅開源多模態(tài)TIPSv2：實(shí)現(xiàn)Patch-Text對(duì)齊最優(yōu)表現(xiàn)

機(jī)器之心Pro 2026-04-27 17:23:04
0 跟貼 0

小男孩翻出陽臺(tái)玩耍，媽媽耐心引導(dǎo)其回室內(nèi)，抓住瞬間憤怒值拉滿

星視頻 2026-04-27 07:54:01
138 跟貼 138

終于，學(xué)界找到了深度學(xué)習(xí)的「牛頓定律」

機(jī)器之心Pro 2026-04-27 11:42:32
0 跟貼 0

上海迪士尼回應(yīng)游客勸阻吸煙被打：園區(qū)沒有禁煙；被打男子發(fā)聲：對(duì)方已賠錢和解

中國新聞周刊 2026-04-27 14:25:00
10661 跟貼 10661

修車鋪正在變成數(shù)據(jù)中心

字節(jié)漫游指南 2026-04-24 10:03:13
0 跟貼 0

一大批高校，將搬遷！

吉刻新聞 2026-04-27 16:08:43
291 跟貼 291

獨(dú)家對(duì)話清華AIR教授曹婷：具身最被忽視的問題，就是物理智能體

鈦媒體APP 2026-04-27 21:39:44
0 跟貼 0

半掛模型玩具車買菜，要是超重了怎么辦，雷軍都不敢這么設(shè)計(jì)！

宇宙搞笑生活 2026-04-23 14:10:00
4 跟貼 4

80/20陷阱：聰明人為何選錯(cuò)伴侶

晚風(fēng)也遺憾 2026-04-28 00:36:35
0 跟貼 0

《強(qiáng)化學(xué)習(xí)數(shù)學(xué)基礎(chǔ)》

新浪財(cái)經(jīng) 2026-04-27 17:57:43
0 跟貼 0

等人時(shí)，我們?cè)诘仁裁?/a>

心事寄山海 2026-04-28 00:45:29
0 跟貼 0

深度解讀Deepseek-V4：注意力壓縮 /1M 上下文/ MoE架構(gòu)

盧菁老師 2026-04-27 02:14:19
0 跟貼 0

一醫(yī)院原院長(zhǎng)：我就像一個(gè)吸血鬼

南方都市報(bào) 2026-04-26 23:49:54
153 跟貼 153

英語缺詞的7個(gè)日本概念：效率系統(tǒng)沒覆蓋的盲區(qū)

時(shí)光慢郵啊 2026-04-28 00:58:37
0 跟貼 0

NASA公布拍攝到的不可思議的圖像，這該怎么解釋？

達(dá)達(dá)愛剪輯 2026-04-27 00:20:37
98 跟貼 98

科學(xué)家用活體神經(jīng)元完成計(jì)算任務(wù)，腦機(jī)融合邁出驚人一步

DeepTech深科技 2026-04-05 19:24:24
52 跟貼 52

微軟解綁OpenAI：轉(zhuǎn)為非獨(dú)家，停止收入分成

華爾街見聞官方 2026-04-27 21:48:24
11 跟貼 11

韓國人吹噓本國地圖像猛虎，評(píng)論區(qū)翻車笑死人：感覺更像大青蟲！

肆無忌憚的哭 2026-04-27 04:47:43
1 跟貼 1

蘋果新論文發(fā)出驚人一問：What do your logits know?

機(jī)器之心Pro 2026-04-27 10:55:05
3 跟貼 3

江蘇一70多歲老人想打工，辦假證把年齡改小8歲，還特意染了黑發(fā)，民警：他老伴離世，自己一個(gè)人想找個(gè)工作充實(shí)自己

大象新聞 2026-04-27 11:17:05
758 跟貼 758

超越AlphaFold3！山東大學(xué)楊建益團(tuán)隊(duì)開發(fā)AI新算法，精準(zhǔn)預(yù)測(cè)RNA三維結(jié)構(gòu)并捕捉動(dòng)態(tài)構(gòu)象

生物世界 2026-04-27 16:07:19
0 跟貼 0

華山南峰論劍石被拆，官方回應(yīng)：北峰以外所有“華山論劍”石都會(huì)被拆

現(xiàn)代快報(bào) 2026-04-26 14:00:13
265 跟貼 265

文旅部集中整治景區(qū)擺渡車，點(diǎn)名龍虎山、長(zhǎng)白山、稻城亞丁等

南方都市報(bào) 2026-04-27 16:21:12
1131 跟貼 1131

美國方面稱26日僅有2艘船只通過霍爾木茲海峽

界面新聞 2026-04-27 08:14:11
2534 跟貼 2534

金屬件中空外壁的內(nèi)部結(jié)構(gòu) ，金屬模型加工，中空外壁內(nèi)層設(shè)計(jì)

小明不講理 2026-04-26 10:27:03
1 跟貼 1

豆包上了車，字節(jié)還沒想好怎么收錢

藍(lán)鯨新聞 2026-04-27 10:57:22
2 跟貼 2

泡泡瑪特推出Labubu冰箱，售價(jià)5999元，上千人預(yù)約

大象新聞 2026-04-26 13:01:02
0 跟貼 0

被指"混不下去回國" 廣東專家顏寧回懟：崇洋媚外

南方都市報(bào) 2026-04-27 11:12:26
236 跟貼 236

事關(guān)中小學(xué)春秋假！河北最新發(fā)布

魯中晨報(bào) 2026-04-27 21:56:12
19 跟貼 19

湖州南潯古鎮(zhèn)有艘“核動(dòng)力觀光船”？景區(qū)回應(yīng)：售票牌翻譯錯(cuò)誤，會(huì)進(jìn)行整改

上游新聞 2026-04-27 13:01:24
130 跟貼 130

烏克蘭民眾戰(zhàn)爭(zhēng)倦怠情緒日益加深

參考消息 2026-04-27 10:09:05
703 跟貼 703

廣告使用“清朝長(zhǎng)辮”被指辱華，法國品牌Lemaire致歉
南方都市報(bào)
2026-04-26 20:40:18

男子一身名牌坐地鐵，被指像成功人士，網(wǎng)友：再有錢也怕堵車
丫頭舫
2026-04-27 17:39:57

38歲王思聰近照認(rèn)不出！滿頭白發(fā)穿睡衣度假，駝背顯老像 50 歲
橙星文娛
2026-04-27 14:17:09

2-3！3-3！瘋狂一夜，亞特蘭大爆大冷，拉齊奧補(bǔ)時(shí)絕平，曼聯(lián)險(xiǎn)勝
足球狗說
2026-04-28 05:07:09

“酩酊大醉”不讀míng dīng dà zuì了，正確讀音是什么？
未央看點(diǎn)
2026-04-27 22:13:40

從排隊(duì)入籍到集體觀望？美國入籍申請(qǐng)?bào)E降，綠卡人群態(tài)度變了？
紐約時(shí)間
2026-04-28 02:29:16

看完女排最新集訓(xùn)，心里五味雜陳！別說里約，連倫敦周期都比不上
金毛愛女排
2026-04-28 00:00:04

Deepseek，光通信之后的下一個(gè)主升浪
靜姐的財(cái)富第六感
2026-04-26 22:31:06

淚目趙心童曬兒時(shí)與丁俊暉合照：偶像暉哥讓我加油你也要加油啊
風(fēng)過鄉(xiāng)
2026-04-27 06:15:09

有的人為了當(dāng)官，把老婆送給領(lǐng)導(dǎo)睡
斜杠人生
2026-04-28 00:00:04

金價(jià)：大家不用等候了！不出意外，金價(jià)可能將歷史重演！
殘夢(mèng)重生來
2026-04-28 04:40:09

不到72小時(shí)，俞敏洪再迎兩大壞消息，主播集體辭職只是“開胃菜”
阿廢冷眼觀察所
2026-04-28 00:24:36

皮蛋再次成為關(guān)注對(duì)象！研究發(fā)現(xiàn)：高血脂吃皮蛋，身體或有6改善
健康科普365
2026-04-25 09:27:08

七萬匹東洋大馬的覆滅：國民黨三年敗光日本四十五年心血
小莜讀史
2026-04-26 22:44:33

特朗普轉(zhuǎn)發(fā)“中印是人間地獄”，印度痛批低俗，中方態(tài)度耐人尋味
線裝史冊(cè)
2026-04-28 02:38:29

東南亞隱藏的“電詐大佬”，一個(gè)個(gè)正在浮出水面
現(xiàn)實(shí)的聲音
2026-04-27 20:36:14

麥子情感故事
2026-04-27 21:34:15

沒人再提激光雷達(dá)數(shù)量？直擊北京車展：今年智能駕駛“卷”什么
時(shí)代周報(bào)
2026-04-26 18:14:26

涉黃被傳喚，馬斯克出事了
營(yíng)銷頭版
2026-04-27 14:42:14

中國排協(xié)官宣！16點(diǎn)30分，女排訓(xùn)練將直播，第二批球員恐揭曉
跑者排球視角
2026-04-27 23:48:17

2026-04-28 05:28:49

InfoQ

有內(nèi)容的技術(shù)社區(qū)媒體

12309文章數(shù) 51863關(guān)注度

往期回顧全部

科技要聞

DeepSeek V4上線三天，第一批實(shí)測(cè)出來了

發(fā)改委：依法依規(guī)禁止外資收購Manus項(xiàng)目

GPT image-2爆火后，設(shè)計(jì)師的天塌了嗎？

漲價(jià)浪潮下，DeepSeek推動(dòng)AI“價(jià)格戰(zhàn)”

北京車展外國人眾生相：抄作業(yè)，遞名片，等雷軍

頭條要聞

坐在特朗普身邊親歷槍擊案的女記者身份非常不一般

槍響時(shí)若特朗普、萬斯等"團(tuán)滅" 第三順位繼承人已92歲

東方甄選多位主播離職羅永浩連發(fā)6個(gè)問句怒懟網(wǎng)友

受賄數(shù)額特別巨大、搞權(quán)色交易副部級(jí)王中和被判17年

媒體:關(guān)于美伊停火協(xié)議特朗普這次臨陣退縮的很徹底

頭條要聞

坐在特朗普身邊親歷槍擊案的女記者身份非常不一般

槍響時(shí)若特朗普、萬斯等"團(tuán)滅" 第三順位繼承人已92歲

東方甄選多位主播離職羅永浩連發(fā)6個(gè)問句怒懟網(wǎng)友

受賄數(shù)額特別巨大、搞權(quán)色交易副部級(jí)王中和被判17年

媒體:關(guān)于美伊停火協(xié)議特朗普這次臨陣退縮的很徹底

體育要聞

人類馬拉松"破二"新紀(jì)元，一場(chǎng)跑鞋軍備競(jìng)賽

斯諾克世錦賽：吳宜澤13-11塞爾比晉級(jí)8強(qiáng)，等待特魯姆普和瓦菲的勝者

大逆轉(zhuǎn)！希金斯4-9翻盤，13-12勝奧沙利文，晉級(jí)世錦賽8強(qiáng)

中國男籃19人短訓(xùn)營(yíng)名單：廖三寧龐崢麟領(lǐng)銜王俊杰趙維倫回歸

中國男籃官宣4場(chǎng)熱身賽：6月初兩戰(zhàn)俱樂部下旬連戰(zhàn)澳大利亞荷蘭

娛樂要聞

黃楊鈿甜為“耳環(huán)風(fēng)波”出鏡道歉：謠言已澄清

楊子新女友已產(chǎn)子！與黃圣依婚姻存續(xù)期疑云重重

刑偵劇又出一部黑馬，潘粵明演技驚艷四座！

白鹿《奔跑吧》發(fā)言遭審判！節(jié)目收視率創(chuàng)新低

陳妍希告陳曉大粉，詆毀網(wǎng)暴7年，男方坐視不管

財(cái)經(jīng)要聞

Meta 140億收購Manus遭中國發(fā)改委否決

二代侯亞孟掌舵后，珀萊雅為何突然下墜？

快手的房間，誰在退場(chǎng)？丨正經(jīng)深度

北方華創(chuàng)，巨額商譽(yù)壓力突然高懸？

中國太平從資管到總部，罰單“傳染”

汽車要聞

不那么小眾也可以 smart的路會(huì)越走越寬

蔚來全新ES8玄金特別版上市蔚來ES9亮相北京車展

卷王小車上攻下守 2026款MG4都有哪些改變

從AI上車到AI原生:榮威用了20年參透了新智能

在不確定中尋找確定性：大眾汽車的中國解法

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

房產(chǎn)

旅游

本地

手機(jī)

公開課

房產(chǎn)要聞

信號(hào)！海南商業(yè)版圖，迎來大變局！

新一輪教育大爆發(fā)來了！海口，開始瘋狂建學(xué)校！

重磅新政！?？谙迌r(jià)商品房：滿5年可上市繳15%土地溢價(jià)！

三亞安居房，突然官宣！

旅游要聞

不止看花京津冀春日游花樣翻新

10條科技工業(yè)游線路開啟“假日智造之旅”

茶卡鹽湖的那顆"心" 為什么讓人心里不舒服？

誰懂??！沈陽拉塔湖驚現(xiàn)白鷺群，工業(yè)城竟有這般仙境

本地新聞

云游中國｜逛世界風(fēng)箏都留學(xué)生探秘中國傳統(tǒng)文化

SAGA GIRLS 2026女團(tuán)選秀

春色滿城關(guān)不?。座N梅浪漫盛放，吳山藏了一片四月雪

12噸巧克力有難，全網(wǎng)化身超級(jí)偵探添亂

手機(jī)要聞

一加Nord CE6 Lite官宣5月7日發(fā)布，7000mAh電池

輕薄本迎來驍龍時(shí)刻！華碩推出三款萬元AI PC，太精準(zhǔn)了

iQOO一加新旗艦曝光，2nm新機(jī)準(zhǔn)備中

大疆新品發(fā)布,DJI?Mic?Mini?2、Osmo Mobile 8P 亮相

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會(huì)要降低老年人門檻

為什么人類有不同的膚色？

七個(gè)無法存下錢的壞習(xí)慣

李彥宏：百度離破產(chǎn)30天

手機(jī) / 數(shù)碼

房產(chǎn) / 家居

端到端語音模型：從語音表征到模型架構(gòu)

DeepSeek V4上線三天，第一批實(shí)測(cè)出來了

坐在特朗普身邊親歷槍擊案的女記者 身份非常不一般

坐在特朗普身邊親歷槍擊案的女記者 身份非常不一般

人類馬拉松"破二"新紀(jì)元，一場(chǎng)跑鞋軍備競(jìng)賽

黃楊鈿甜為“耳環(huán)風(fēng)波”出鏡道歉：謠言已澄清

Meta 140億收購Manus遭中國發(fā)改委否決

不那么小眾也可以 smart的路會(huì)越走越寬

態(tài)度原創(chuàng)

信號(hào)！海南商業(yè)版圖，迎來大變局！

云游中國｜逛世界風(fēng)箏都 留學(xué)生探秘中國傳統(tǒng)文化

一加Nord CE6 Lite官宣5月7日發(fā)布，7000mAh電池

坐在特朗普身邊親歷槍擊案的女記者身份非常不一般

坐在特朗普身邊親歷槍擊案的女記者身份非常不一般

人類馬拉松"破二"新紀(jì)元，一場(chǎng)跑鞋軍備競(jìng)賽

信號(hào)！海南商業(yè)版圖，迎來大變局！

云游中國｜逛世界風(fēng)箏都留學(xué)生探秘中國傳統(tǒng)文化

一加Nord CE6 Lite官宣5月7日發(fā)布，7000mAh電池