国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

百萬(wàn)圍觀、HuggingFace多模態(tài)登頂,開源語(yǔ)音版「DeepSeek」爆火

0
分享至



機(jī)器之心發(fā)布

在大模型快速迭代的背景下,語(yǔ)音交互正從「語(yǔ)音轉(zhuǎn)文本(ASR)— 文本理解 — 文本轉(zhuǎn)語(yǔ)音(TTS」的串聯(lián)式架構(gòu),逐步走向端到端的實(shí)時(shí)語(yǔ)音生成。這一轉(zhuǎn)變不僅關(guān)系到延遲和自然度,也直接影響語(yǔ)音系統(tǒng)在真實(shí)生產(chǎn)環(huán)境中的可用性。

在級(jí)聯(lián)式語(yǔ)音交互架構(gòu)下,每個(gè)模塊分別負(fù)責(zé)語(yǔ)音識(shí)別、文本理解和語(yǔ)音合成等任務(wù),這種架構(gòu)在早期的應(yīng)用中取得了成功。但隨著對(duì)實(shí)時(shí)性和低延遲要求的提高,端到端語(yǔ)音交互系統(tǒng)逐漸成為主流,通過(guò)深度集成各個(gè)任務(wù),減少中間轉(zhuǎn)換步驟,顯著提高響應(yīng)速度,使交互變得更加即時(shí)和自然。

近期,F(xiàn)lashLabs 發(fā)布并開源了其實(shí)時(shí)語(yǔ)音模型Chroma 1.0,其定位為全球首個(gè)開源的端到端語(yǔ)音到語(yǔ)音模型

Chroma 1.0 發(fā)布之后,便在社媒爆火,吸引了大量的關(guān)注。X 上的官推帖子已經(jīng)突破了百萬(wàn)瀏覽量。



多位知名的 X 博主對(duì) Chroma 1.0 給予了很高的評(píng)價(jià)。



此外,在 HuggingFace 多模態(tài)榜單中,Chroma(4B 版本)排名第一。



該模型的研發(fā)負(fù)責(zé)人為 FlashLabs 創(chuàng)始人石一(Yi Shi):



從公開信息和技術(shù)實(shí)現(xiàn)來(lái)看,該模型并非對(duì)現(xiàn)有語(yǔ)音模型的簡(jiǎn)單改進(jìn),而是一次圍繞「實(shí)時(shí)性」目標(biāo)展開的系統(tǒng)級(jí)重構(gòu)。

本文將依次從技術(shù)架構(gòu)、核心指標(biāo)、論文貢獻(xiàn)以及應(yīng)用場(chǎng)景等角度,對(duì) Chroma 進(jìn)行一次評(píng)測(cè)式分析,并對(duì)原文中表述不準(zhǔn)確的地方予以修正。

一、從級(jí)聯(lián)到端到端:Chroma 的系統(tǒng)定位

傳統(tǒng)語(yǔ)音系統(tǒng)通常采用多階段流水線:

ASR → LLM → TTS

這一方案在準(zhǔn)確率上已相對(duì)成熟,但在延遲、上下文連續(xù)性以及情緒一致性方面存在天然瓶頸。尤其在實(shí)時(shí)對(duì)話場(chǎng)景中,多模塊串聯(lián)會(huì)帶來(lái)顯著的推理延遲與狀態(tài)同步成本。

Chroma 的核心目標(biāo),是構(gòu)建一個(gè)語(yǔ)音到語(yǔ)音(Speech-to-Speech, S2S)的統(tǒng)一系統(tǒng),將語(yǔ)音理解、語(yǔ)義建模與語(yǔ)音生成納入同一整體框架中,從而降低系統(tǒng)復(fù)雜度并提升實(shí)時(shí)響應(yīng)能力。

  • 官方產(chǎn)品頁(yè):https://www.flashlabs.ai/flashai-voice-agents
  • 推理代碼:https://github.com/FlashLabs-AI-Corp/FlashLabs-Chroma
  • 模型:https://huggingface.co/FlashLabs/Chroma-4B
  • 論文:https://arxiv.org/abs/2601.11141

二、模型架構(gòu)與關(guān)鍵設(shè)計(jì)

1 分層架構(gòu):從理解到合成

原文中曾將 Chroma 描述為「統(tǒng)一 Transformer 架構(gòu)同時(shí)處理語(yǔ)音編碼、語(yǔ)義建模與聲學(xué)解碼」,這一表述并不準(zhǔn)確。論文指出,Chroma 采用分層多模塊架構(gòu):

  • Reasoner:基于 Thinker 模塊構(gòu)建,負(fù)責(zé)多模態(tài)理解與文本生成。它使用 Qwen2-Audio 編碼管道處理文本和語(yǔ)音輸入,并通過(guò)跨模態(tài)注意力及 TM-RoPE 將語(yǔ)音和文本表示對(duì)齊。
  • Backbone:采用約 1 B 參數(shù)的 LLaMA 變體,用于生成每一幀的粗聲學(xué)碼。為實(shí)現(xiàn)個(gè)性化克隆,Backbone 通過(guò) CSM-1B 將參考音頻及其文本編碼為嵌入前綴,并共享 Reasoner 的嵌入和隱藏狀態(tài)作為上下文。
  • Decoder:約 100 M 參數(shù)的輕量模型,在每幀內(nèi)自回歸生成剩余的 Residual Vector Quantization (RVQ) 級(jí)別。這一設(shè)計(jì)減少了長(zhǎng)上下文計(jì)算負(fù)擔(dān),細(xì)化了韻律與發(fā)音細(xì)節(jié)。
  • Codec Decoder:采用 Mimi vocoder 的因果卷積網(wǎng)絡(luò),將粗音碼與細(xì)音碼串聯(lián)后重建為連續(xù)波形。系統(tǒng)使用 8 個(gè)碼書,減少解碼器在每幀的自回歸步驟。



這種模塊化的分層設(shè)計(jì)與原文所述的「統(tǒng)一 Transformer」不同,每個(gè)模塊各司其職,共同完成 S2S 推理和生成。

2 交錯(cuò)日程與流式推理

為保證低延遲,Chroma 采用固定比例的文本 - 音頻交錯(cuò)日程,論文中明確為1:2(即每個(gè)文本 token 對(duì)應(yīng)兩個(gè)音頻碼)。

具體操作過(guò)程中,Reasoner 首先輸出文本 tokens 和隱藏狀態(tài);這些信息按上述比例交錯(cuò)并輸入 Backbone 和 Decoder,后者再逐步生成離散聲學(xué)碼并由 Codec Decoder 重建為波形。

這種管線非一步直接「映射」語(yǔ)音到輸出,而是通過(guò)多模塊間的分工協(xié)作進(jìn)行聯(lián)合建模,從而避免了傳統(tǒng)級(jí)聯(lián)系統(tǒng)中的多次模態(tài)切換帶來(lái)的信息損失。

3 參數(shù)規(guī)模與效率權(quán)衡

Chroma 1.0 的模型規(guī)模約為 40 億參數(shù)級(jí)別。相較于追求超大模型規(guī)模,其設(shè)計(jì)更強(qiáng)調(diào)在延遲、吞吐與可部署性之間取得平衡:

  • Backbone:1 B參數(shù) —— 負(fù)責(zé)粗聲學(xué)碼生成;
  • Decoder:100 M參數(shù) —— 負(fù)責(zé)細(xì)化 RVQ;
  • Reasoner 與 Codec Decoder 規(guī)模保持相對(duì)穩(wěn)定。

相較于 7 B–9 B 的大模型,該規(guī)模具有明顯效率優(yōu)勢(shì),同時(shí)在多項(xiàng)指標(biāo)上優(yōu)于 0.5 B 級(jí)別的小模型。

三、核心技術(shù)指標(biāo)評(píng)測(cè)

根據(jù)論文與實(shí)驗(yàn)結(jié)果,Chroma 在多個(gè)關(guān)鍵指標(biāo)上表現(xiàn)出工程優(yōu)勢(shì):



需要指出的是,論文評(píng)測(cè)重點(diǎn)放在實(shí)時(shí)交互可用性和個(gè)性化聲音克隆上,而不是單一語(yǔ)音自然度指標(biāo)。

四、論文視角:Chroma 的研究貢獻(xiàn)

從論文結(jié)構(gòu)來(lái)看,Chroma 的研究貢獻(xiàn)主要體現(xiàn)在三個(gè)層面:

  1. 實(shí)時(shí)語(yǔ)音建模范式:系統(tǒng)性論證了端到端 Speech-to-Speech 架構(gòu)在實(shí)時(shí)對(duì)話場(chǎng)景中的優(yōu)勢(shì),并給出了工程可行的實(shí)現(xiàn)路徑。
  2. 交錯(cuò)策略和模塊化設(shè)計(jì):在數(shù)據(jù)表示和模型結(jié)構(gòu)上引入 1:2 文本–音頻交錯(cuò),并將Reasoner、Backbone、Decoder、Codec Decoder 分離。這種設(shè)計(jì)既降低延遲又兼顧語(yǔ)義推理和聲學(xué)細(xì)節(jié)。
  3. 合成訓(xùn)練管線與評(píng)價(jià)方法:采用 LLM+TTS 構(gòu)建高質(zhì)量的語(yǔ)音到語(yǔ)音訓(xùn)練數(shù)據(jù),并通過(guò)綜合的客觀指標(biāo)(SIM、TTFT、RTF)和主觀評(píng)測(cè)(NCMOS、SCMOS)驗(yàn)證系統(tǒng)性能。

整體來(lái)看,該論文兼具工程導(dǎo)向和系統(tǒng)研究?jī)r(jià)值,而非單點(diǎn)算法突破。

五、FlashAI:從模型到應(yīng)用的落地路徑

Chroma 并非孤立模型,其首要應(yīng)用場(chǎng)景來(lái)自 FlashLabs 的語(yǔ)音產(chǎn)品FlashAI。在 FlashAI 中, Chroma 主要承擔(dān)實(shí)時(shí)語(yǔ)音交互引擎的角色,典型應(yīng)用包括:

企業(yè)級(jí)呼叫與客服

  • 實(shí)時(shí)應(yīng)答,穩(wěn)定長(zhǎng)對(duì)話;
  • 多語(yǔ)言支持;
  • 適用于呼叫中心、預(yù)約、售后等高并發(fā)場(chǎng)景。

AI 語(yǔ)音代理(Voice Agent)

  • 結(jié)合知識(shí)庫(kù)與業(yè)務(wù)邏輯,直接在語(yǔ)音層面完成任務(wù)型對(duì)話;
  • 減少文本中轉(zhuǎn)延遲。

跨語(yǔ)言語(yǔ)音交互

  • 統(tǒng)一語(yǔ)音建模降低系統(tǒng)切換成本;
  • 提升整體交互連貫性。

六、理性總結(jié)

綜合來(lái)看,Chroma 1.0 并非追求「最強(qiáng)語(yǔ)音模型」,而是明確聚焦于實(shí)時(shí)語(yǔ)音交互這一長(zhǎng)期被低估的工程難題。其價(jià)值不在于單項(xiàng)指標(biāo)的領(lǐng)先,而在于:

  • 將語(yǔ)音理解、語(yǔ)義建模與聲學(xué)生成解耦為多模塊聯(lián)合設(shè)計(jì),擺脫傳統(tǒng)級(jí)聯(lián)系統(tǒng)瓶頸;
  • 通過(guò) 1:2 交錯(cuò)策略與多碼書設(shè)計(jì),將 TTFT 降至約 150 ms 并保持 RTF < 1;
  • 在個(gè)性化聲音克隆任務(wù)中實(shí)現(xiàn)對(duì)人類基線 10.96% 的相對(duì)提升,展示出對(duì)細(xì)節(jié)聲紋特征的捕捉能力;
  • 完整開放代碼與模型,降低了研究者與工程師進(jìn)入門檻。

當(dāng)然,Chroma 目前在自然度評(píng)測(cè)(NCMOS)上仍落后于商業(yè)系統(tǒng) ElevenLabs,在多語(yǔ)言及情感控制方面亦有待進(jìn)一步探索。然而,作為實(shí)時(shí)語(yǔ)音交互的重要基礎(chǔ)設(shè)施,其分層設(shè)計(jì)與數(shù)據(jù)生成策略為行業(yè)提供了可復(fù)用的藍(lán)圖。

通過(guò)修正原文中的架構(gòu)描述和「直接映射」表述,這篇評(píng)測(cè)更準(zhǔn)確地反映了 Chroma 的技術(shù)特點(diǎn)與工程取舍,有助于讀者理解這一系統(tǒng)在實(shí)時(shí)語(yǔ)音交互領(lǐng)域的價(jià)值。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
案件:北京一女教授在家養(yǎng)病長(zhǎng)達(dá)10年,民警進(jìn)門后,當(dāng)場(chǎng)愣在原地

案件:北京一女教授在家養(yǎng)病長(zhǎng)達(dá)10年,民警進(jìn)門后,當(dāng)場(chǎng)愣在原地

五元講堂
2024-12-24 16:57:49
俄羅斯首次承認(rèn)“莫斯科”號(hào)巡洋艦被烏軍擊沉,導(dǎo)致52名俄軍傷亡

俄羅斯首次承認(rèn)“莫斯科”號(hào)巡洋艦被烏軍擊沉,導(dǎo)致52名俄軍傷亡

山河路口
2026-01-23 18:55:47
上映56天,僅38個(gè)觀眾,片方分賬390元,2026年最慘電影誕生

上映56天,僅38個(gè)觀眾,片方分賬390元,2026年最慘電影誕生

胡一舸南游y
2026-01-21 17:19:09
昔年混入紅軍的土匪頭子,建國(guó)后毛主席指示賀晉年:此人一定要抓

昔年混入紅軍的土匪頭子,建國(guó)后毛主席指示賀晉年:此人一定要抓

鶴羽說(shuō)個(gè)事
2026-01-22 11:51:54
你想不想贏?東契奇最后一球超大空位不投!雷迪克急了,詹皇暴怒

你想不想贏?東契奇最后一球超大空位不投!雷迪克急了,詹皇暴怒

嘴炮體壇
2026-01-23 14:03:53
這回真洗不白了! 高調(diào)炫富的李湘再傳"噩耗",被扒的"底褲"不剩

這回真洗不白了! 高調(diào)炫富的李湘再傳"噩耗",被扒的"底褲"不剩

娛說(shuō)瑜悅
2026-01-23 18:17:04
60歲于東來(lái)跳入冰水施救被困車輛

60歲于東來(lái)跳入冰水施救被困車輛

界面新聞
2026-01-23 10:28:21
特朗普對(duì)全球下令,180天內(nèi)廢掉中方王牌,美媒:中國(guó)在霸凌美國(guó)

特朗普對(duì)全球下令,180天內(nèi)廢掉中方王牌,美媒:中國(guó)在霸凌美國(guó)

小曙說(shuō)娛
2026-01-21 09:43:03
注意!個(gè)人所得稅不能再零申報(bào)!

注意!個(gè)人所得稅不能再零申報(bào)!

祥順財(cái)稅俱樂(lè)部
2026-01-23 09:07:03
毛主席下令“丟卒保車”保全大局,皮定均率七千將領(lǐng)甘愿當(dāng)小卒

毛主席下令“丟卒保車”保全大局,皮定均率七千將領(lǐng)甘愿當(dāng)小卒

古書記史
2026-01-19 01:30:53
重返英超?阿爾瓦雷斯不滿馬競(jìng),阿森納、切爾西同時(shí)開啟談判

重返英超?阿爾瓦雷斯不滿馬競(jìng),阿森納、切爾西同時(shí)開啟談判

夜白侃球
2026-01-23 16:19:43
高盛,中信吃了個(gè)跌停,牛市股價(jià)暴跌24%,高盛和中信重倉(cāng)被套

高盛,中信吃了個(gè)跌停,牛市股價(jià)暴跌24%,高盛和中信重倉(cāng)被套

鵬哥投研
2026-01-23 09:45:18
陳幸同正式公開戀情

陳幸同正式公開戀情

最愛乒乓球
2026-01-23 00:04:58
215:215!美最新投票結(jié)果出來(lái)了,特朗普下達(dá)3條命令,俄歐失聲

215:215!美最新投票結(jié)果出來(lái)了,特朗普下達(dá)3條命令,俄歐失聲

今墨緣
2026-01-23 19:40:37
馬斯克玩“諧音?!背爸S特朗普“和平委員會(huì)”:到底是要和平(peace)還是要地(piece),“一小塊格陵蘭島,一小塊委內(nèi)瑞拉”

馬斯克玩“諧音?!背爸S特朗普“和平委員會(huì)”:到底是要和平(peace)還是要地(piece),“一小塊格陵蘭島,一小塊委內(nèi)瑞拉”

揚(yáng)子晚報(bào)
2026-01-23 14:43:26
聊聊TCL和索尼這檔子事!輸家是誰(shuí)不知道,但TCL一定是贏家

聊聊TCL和索尼這檔子事!輸家是誰(shuí)不知道,但TCL一定是贏家

杰夫視點(diǎn)
2026-01-23 13:13:32
吳石遺孀王碧奎 1950 年夫犧牲,臺(tái)顛沛 30 年拒返赴美吐隱情

吳石遺孀王碧奎 1950 年夫犧牲,臺(tái)顛沛 30 年拒返赴美吐隱情

磊子講史
2026-01-06 11:48:34
成都警方通報(bào)兩名外賣員打架:行拘并罰款

成都警方通報(bào)兩名外賣員打架:行拘并罰款

極目新聞
2026-01-22 23:21:37
中國(guó)空軍立下規(guī)矩:從今以后,絕不允許有人對(duì)我大聲說(shuō)話!

中國(guó)空軍立下規(guī)矩:從今以后,絕不允許有人對(duì)我大聲說(shuō)話!

史智文道
2026-01-23 20:03:39
終于有人說(shuō)實(shí)話了!如不出意外,今年春節(jié)會(huì)迎來(lái)6個(gè)“反?,F(xiàn)象”

終于有人說(shuō)實(shí)話了!如不出意外,今年春節(jié)會(huì)迎來(lái)6個(gè)“反常現(xiàn)象”

不寫散文詩(shī)
2026-01-23 14:26:45
2026-01-23 21:48:50
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12179文章數(shù) 142548關(guān)注度
往期回顧 全部

科技要聞

TikTok守住了算法"靈魂" 更握緊了"錢袋子"

頭條要聞

U23國(guó)足決賽對(duì)戰(zhàn)日本隊(duì) 轉(zhuǎn)播計(jì)劃出爐

頭條要聞

U23國(guó)足決賽對(duì)戰(zhàn)日本隊(duì) 轉(zhuǎn)播計(jì)劃出爐

體育要聞

杜蘭特鏖戰(zhàn)44分鐘累癱 轟36+7卻致命失誤

娛樂(lè)要聞

演員孫濤澄清閆學(xué)晶言論 落淚維護(hù)妻子

財(cái)經(jīng)要聞

2026年,消費(fèi)沒(méi)有新故事?

汽車要聞

主打家庭大六座 奕境首款SUV將北京車展亮相

態(tài)度原創(chuàng)

家居
時(shí)尚
數(shù)碼
健康
軍事航空

家居要聞

在家度假 160平南洋混搭宅

短劇都沒(méi)有她的故事精彩?62歲活成了多少人羨慕的樣子

數(shù)碼要聞

當(dāng)貝耳機(jī)Air 1一炮打響:上線第一天就拿了個(gè)第一

耳石脫落為何讓人天旋地轉(zhuǎn)+惡心?

軍事要聞

美軍首艘“高超導(dǎo)彈戰(zhàn)艦”出海測(cè)試

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版