阿里巴巴Qwen團隊打造的"全感官"AI助手，究竟有多強？

2026-04-27 21:21:09　來源: 科技行者

北京舉報

分享至

這項由阿里巴巴Qwen團隊開發(fā)的研究成果發(fā)表于2026年4月，論文編號為arXiv:2604.15804v1，有興趣深入了解的讀者可以通過該編號查詢完整論文。

人類感知世界的方式從來都不是單一的。當你和朋友聊天時，你同時在聽他說話、看他的表情、理解文字信息，然后開口回應——這種"多通道"的信息處理能力，對人類而言再自然不過。然而對AI來說，這一直是一道難以跨越的門檻。大多數(shù)AI系統(tǒng)要么只能看圖，要么只能聽聲音，要么只能讀文字，真正能同時駕馭所有這些的系統(tǒng)鳳毛麟角。

Qwen3.5-Omni，正是阿里巴巴為填補這道鴻溝而打造的"全感官"AI模型。它不僅能同時理解文字、圖片、音頻和視頻，還能實時用語音回應你——換句話說，它可以真正和你"說話"，而不只是打字回復。這個模型分為兩個版本：能力更強的Plus版本和速度更快的Flash版本，兩者都支持長達256k個詞元（token）的超長上下文理解，相當于可以一口氣讀完一本厚厚的書。

在數(shù)據(jù)規(guī)模上，這個模型的訓練量令人咋舌：超過1億小時的音視頻內(nèi)容，外加海量的圖文配對數(shù)據(jù)。靠著這些"營養(yǎng)"，Qwen3.5-Omni-Plus在215個音頻和音視頻理解、推理與交互的子任務和基準測試中達到了當前最優(yōu)水平，在多項關鍵音頻任務上甚至超過了谷歌的Gemini-3.1 Pro，在綜合音視頻理解方面也與之并駕齊驅(qū)。

要理解這個模型的意義，可以把它類比成一位"全能翻譯官"。以前的AI就像只懂某一種語言的翻譯，你說中文他能翻英文，但你同時播放一段視頻、用英文提問，讓他一邊看一邊聽一邊回答，他就手忙腳亂了。Qwen3.5-Omni則像是一位天賦異稟的翻譯官，耳朵、眼睛、大腦同時開動，還能用流利的語言當場回答你——這種能力，在AI領域被稱為"全模態(tài)"（Omni-modal）能力。

一、"思考者"與"說話者"：一個AI里住著兩個角色

要真正理解Qwen3.5-Omni的工作方式，需要先了解它的核心設計思路。研究團隊給這個模型設計了一套"雙角色"架構(gòu)，稱為"Thinker-Talker"結(jié)構(gòu)，直譯過來就是"思考者-說話者"架構(gòu)。

"思考者"（Thinker）負責的是大腦層面的工作：它接收所有輸入——文字、圖片、音頻、視頻——然后進行理解、分析和推理，最終生成文字形式的回答。"說話者"（Talker）則是嘴巴的角色：它接收"思考者"輸出的文字和內(nèi)部高層次信息，把這些內(nèi)容轉(zhuǎn)化為流暢自然的語音輸出。兩者分工明確，但又緊密協(xié)作。

這種設計的好處在哪里？舉個例子，當你問AI"視頻里那個人說的是什么？"時，"思考者"負責理解視頻畫面、聽懂視頻里的聲音、綜合分析，給出文字答案；"說話者"則立刻把這個文字答案轉(zhuǎn)化為語音，讓你聽到回復，而不需要你盯著屏幕等文字出現(xiàn)。整個過程快速流暢，就像和真人對話一樣。

這套架構(gòu)并非全新發(fā)明——它最初在上一代模型Qwen2.5-Omni中提出，之后在Qwen3-Omni中進一步演進。Qwen3.5-Omni在此基礎上進行了五項關鍵升級。第一，"思考者"和"說話者"都采用了一種叫做"混合注意力混合專家（Hybrid Attention MoE）"的架構(gòu)，這讓模型在處理超長內(nèi)容時效率大幅提升。第二，上下文長度從之前的版本擴展到了256k詞元，支持超過10小時的音頻理解，以及每秒1幀的720P畫質(zhì)視頻長達400秒。第三，語音生成采用了多碼本編解碼器表示，能在單幀內(nèi)立即合成語音。第四，引入了一種全新技術(shù)ARIA來解決流式語音生成的穩(wěn)定性問題。第五，多語言支持大幅擴展，語音識別覆蓋113種語言和方言，語音生成支持36種語言。

二、聽懂世界的"耳朵"：音頻變換器AuT

在深入了解這個模型如何處理聲音之前，先考慮這樣一個場景：你用手機錄了一段視頻，里面既有環(huán)境噪音、又有人說話聲、背景音樂也隱約可聞。要讓AI正確理解這段視頻里"發(fā)生了什么"，它首先得有一雙足夠靈敏的"耳朵"。

Qwen3.5-Omni的"耳朵"叫做音頻變換器，簡稱AuT。這個組件從頭開始訓練——意思是研究團隊沒有借用現(xiàn)成的音頻處理工具，而是從零打造了一套專門的音頻理解系統(tǒng)。訓練這雙"耳朵"用掉了4000萬小時的音頻-文字配對數(shù)據(jù)，這些數(shù)據(jù)由阿里巴巴自研的Qwen3-ASR系統(tǒng)生成。

AuT的工作原理可以用一個日常場景來理解：它就像一位速記員，把連續(xù)的聲音波形先轉(zhuǎn)換成一種叫做"濾波器組特征"的中間表示（可以理解為聲音的"頻譜圖"），然后通過4個卷積模塊將信息壓縮成更緊湊的格式，再交給自注意力層進行深度分析，最終以每秒6.25個詞元的速率輸出音頻特征。每個輸出詞元大約對應原始音頻中約160毫秒的內(nèi)容。

與上一代相比，Qwen3.5-Omni的AuT在多語言數(shù)據(jù)上的訓練比例大幅提升，覆蓋了超過20種語言，中文、英文和多語言數(shù)據(jù)的比例約為3.5比3.5比3。此外，訓練時還采用了動態(tài)注意力窗口大小機制，確保模型在實時語音流和離線音頻理解兩種場景下都能表現(xiàn)均衡。

三、"理解大腦"如何同時消化多種信息

現(xiàn)在來談談"思考者"（Thinker）這個核心組件。它的任務是把來自不同渠道的信息統(tǒng)一起來，形成完整的理解。

文字輸入方面，Qwen3.5-Omni使用了Qwen3.5的分詞器，采用字節(jié)級別的字節(jié)對編碼方式，詞匯表大小從之前的15萬個詞元擴展到了25萬個，對大多數(shù)語言的編解碼效率提升了10%到60%。通俗地說，這就像升級了一本更厚的詞典，讓模型能用更少的"單詞"表達同樣的意思，處理速度更快。

圖像和視頻的處理則采用了來自Qwen3.5的視覺編碼器，這個編碼器在圖文混合數(shù)據(jù)上訓練，能同時處理靜態(tài)圖片和動態(tài)視頻。為了在保留盡量多視頻信息的同時與音頻流保持同步，模型會以動態(tài)幀率對視頻進行采樣。

在時間感知方面，模型采用了一種叫做TM-RoPE的位置編碼技術(shù)來實現(xiàn)音視頻同步感知，但相比上一代做了重要改進。上一代直接用絕對時間戳作為位置ID，導致長視頻中位置索引過于稀疏，影響模型對長時間范圍內(nèi)信息關聯(lián)的理解，且需要大量均勻分布的不同幀率訓練數(shù)據(jù)。新版本的解決方案更優(yōu)雅：在每個視頻或音頻片段前面直接插入以秒為單位的文字時間戳，讓模型像讀文字一樣自然地學習時間信息。音頻序列中還會在隨機間隔處插入時間戳，進一步增強跨模態(tài)的時間對齊能力。

在多模態(tài)同時出現(xiàn)時，系統(tǒng)會給音頻每160毫秒分配一個時間ID，視頻則以幀為單位、根據(jù)實際時間戳動態(tài)調(diào)整時間ID，確保每個時間ID統(tǒng)一對應160毫秒的內(nèi)容。不同模態(tài)之間的位置編號保持連續(xù)，每種模態(tài)的編號從上一種模態(tài)最大位置ID加1開始，防止位置沖突。這種設計讓模型可以靈活支持任意時長的流式輸入。

四、讓語音"說得自然"：ARIA技術(shù)與多碼本語音合成

如果說"思考者"是大腦，"說話者"（Talker）就是嘴巴。嘴巴說話的難題在于：如何讓輸出的語音既快速、又自然、又穩(wěn)定？

Qwen3.5-Omni的"說話者"直接操作一種叫做RVQ（殘差向量量化）詞元的語音表示格式，由專門的音頻分詞器產(chǎn)生。為了建模語音的細節(jié)層次，它采用了多詞元預測（MTP）模塊，配合因果卷積網(wǎng)絡進行波形重建，實現(xiàn)高保真度的語音合成。在多輪對話中，"說話者"能接收"思考者"提供的豐富上下文信息——包括歷史文字詞元、多模態(tài)表示和當前輪次的流式文字——動態(tài)調(diào)整韻律、音量和情感表達，讓語音聽起來更像是在自然對話中產(chǎn)生的，而非機械朗讀。

然而，流式語音生成存在一個棘手問題：文字分詞器和語音分詞器的"編碼效率"不一樣。打個比方，同樣是"說一句話"，文字分詞器可能只需要10個詞元，而語音分詞器可能需要50個詞元；但如果是另一種語言或另一種說法，這個比例可能完全不同。如果固定按照某個比例交替生成文字詞元和語音詞元，就容易出現(xiàn)跳字、發(fā)音錯誤、數(shù)字念錯等問題，就像一臺樂器按固定節(jié)拍演奏，但曲譜的節(jié)奏忽快忽慢，必然會亂掉。

ARIA（自適應速率交織對齊，Adaptive Rate Interleave Alignment）正是為解決這個問題而生。它的核心思路是：不再預先固定文字詞元和語音詞元的交替比例，而是施加一個自適應的速率約束——在已生成序列的任何前綴中，累計的語音-文字詞元比例不能超過對應條目級別的全局比例。這個約束簡單而有效：它讓文字和語音的生成始終保持彈性同步，自然適應不同語言的編碼效率差異，同時支持任意的文字前綴后接連貫的語音詞元續(xù)寫。ARIA還把原來"說話者"的雙通道生成模式（文字和語音分別走兩條軌道）統(tǒng)一成了單通道交織生成，減少了通道間的同步開銷，使流式交互更流暢、更高效。

"說話者"還有另一項重要設計：專屬系統(tǒng)提示詞。研究團隊為"說話者"引入了一個專門描述目標聲音特征的系統(tǒng)提示，既可以是文字描述，也可以包含語音片段，這使得零樣本聲音克隆（用戶提供一段自己的聲音樣本，模型就能模仿這個聲線說話）和可控語音生成（控制音量、語速、情感等）成為可能，比傳統(tǒng)的說話人嵌入向量能攜帶更豐富的聲學控制信息。

五、流式交互與并發(fā)：讓對話快到感覺不出延遲

對于一個語音對話AI來說，響應速度至關重要。假如你說完一句話，AI停頓了兩三秒才回答，對話感覺就完全破碎了。為此，Qwen3.5-Omni在架構(gòu)和算法層面做了大量優(yōu)化。

模型整體骨干采用了混合MoE（混合專家）架構(gòu)，其中包含門控Delta網(wǎng)絡（GDN）模塊，這個模塊在處理長音視頻序列時能顯著降低KV緩存的輸入輸出開銷，提升生成吞吐量，支持更高的并發(fā)服務能力。此外，音頻和視覺編碼器都支持沿時間維度輸出數(shù)據(jù)塊，配合分塊預填充機制，大幅降低了"思考者"和"說話者"的首詞元時間（即從收到輸入到輸出第一個詞元的延遲）。

從實測數(shù)據(jù)來看，在單并發(fā)場景下，Qwen3.5-Omni-Plus的端到端首包延遲（從輸入到第一個可播放音頻包）在音頻輸入時為435毫秒，視頻輸入時為651毫秒；更輕量的Flash版本則分別低至235毫秒和426毫秒。隨著并發(fā)數(shù)增加到4路或8路，延遲雖有所增加，但整體保持在可接受的范圍內(nèi)，解碼效率基本穩(wěn)定。生成實時因子（Generation RTF，即每生成1秒語音所需的處理時間）始終低于0.35，說明系統(tǒng)有充足的余量支撐流暢的流式語音輸出。

六、三階段預訓練：從零到"博學多才"

要讓一個模型真正"博學多才"，訓練數(shù)據(jù)的組織方式和訓練策略同樣至關重要。Qwen3.5-Omni的預訓練分為三個階段，就像一個孩子的成長歷程：先學基礎，再拓寬視野，最后挑戰(zhàn)"馬拉松閱讀"。

第一階段是編碼器對齊階段。此時，模型的語言大腦部分用Qwen3.5的參數(shù)初始化，視覺編碼器來自Qwen3.5，音頻編碼器用AuT初始化。這個階段先鎖定語言大腦，專注訓練視覺和音頻編碼器，讓它們先學會把各自領域的信息轉(zhuǎn)化為語言大腦能理解的形式，就像先教兩位新翻譯員學會把外語翻譯成普通話，再讓他們和大腦對接。

第二階段是通用階段。解凍所有參數(shù)，用約4萬億詞元的大規(guī)模多模態(tài)數(shù)據(jù)集訓練，其中文字約占0.92萬億詞元，音頻約1.99萬億詞元，圖像約0.95萬億詞元，視頻約0.14萬億詞元，音視頻結(jié)合約0.29萬億詞元。序列長度為32768詞元。這個階段讓模型真正學會融合多種信息、理解跨模態(tài)內(nèi)容。

第三階段是長上下文階段。將最大序列長度從32768詞元擴展到262144詞元，并提高訓練數(shù)據(jù)中長音頻和長視頻的比例。實驗結(jié)果顯示，這些調(diào)整讓模型在理解長序列數(shù)據(jù)方面有了顯著提升，就像一個原本只能背幾頁書的學生，經(jīng)過專項訓練后能一口氣讀完一整本書并準確復述內(nèi)容。

七、三階段后訓練：從"會做"到"做得好"

預訓練讓模型獲得了廣博的知識，后訓練則讓它學會在實際使用中表現(xiàn)出色。"思考者"的后訓練分三個階段進行。

第一階段是專家蒸餾。研究團隊先獨立訓練了一批領域?qū)＜夷Ｐ停w文字相關任務（如智能代理、編程、基礎推理）以及視覺和音頻專項任務，這些專家模型都基于預訓練的Qwen3.5基礎檢查點微調(diào)而來。隨后，用這些專家模型生成領域?qū)贁?shù)據(jù)，將各領域的專項能力"蒸餾"進統(tǒng)一模型——就像把多位專家的經(jīng)驗總結(jié)成一份手冊，讓全科醫(yī)生也能掌握各科要點。

第二階段是在策略蒸餾。經(jīng)過第一階段后，模型在基于文字輸入的任務上表現(xiàn)不錯，但基于音頻輸入的任務響應質(zhì)量與文字輸入相比仍有差距。原因很直觀：音頻理解比文字理解難，信息損耗更多。解決思路是：對每個音頻-文字配對問題，先用文字條件生成一個高質(zhì)量答案，再把這個答案作為音頻條件下的蒸餾目標，讓模型逐步把"用文字思考"的能力遷移到"用音頻思考"的場景中。

第三階段是交互對齊強化學習。前兩個階段解決了能力問題，但在實際多輪對話中，研究團隊發(fā)現(xiàn)模型存在無意間切換語言、角色不一致、在長對話中指令遵循能力下降等問題。為此，他們引入了交互對齊強化學習，構(gòu)建多輪交互軌跡，并圍繞用戶體驗目標設計獎勵信號，讓模型專門學習在長期對話中保持穩(wěn)定、一致、聽話的行為。

"說話者"的后訓練則分四個階段：通用階段（在超過2000萬小時的多語言語音數(shù)據(jù)上訓練，引入指令遵循等多樣化任務）、長上下文階段（通過數(shù)據(jù)質(zhì)量分層和精選子集的持續(xù)預訓練，提升語音自然度和質(zhì)量，上下文長度擴展到6.4萬詞元）、強化學習階段（通過直接偏好優(yōu)化即DPO構(gòu)建多語言偏好對，并結(jié)合規(guī)則獎勵和GSPO方法進一步提升能力和訓練穩(wěn)定性），以及說話人微調(diào)階段（在基礎模型上進行輕量級說話人微調(diào)，讓模型能準確捕捉目標說話人特征，提升語音的自然度、表達力和可控性）。

八、多模態(tài)理解能力實測：成績單逐項解讀

經(jīng)過如此大規(guī)模的訓練，Qwen3.5-Omni在實際測試中表現(xiàn)如何？研究團隊對Flash和Plus兩個版本進行了全面評測，覆蓋文字、音頻、視覺和音視頻四大維度。

在文字理解方面，Qwen3.5-Omni-Plus的表現(xiàn)與同規(guī)模的純文字模型Qwen3.5-Plus-NoThinking基本持平。在通用知識測試MMLU-Pro上，Plus版本得分85.9，文字版本為86.8；在指令遵循測試IFEval上，兩者均達到89.7。在推理任務HMMT Nov 25上，Plus版本得分84.4，接近文字版本的86.2。這說明加入多模態(tài)能力并沒有拖累模型的文字處理水平——兩者兼顧到了這個程度，在技術(shù)上并不容易。

在音頻理解方面，Qwen3.5-Omni-Plus在音頻綜合理解測試MMAU上得分82.2，超過Gemini-3.1 Pro的81.1；在多模態(tài)音頻推理測試MMSU上得分82.8，同樣高于Gemini-3.1 Pro的81.3；在音樂結(jié)構(gòu)測試RUL-MuchoMusic上得分72.4，大幅領先Gemini-3.1 Pro的59.6；在歌曲形態(tài)識別測試SongFormBench上也全面領先。在端到端語音對話測試VoiceBench上，Plus版本得分93.1，顯著高于Gemini-3.1 Pro的88.9。在多語言語音識別方面，Qwen3.5-Omni-Plus在FLEURS測試集上的平均詞錯誤率（WER）為6.6%，低于Gemini-3.1 Pro的7.3%和GPT-4o Transcribe的10.4%；在中文、粵語、臺灣普通話等測試上，Qwen3.5-Omni-Plus分別達到3.46%、1.95%、2.27%的詞錯誤率，遠低于競品。

在視覺理解方面，Qwen3.5-Omni-Plus同樣表現(xiàn)出色。在數(shù)學推理測試MathVista上得分86.1，接近文字版本的86.9；在通用視覺問答RealWorldQA上得分84.1，超過文字版本的79.1；在視頻理解測試Video-MME上得分81.9，高于文字版本的81.0；在長視頻理解測試MLVU上得分86.8，同樣超越文字版本的85.1。在醫(yī)療視覺問答測試SLAKE上，Plus版本得分84.7，高于文字版本的82.8。

在音視頻聯(lián)合理解方面，Qwen3.5-Omni-Plus在DailyOmni測試上得分84.6，超過Gemini-3.1 Pro的82.7；在Qualcomm IVD真實音視頻交互場景評測上得分68.5，高于Gemini-3.1 Pro的66.2；在音視頻字幕測試OmniCloze上得分64.8，優(yōu)于Gemini-3.1 Pro的57.2。在工具使用測試OmniGAIA上，Plus版本達到57.2%，而Flash版本為33.9%，這也體現(xiàn)了兩個版本在復雜推理任務上的能力差異。

九、語音生成能力：從零樣本克隆到跨語言遷移

語音生成是Qwen3.5-Omni的另一個重要能力維度，研究團隊從四個角度進行了評測。

在零樣本語音生成方面，研究團隊在SEED-TTS基準上進行了測試，用詞錯誤率（WER）衡量生成語音的內(nèi)容準確性。Qwen3.5-Omni-Plus在中文測試集上的WER為0.99%，在英文測試集上為1.26%，英文部分達到了所有測試模型中的最優(yōu)成績。相比之下，上一代的Qwen2.5-Omni-7B為1.42%和2.33%，Qwen3-Omni-30B-A3B為1.07%和1.39%，CosyVoice 3為0.71%和1.45%，MiniMax-Speech為0.83%和1.65%。

在多語言語音生成方面，Qwen3.5-Omni支持29種語言的語音輸出（另有7種中國方言）。與MiniMax-Speech和ElevenLabs兩個商業(yè)系統(tǒng)相比，Qwen3.5-Omni-Plus在評測的29種語言中，有22種語言的詞錯誤率最低，在大多數(shù)情況下以明顯優(yōu)勢領先。在說話人相似度方面，Qwen3.5-Omni也在大多數(shù)語言上取得最高的余弦相似度分數(shù)，在中文上達到0.800、英文0.833、芬蘭語0.859、波蘭語0.839，全面超越競品。

在跨語言語音克隆方面，模型需要在保持說話人音色的同時，用不同的目標語言生成語音。在12個測試語言對方向中，Qwen3.5-Omni-Plus在10個方向上達到最優(yōu)。以中文到韓語的方向為例，其混合錯誤率（英文用詞錯誤率，其他語言用字符錯誤率）為4.03%，相比CosyVoice3的14.4%降低了約72%。在常用的中文到英文方向上，Qwen3.5-Omni-Plus的錯誤率為2.18%，同樣優(yōu)于競品。

在自定義聲音語音生成方面，研究團隊在29種語言上與ElevenLabs、Gemini-2.5 Pro、GPT-Audio和MiniMax四個商業(yè)系統(tǒng)進行了對比。盡管Qwen3.5-Omni僅在單語言數(shù)據(jù)上進行了說話人微調(diào)，它仍然展示出強大的跨語言泛化能力，能把目標說話人的音色特征遷移到全部29種評測語言中。在10種語言上取得最低詞錯誤率，在日語（3.306%）、韓語（1.309%）等挑戰(zhàn)性語言上表現(xiàn)尤為突出。

十、三大新能力：字幕生成、實時交互與多模態(tài)編程

除了上述基礎能力的全面提升，Qwen3.5-Omni還解鎖了三項此前不存在于同類模型中的新能力。

第一項是可控音視頻字幕生成。模型能夠生成可控的、詳細的、結(jié)構(gòu)化的字幕，以及劇本級別的精細描述，包括自動場景分割、時間戳標注，以及對畫面中角色及其與音頻關系的詳細描述。這種能力對影視字幕自動生成、內(nèi)容審核、無障礙服務等場景有重要價值。

第二項是全方位實時交互。這包括通過原生輪換意圖識別實現(xiàn)的語義級別的打斷（模型能理解你是真的要打斷它，還是只是發(fā)出了一個沒有實質(zhì)含義的聲音），以及端到端的語音控制（直接用聲音控制音量、語速和情感），還有通過用戶提供樣本實現(xiàn)的聲音克隆。

第三項是原生多模態(tài)智能體行為，其中最引人注目的是一種研究團隊稱為"音視頻氛圍編程"（Audio-Visual Vibe Coding）的新興能力。這是一種在全模態(tài)模型中自然涌現(xiàn)出來的能力：模型可以直接根據(jù)音視頻指令生成可執(zhí)行的代碼，用來響應實時查詢，無需外部編排。換句話說，你可以對著攝像頭說"幫我寫一個處理這個視頻的腳本"，模型不僅能理解你的視頻內(nèi)容，還能直接生成對應的代碼——這種能力并非研究團隊預先設計的，而是在大規(guī)模訓練后自然出現(xiàn)的，因此被稱為"涌現(xiàn)能力"。此外，模型還支持自主調(diào)用WebSearch和復雜FunctionCall。

說到底，Qwen3.5-Omni代表的是AI從"工具"向"伙伴"演進的一次重要嘗試。以往的AI要么只會看、要么只會聽、要么只會說，而這個模型試圖把所有這些能力整合成一個真正完整的"感官系統(tǒng)"。在實測數(shù)據(jù)上，它在大量音頻和音視頻基準上超過了谷歌Gemini-3.1 Pro，同時維持了與同規(guī)模純文字模型相當?shù)奈淖痔幚硭?，沒有因為多了眼睛和耳朵而變得"腦子不好使"。

當然，沒有哪項技術(shù)是完美的。這個模型在某些具體任務上仍與最強的專項模型存在差距，比如在xx2en翻譯的整體平均分上，Qwen3.5-Omni-Plus為37.0，略低于Gemini-3.1 Pro的37.4。在某些語言的語音識別上，如北印度語，Gemini-3.1 Pro的4.5%低于Qwen3.5-Omni-Plus的9.7%，說明在特定語言上仍有提升空間。

更有意思的問題或許在于：當AI真正擁有完整的感官系統(tǒng)之后，它能做什么？"音視頻氛圍編程"這個涌現(xiàn)能力給了我們一個有趣的提示——隨著能力的積累，模型會以我們意料之外的方式展現(xiàn)新本領。這也意味著，我們現(xiàn)在看到的，可能只是這類全感官AI能做到的事情的冰山一角。有興趣深入了解技術(shù)細節(jié)的讀者，可以通過論文編號arXiv:2604.15804v1查閱完整論文。

Q&A

Q1：Qwen3.5-Omni支持哪些語言的語音識別和語音生成？

A：Qwen3.5-Omni在語音識別方面支持113種語言和方言，包括74種語言和39種中國方言；語音生成方面支持36種語言，包含29種語言和7種中國方言，如四川話、北京話、粵語、閩南語等。

Q2：ARIA技術(shù)解決了什么問題？

A：ARIA（自適應速率交織對齊）解決的是流式語音生成中文字詞元和語音詞元編碼效率不匹配的問題。不同語言或不同表達方式下，生成同一內(nèi)容所需的文字詞元數(shù)和語音詞元數(shù)比例差異很大，固定比例交替生成會導致跳字、發(fā)音錯誤等問題。ARIA通過自適應速率約束動態(tài)對齊兩者，顯著提升了語音生成的穩(wěn)定性和自然度。

Q3：Qwen3.5-Omni-Plus和Qwen3.5-Omni-Flash有什么區(qū)別？

A：兩者都是Qwen3.5-Omni的正式版本，Plus版本能力更強，在各項基準測試中表現(xiàn)更好，首包延遲約435毫秒（音頻輸入）；Flash版本更輕量快速，首包延遲約235毫秒（音頻輸入），在資源受限或?qū)λ俣纫蟾叩膱鼍爸懈m用。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.