国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Qwen3.5 還有高手,全模態(tài)大模型來了,實測很強

0
分享至

兄弟們,Qwen3.5 系列我寫過十幾篇了,涉及簡介、測評、本地部署、微調(diào)等等


本來以為可以收手了,沒想到還有高手!

它就是全面超越 Gemini 3.1 Pro 的全模態(tài)大模型——Qwen3.5-Omni

簡介

Qwen3.5-Omni 是 Qwen3-Omni 的全面進化版,真正把“看、聽、說、想”放進同一套開源底座里的模型,在海量文本、視覺,以及超過 1 億小時的音視頻數(shù)據(jù)上進行原生多模態(tài)預訓練,支持文本、圖片、音頻、音視 頻全模態(tài)理解與生成。

幾個關鍵數(shù)字:

  • 256k 超長上下文 ,可支持超過 10 小時 的音頻理解

  • 支持超過 400 秒的 720P 音視頻 對話

  • 113 種語種和方言 語音識別, 36 種語種和方言 語音生成

  • 音頻/音視頻的理解、推理和交互任務上取得了 215 項 子任務 / Benchmark 的 SOTA

根據(jù)官方披露的數(shù)據(jù),Qwen3.5-Omni-Plus 在通用音頻理解、推理、識別、翻譯、對話能力上全面超越了 Gemini 3.1 Pro,在多語言語音識別/生成上也顯著優(yōu)于 Gemini 3.1 Pro,215 項音頻/音視頻子任務達到 SOTA 成績。


這次 Qwen3.5-Omni 分 Plus / Flash / Light 三檔:

版本

定位

Plus

旗艦,音頻/音視頻理解 215 項 SOTA,對標頂級商業(yè)模型

Flash

平衡,速度與能力折中

Light

輕量,適合資源受限或高并發(fā)場景

API 接入分兩種:離線 API(文件級批量處理)和實時 API(流式語音對話、實時交互),根據(jù)場景選就行。

實測 1、音頻理解

輸入音頻讓其轉(zhuǎn)錄成字幕,實測有些錯別字,這點是任何模型都不可避免的,比如這個老張/老章。


我之前用剪映做字幕,那是相當難受,先語音識別,再導出字幕文件用本地編輯器打開(剪映自帶的操作太難受了),逐個修改錯別字。

有了 Qwen 3.5-Omni-Plus 我感覺完全可以這樣:先用它錄音轉(zhuǎn)錄成字幕,然后把口播稿給它,修復其中所有錯別字,識別錯誤之處,然后給出的就是完美字幕文件了。

2、超長音頻轉(zhuǎn)錄

Qwen 3.5-Omni-Plus超過 10 小時的音頻輸入,這有點太誘人了,又臭又長的會議錄音有救了。但是網(wǎng)頁端處理不了,好在阿里云百煉平臺提供了 API,調(diào)用方式與之前一致。

我拿最近特別火的張小珺 7 小時馬拉松對話做測試


用我的 B 站音、視頻下載 skills 將其下載,抽取 MP3 音頻


我寫了一個腳本,用 Qwen3.5-Omni-Plus 將其完整,一口氣把這個將近 7 個小時的 MP3 轉(zhuǎn)成文字稿


# 代碼太長了,僅展示一下提示詞

PROMPT = (
"請將這段音頻完整逐字轉(zhuǎn)錄為文字稿。要求:\n"
"1. 保留所有對話內(nèi)容,不要遺漏或概括\n"
"2. 標注不同說話人(如 說話人A、說話人B)\n"
"3. 保留口語化表達、語氣詞\n"
"4. 如果有明顯的話題轉(zhuǎn)換,用空行分隔"
)

結(jié)果如下,整整 14 萬字,如果加上一些提示詞會更好,比如人名:


3、聯(lián)網(wǎng)搜索+工具調(diào)用+可變音色音頻輸出

看簡介,Qwen 3.5-Omni-Plus 支持端到端語音控制,模型可以像人一樣遵循指令來對聲音的大小/語速/情緒等自由調(diào)節(jié);還支持音色克隆,可以上傳自己的聲音,定制 AI 的專屬音色。這個我很有興趣,大家看我的視頻配音,其實用的就是我的音色克隆,本地跑有點慢,不太穩(wěn)定,后面決定試試 Omni-Plus。

但是,我更加感興趣的是它的原生聯(lián)網(wǎng)搜索支持與工具調(diào)用能力,加上輸出音頻的音色支持,完全可以復刻出一個大模型支持的智能音箱了(Qwen 3.5-Omni 有實時版本,也支持聯(lián)網(wǎng)搜索),事實上,我正在做這個,把我那臺要退休的 M1 Macmini 改造成支持語音喚醒的智能音響,大家靜待佳音。

實際測試,它真的相當可以


大家感受一下

而且還可以切換音色

4、語義打斷,視頻通話

傳統(tǒng)語音助手有個經(jīng)典問題:你還沒說完,它就搶話了;或者背景有點噪音,它以為你在叫它。Qwen3.5-Omni 支持語義打斷,自動識別turn-talking意圖,模型可以精準判斷什么時候該接話,什么只是用戶無意識的附和、停頓或背景聲音。


也支持視頻通話,我的 macmini 沒有攝像頭,所以沒有測試


5、視頻理解

整個活兒,雞湯來了的視頻,它是真實看懂了的,幾個問題它都能精準找到答案


我確認了一下,看左下角時間軸,分秒不差


我還給了它我最近的一個視頻讓其總結(jié)


它對關鍵幀畫面的理解很不錯,而且對整理風格和內(nèi)容也有總結(jié):


6、圖像理解

這個題目之前我測試過幾個號稱支持圖像輸入的旗艦大模型,都失敗了。

Qwen3.5-Omni-Plus 表現(xiàn)的確實像真實看過的樣子


意外發(fā)現(xiàn),它自帶 OCR 能力也相當可以,比如我常需要的 latex 公式識別


它可以自動識別,并渲染


然后它的 OCR 能力不輸專業(yè) OCR 大模型,比如我這張測試專用圖片


核心內(nèi)容完成 get 到了,右下角那個表格也準確識別


7、圖片生成

這沒什么好說的,應該是全模態(tài)大模型的基本功了,我試了一個之前 Gemini 中用過的提示詞,Qwen3.5-Omni-Plus 表現(xiàn)也非常不錯,細節(jié)很多,人物也很自然。

生圖之后還支持局部修改,這種精準 PS 級別的操作,確實可以


8、文檔解析

提示詞:把這個 PDF 完整解析成結(jié)構清晰的 markdown 文檔,翻譯成中文,doublecheck 翻譯質(zhì)量,不要總結(jié),不要遺漏

意外的是,它出奇的快,幾乎是我按下 Enter 之后立即便開始輸出了


對比了原文,質(zhì)量也沒問題


如何體驗 Qwen3.5-Omni

官方提供兩個正式渠道:

  1. 阿里云百煉 :API 調(diào)用,離線 API 和實時 API 分別適合批量處理和流式交互場景

    ● 非實時:https://help.aliyun.com/zh/model-studio/qwen-omni

    ● 實時:https://help.aliyun.com/zh/model-studio/realtime

  2. Qwen Chat :網(wǎng)頁/App 端直接對話,上手最快 https://chat.qwen.ai/

總結(jié)

Qwen3.5-Omni 給我的整體感覺是,野心很大,完成度也不低。它真正有意思的地方,在于把文本、圖像、音頻、視頻、實時語音回復放進了同一個統(tǒng)一框架里,把多模態(tài)從"能看圖"推進到了"能聽音頻、看視頻、還能直接說話",解決統(tǒng)一底座問題,工程上更省拼裝成本。

大模型世界很缺"圖像理解+音視頻理解 + 語音輸出"一體化底座,很多團隊只能自己拼ASR、VLM、TTS、Agent;人機交互也正在從鍵盤窗口走向攝像頭、麥克風、耳機、車機、眼鏡,一個統(tǒng)一模型把交互層、理解層、生成層接起來,產(chǎn)品形態(tài)會快很多。

一旦跑順,能做的事情太多了:私有化會議助手、本地視頻問答、播客整理、素材打標、語音Agent、OCR + 多模態(tài)知識庫……這類能力對播客摘要、音頻檢索、會議記錄增強都有直接價值,很多人現(xiàn)在都盯著視頻理解和實時助手,我反而覺得 audio caption這條線后面很可能會跑出不少特別實用的場景。

我判斷,未來一兩年 Omni 模型會成為很多設備助手和企業(yè)助手的默認底座,路線也很明確,后面會繼續(xù)往低延遲、更輕量推進。真正爆發(fā)的場景大概率在車載、教育、客服、內(nèi)容生產(chǎn)、個人知識管理這幾類持續(xù)聽、持續(xù)看、持續(xù)說的產(chǎn)品里。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
張掖地委專員被人打死,法醫(yī)將他的腦組織保存十年,等來昭雪

張掖地委專員被人打死,法醫(yī)將他的腦組織保存十年,等來昭雪

隴史薈王文元
2026-04-20 16:28:54
日本100多年來根本沒有變,中國人要記住村田晃大這個名字

日本100多年來根本沒有變,中國人要記住村田晃大這個名字

近史閣
2026-04-21 04:16:38
貴州網(wǎng)紅曉浪哥去世,僅34歲,愛在墓地拍視頻,早給自己選好墓地

貴州網(wǎng)紅曉浪哥去世,僅34歲,愛在墓地拍視頻,早給自己選好墓地

觀察鑒娛
2026-04-20 09:24:45
許晉亨曾單方面透露生子計劃,但遭何超瓊嚴厲駁斥和否認!

許晉亨曾單方面透露生子計劃,但遭何超瓊嚴厲駁斥和否認!

玖宇維
2026-04-20 20:44:16
扎心但清醒|莫言:沒人閑得整天關注你,各人都有各人的雞毛蒜皮

扎心但清醒|莫言:沒人閑得整天關注你,各人都有各人的雞毛蒜皮

杏花煙雨江南的碧園
2026-04-20 14:15:03
國際觀察|美伊談判懸念叢生,局勢走向有幾種可能?

國際觀察|美伊談判懸念叢生,局勢走向有幾種可能?

新華社
2026-04-20 22:02:14
清風北京:彭偉鵬被查

清風北京:彭偉鵬被查

極目新聞
2026-04-20 09:48:27
斯諾克世錦賽,中國選手晉級16強

斯諾克世錦賽,中國選手晉級16強

大漢體育解說
2026-04-21 05:03:30
別再尬演“萬人迷”!滿臉褶子疙瘩、鼻孔朝天,這皮囊能迷倒誰?

別再尬演“萬人迷”!滿臉褶子疙瘩、鼻孔朝天,這皮囊能迷倒誰?

雨月海星
2026-04-18 05:25:40
演員朱珠疑似塌房?照片流出,驚呆網(wǎng)友!

演員朱珠疑似塌房?照片流出,驚呆網(wǎng)友!

大眼妹妹
2025-12-15 10:39:19
切爾西有救了!藍軍全力挖鐵血名帥,羅塞尼爾命懸一線

切爾西有救了!藍軍全力挖鐵血名帥,羅塞尼爾命懸一線

奶蓋熊本熊
2026-04-21 05:20:47
35分不碰瓷,馬刺贏球送亞歷山大上熱門,17個罰球讓MVP成笑話!

35分不碰瓷,馬刺贏球送亞歷山大上熱門,17個罰球讓MVP成笑話!

林子說事
2026-04-20 19:17:58
“打烊”不讀dǎ yáng,也不讀dǎ xiáng,九成人在這樣錯讀!

“打烊”不讀dǎ yáng,也不讀dǎ xiáng,九成人在這樣錯讀!

未央看點
2026-04-21 00:05:41
鄭麗文判斷準確,解放軍通牒在即,賴清德將登機離臺

鄭麗文判斷準確,解放軍通牒在即,賴清德將登機離臺

風雨與陽光
2026-04-21 03:13:01
特朗普女婿被查,61億資產(chǎn)99%來自外國,特朗普:中國會感謝我

特朗普女婿被查,61億資產(chǎn)99%來自外國,特朗普:中國會感謝我

阿傖說事
2026-04-21 03:24:22
脫掉衣服才看清:女人之間真正的差距,其實藏在這3處,不是容貌

脫掉衣服才看清:女人之間真正的差距,其實藏在這3處,不是容貌

周哥一影視
2026-03-15 14:30:11
江南造船廠這艘核動力巨輪亮相,軍迷都懂了:距離核航母還遠嗎?

江南造船廠這艘核動力巨輪亮相,軍迷都懂了:距離核航母還遠嗎?

林子說事
2026-04-21 00:55:45
贏得尊重,籃網(wǎng)隊與喬迪·費爾南德斯及其整個教練組續(xù)約

贏得尊重,籃網(wǎng)隊與喬迪·費爾南德斯及其整個教練組續(xù)約

好火子
2026-04-21 03:59:38
C919交付再遇阻礙:國產(chǎn)大飛機的夢想與現(xiàn)實有多遠?

C919交付再遇阻礙:國產(chǎn)大飛機的夢想與現(xiàn)實有多遠?

普陀動物世界
2026-04-21 00:52:40
“老實人”任重甘愿成為接盤俠,迎娶內(nèi)娛第一海王,網(wǎng)友:絕配

“老實人”任重甘愿成為接盤俠,迎娶內(nèi)娛第一海王,網(wǎng)友:絕配

天天熱點見聞
2026-04-21 05:14:09
2026-04-21 06:00:49
Ai學習的老章 incentive-icons
Ai學習的老章
Ai學習的老章
3339文章數(shù) 11138關注度
往期回顧 全部

科技要聞

HUAWEI Pura X Max發(fā)布 售價10999元起

頭條要聞

19歲女孩挪用自家1700萬當"榜一大姐" 親爹帶女兒自首

頭條要聞

19歲女孩挪用自家1700萬當"榜一大姐" 親爹帶女兒自首

體育要聞

阿森納已拼盡全力,但你早干嘛去了...

娛樂要聞

《八千里路云和月》田家泰暗殺

財經(jīng)要聞

利潤暴跌7成,字節(jié)到底在做什么

汽車要聞

把天門山搬進廠?開仰望U8沖上45度坡的那刻 我腿軟了

態(tài)度原創(chuàng)

本地
家居
手機
公開課
軍事航空

本地新聞

12噸巧克力有難,全網(wǎng)化身超級偵探添亂

家居要聞

自然慢調(diào) 慢享時光

手機要聞

OPPO影像旗艦高端發(fā)力 Find X9 Ultra走出國門

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

特朗普:美艦向伊朗貨船開火炸出個洞

無障礙瀏覽 進入關懷版