国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Qwen3.5-Omni深度體驗:這,才是「AI生產(chǎn)力」該有的樣子!

0
分享至

你一定有過這種經(jīng)歷:開完一場兩小時的會議,錄像文件安安靜靜躺在網(wǎng)盤里,但沒人愿意回看——因為回看的成本幾乎等于再開一次會。

一條爆款帶貨視頻刷到了,你隱約覺得它的轉(zhuǎn)化邏輯值得學(xué),但既沒時間逐幀拆解,拆了也不知道怎么變成自己的腳本。

還有英文播客、發(fā)布會直播、夾雜方言且需要復(fù)盤的客服錄音——這些音視頻內(nèi)容每天都在大量產(chǎn)生,但對絕大多數(shù)人來說,它們被"看過"或"聽過"之后,就再沒有然后了。

我們的日常中,大量非常非常有價值的音視頻內(nèi)容無法被拆開、被檢索、更沒法總結(jié)經(jīng)驗?zāi)萌?fù)用。

而阿里千問剛剛發(fā)布的Qwen3.5-Omni,讓我們覺得這個問題開始有解了。

它是千問最新一代全模態(tài)大模型,采用混合注意力MoE架構(gòu),在海量文本、視覺及超過1億小時的音頻數(shù)據(jù)上做了原生多模態(tài)預(yù)訓(xùn)練,在215項第三方性能測試中取得SOTA,多項核心指標(biāo)超越Gemini-3.1 Pro。


比跑分更值得說的,是我們在實測中實際體驗到的東西——經(jīng)過幾輪極其刁鉆的極限測試后,這個全模態(tài)模型徹底震撼到我了:

  • 我們讓它拆解了一支《沙丘》預(yù)告片——它不僅按時間戳做了結(jié)構(gòu)化分析,還推理出了角色間的隱含關(guān)系,生成了帶節(jié)奏設(shè)計和調(diào)色建議的復(fù)刻分鏡腳本;

  • 我們給了它一條爆款TikTok帶貨視頻——它拆出了完整的轉(zhuǎn)化歸因,輸出了可以直接遷移到其他行業(yè)的5步腳本模板;

  • 我們對著一張畫得很丑的手繪草圖口述需求——它直接生成了能跑的React頁面,然后我們繼續(xù)口述修改,它一輪輪迭代下去,上下文始終沒丟。

這意味著,你可以把一場兩小時的會議錄像扔給它,拿回一份帶時間戳的結(jié)構(gòu)化紀(jì)要和待辦清單;把一條競品的爆款視頻丟進(jìn)去,直接拿到可遷移的腳本模板;用它給客服錄音做質(zhì)檢,輸出情緒軌跡和話術(shù)評分。

它的意義,絕不僅僅是多模態(tài)能力的又一次參數(shù)升級。它讓我親眼看到,原本只能"看一遍就過去"的音視頻內(nèi)容,是如何被生生拆解成可以直接拿去干活的“數(shù)據(jù)資產(chǎn)”的。

而如果你給你的龍蝦接上Qwen3.5-Omni,給你的龍蝦裝上“眼睛”和“耳朵”,那么你就能獲得一個真正能聽懂語音指令、看懂視頻內(nèi)容、理解音頻信息,還會操作電腦的數(shù)字員工。

這,或許才是那場我們期待已久的、屬于全模態(tài)大模型的真正生產(chǎn)力革命。

接下來,我們先來看看實測細(xì)節(jié),再聊聊這個模型正在改變什么,以及阿里拿它在下一盤什么棋。

拆電影、復(fù)盤帶貨、口述寫代碼:全模態(tài)能力全面進(jìn)化

(1)沙丘:不止是"看懂故事"

我們選了沒有字幕版的《沙丘》預(yù)告片作為第一個測試素材,來對Qwen3.5-Omni的多模態(tài)能力進(jìn)行“極限測試”。

預(yù)告片天生就是視頻理解領(lǐng)域最不友好的素材:密集的鏡頭切換、多線敘事、大量隱喻和視覺暗示,視聽密度極高。

而對于Qwen3.5-Omni來說,第一輪的結(jié)構(gòu)化信息提取幾乎沒有難度:劇情時間線、關(guān)鍵鏡頭、畫面文字、說話人與臺詞、角色陣營關(guān)系、情緒變化曲線,全部按時間戳精準(zhǔn)剝離。


第二輪,我們指定了第24秒出現(xiàn)的臺詞,要求它回答對應(yīng)畫面、說話者和情緒。它準(zhǔn)確定位到"She would need to be strong, like her mother",正確識別為保羅的畫外旁白而非現(xiàn)場對話,對應(yīng)畫面為查妮沙漠逆光側(cè)臉特寫,情緒判斷——溫柔、敬重、期許——與畫面完全吻合。


真正的考驗,在于第三輪的"深層推理追問"——

我們要求它分析角色間的"隱含關(guān)系"并給出鏡頭和臺詞證據(jù)、識別預(yù)告片中的"伏筆"鏡頭及其對未來劇情的指向、生成一個45秒短視頻復(fù)刻分鏡腳本。

它準(zhǔn)確識別出保羅與費德-羅薩之間的"鏡像宿敵"關(guān)系、保羅與杰西卡之間的"斷裂傳承"張力、查妮作為"人性錨點"的角色定位,而且附帶了視覺構(gòu)圖證據(jù)和臺詞對照。

它給出的復(fù)刻分鏡腳本也不是模糊的敘事概括,而是帶有"慢板抒情→快速剪輯→史詩爆發(fā)"的三段式節(jié)奏設(shè)計,甚至包含調(diào)色方向、音效提示和字幕處理建議。

說實話,到這一步,它已經(jīng)不是在"看懂視頻",而是有點導(dǎo)演拆片的意思了。它把LLM的"視頻理解"能力,從摘要層推到了鏡頭語言解讀、關(guān)系推理層面。


(2)帶貨:從一條爆款Tiktok帶貨視頻里,拆出轉(zhuǎn)化的底層邏輯

對更多人來說,更現(xiàn)實的問題是:它在真實世界,在日常工作中是不是真的“有用”?

我們輸入了一條義烏招商類TikTok爆款帶貨視頻,要求Qwen3.5-Omni幫助我們拆解、復(fù)刻。


結(jié)果,模型不僅按Hook、賣點排序、畫面證明點、字幕策略、情緒節(jié)奏、CTA時間點、目標(biāo)人群七個維度完成了結(jié)構(gòu)化拆解,它的歸因分析也極具洞察力:三級物理證據(jù)鏈構(gòu)建"所見即所得的信任"、"2萬種SKU + 20美分均價"制造數(shù)字錨點、保姆式全案承諾實現(xiàn)風(fēng)險逆轉(zhuǎn)。

換句話說,它看出來了:這條視頻賣的不是商品,而是確定性。

為了驗證它是不是在生搬硬套營銷學(xué)名詞,我們告訴它,"我家工廠是賣T恤的,幫我按這個套路設(shè)計一個腳本",要求它把這套邏輯遷移到"T恤定制工廠"場景。

結(jié)果,它不僅把剛剛分析出的5步轉(zhuǎn)化模板成功遷移到T恤場景,還把Hook極其自然地改成了"拉扯T恤展示彈性",把實力證明換成了"印花機噴墨特寫+揉搓不掉色",甚至附帶了評論區(qū)運營引導(dǎo)私信的實操建議。

也就是說,大模型不再只是內(nèi)容理解工具,它已經(jīng)可以充當(dāng)不知疲倦的電商分析師和社交媒體運營專家。


(3)口述一個App:邊看、邊說、邊改

第三個測試,堪稱“Vibe Coding”的升級版——"音視頻Vibe Coding"。

我們手繪了一張故意畫得很粗糙的APP線框圖,打開攝像頭,手持草圖對著鏡頭口述:"你看這個是我畫的界面草圖……請用React幫我生成完整代碼,可以直接運行的。"

它識別了手繪布局并生成了React代碼。接著我們繼續(xù)口述修改——"導(dǎo)航欄改成側(cè)邊欄,主按鈕放大一倍換圓角",同時上傳替換圖片。之后又測了深色主題、進(jìn)度條動畫、按壓反饋等迭代,它始終能延續(xù)上下文,不丟失之前的修改。

幾輪修改后,網(wǎng)頁成功上線。

整體體驗上來說,它接住了人類最真實的交互方式:邊看、邊說、邊改。不是以前那種"AI生成代碼你自己去調(diào)"的體驗,更像一個經(jīng)驗豐富的開發(fā)者坐在你的旁邊。


(4)連起來看

從《沙丘》的復(fù)雜敘事,到帶貨的商業(yè)分析,再到口述做App的隨性交互,如果我們把上面的幾個測試案例串起來看就會發(fā)現(xiàn)

Qwen3.5-Omni成功證明了:它能把復(fù)雜的、混亂的、連續(xù)的輸入,變成可以直接拿去用的結(jié)果。

另外補充兩個我們也測了但沒展開寫的用例:游戲視頻生成解說:網(wǎng)頁端出文案,API端出TTS語音;"24小時AI新聞編輯部"——50分鐘國際新聞發(fā)布會音頻走完信息提取、雙語稿件生成和語音播報,效果都不錯,感興趣的朋友也可以試試。


底層改變:從"看懂內(nèi)容"到"拆成資產(chǎn)"

前面三個場景能跑通,不僅因為"能力變強了",而是底層產(chǎn)品設(shè)計發(fā)生了質(zhì)變:它把連續(xù)、混雜、難以檢索的音視頻流,強制拆解為高度結(jié)構(gòu)化的中間層。

(1)拆得多細(xì):不是摘要,是字段級的結(jié)構(gòu)化資產(chǎn)

翻開官方API文檔你會發(fā)現(xiàn),Qwen3.5-Omni對音視頻的推薦輸出格式不是一句籠統(tǒng)的摘要,而是三層硬結(jié)構(gòu):

  • Storyline(按時間戳融合音畫細(xì)節(jié)的故事線);

  • Visible Text(帶起止時間和外觀特征的畫面文字清單);

  • Speakers and Transcript(含說話人身份、口音、語氣、情緒的逐字稿)。

換句話說,它拿到的不再是"一團視頻",而是一份可以被代碼直接調(diào)用、檢索和執(zhí)行的結(jié)構(gòu)化資產(chǎn)。這就是沙丘測試能做到精確回溯,TikTok測試能輸出可遷移模板的底層原因。

支撐這種顆粒度的,是實打?qū)嵉哪P突A(chǔ)能力——混合注意力MoE架構(gòu),超過1億小時音頻數(shù)據(jù)的原生多模態(tài)預(yù)訓(xùn)練,模型智力與qwen3.5-plus同一水平,215項第三方測試取得SOTA。

(2)拆得多長:超大上下文窗口

256K上下文窗口,支持超過10小時音頻、超過400秒720P視頻。

長內(nèi)容真正的難點從來不是"看完",而是跨段關(guān)聯(lián)和證據(jù)回溯——扔進(jìn)10小時的會議錄音,問"第5分鐘提到的人在第30分鐘說了什么";輸入帶貨直播錄屏,讓它揪出夸大宣傳的時間點并附上畫面和臺詞證據(jù);用它給客服錄音做質(zhì)檢,輸出情緒軌跡和話術(shù)評分。

這些過去高度依賴人力、極易出錯的信息整理工作,Qwen3.5-Omni正在試圖接管。

(3)交互:是動態(tài)接口

實時交互這一面,它支持智能語義打斷——不會因為你咳嗽一聲或隨口說個"嗯"就中斷發(fā)言,過濾掉了無意義的背景音干擾。

它原生支持聯(lián)網(wǎng)搜索的FunctionCall,能自主判斷是否需要拉起搜索來回應(yīng)實時問題,開發(fā)者還能在回執(zhí)中看到精確的計量信息。這從工程層面緩解了企業(yè)用大模型時最頭疼的"時效性與幻覺"問題。

語音表達(dá)層的能力提升同樣很有價值,現(xiàn)在,它支持113種語種和方言的語音識別,三十六種語言和方言的語音合成,內(nèi)置47個多語言說話人和8個方言說話人。

在我們的實測中,無論是自稱"聲音像溫?zé)崮滩?的客服角色Tina,還是四川話的"晴兒",角色感和產(chǎn)品感都很強。

這不只是"聽得懂更多",而是為海外客服、審核質(zhì)檢、有聲讀物、播客配音這些高頻場景備足了彈藥。

一句話簡單總結(jié),Qwen3.5-Omni,讓音視頻變得"可拆"——不是"看懂了",而是拆成可以檢索、可以復(fù)用、可以直接拿去干活的現(xiàn)成素材。

阿里真正想賣的,也不只是一個模型

聊完產(chǎn)品和技術(shù),值得把視線從模型本身移開,看看阿里最近在組織和產(chǎn)品上的一系列動作——一條清晰的商業(yè)暗線就會浮出來。

不久前,阿里成立了由CEO吳泳銘直管的 Alibaba Token Hub(ATH)事業(yè)群,明確提出以“創(chuàng)造Token、輸送Token、應(yīng)用Token”為核心。其中,首次亮相的“悟空事業(yè)部”定位極為明確:“B端AI原生工作平臺,將模型能力深度融入企業(yè)工作流”。

而在釘釘最新發(fā)布的“悟空”產(chǎn)品中,核心邏輯已經(jīng)從“溝通即生成”進(jìn)化為了“溝通即執(zhí)行”(CLI化,AI直接調(diào)底層接口)。AI 不再只是陪你聊天,而是被要求自己去網(wǎng)上看競品視頻、分析小紅書爆款、跨系統(tǒng)拉取數(shù)據(jù)、甚至生成數(shù)據(jù)動畫。

注意這里的關(guān)鍵詞:看視頻、聽音頻、跨平臺執(zhí)行。當(dāng)AI Agent開始長出"手腳",自主去處理大量音視頻內(nèi)容時,它對全模態(tài)理解能力的需求和Token的消耗量,都將遠(yuǎn)超純文本對話時代。

在這個背景下回看Qwen3.5-Omni,它的極低定價(每百萬Tokens輸入不到0.8元,比Gemini-3.1 Pro的1/10還低)和強大的結(jié)構(gòu)化音視頻能力,更像是在為以悟空為代表的阿里B端企業(yè)級Agent大規(guī)模落地,儲備高性價比、穩(wěn)定的全模態(tài)基礎(chǔ)設(shè)施。

要知道,把長達(dá)數(shù)小時的音視頻拆解成精細(xì)的結(jié)構(gòu)化數(shù)據(jù),過去意味著企業(yè)需要拼裝一整條鏈路——ASR轉(zhuǎn)寫、文本大模型、視覺理解模型、TTS合成——成本高、鏈路長、斷點多。

而現(xiàn)在,一個端到端的全模態(tài)模型,把這件事的門檻徹底踏平了。

我覺得Qwen3.5-Omni真正值得被記住的,不是它今天能看懂一段多復(fù)雜的電影預(yù)告片而是從這一刻起,它開始能把音視頻內(nèi)容,變成企業(yè)工作流里可以切實處理、復(fù)用的數(shù)字資產(chǎn)——

全模態(tài)大模型驅(qū)動的生產(chǎn)力革命,正在來臨。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
狂言引爭議!小S小女兒護姐翻車,囂張言論遭全網(wǎng)吐槽

狂言引爭議!小S小女兒護姐翻車,囂張言論遭全網(wǎng)吐槽

述家娛記
2026-03-31 22:47:35
東鵬:張雪,憑啥我投了錢央視沒點我名,它沒投錢卻被點名了?

東鵬:張雪,憑啥我投了錢央視沒點我名,它沒投錢卻被點名了?

娛樂故事
2026-03-31 20:25:05
神醫(yī)扁鵲的養(yǎng)生秘訣:三不要、三不吃,流傳千年的健康忠告

神醫(yī)扁鵲的養(yǎng)生秘訣:三不要、三不吃,流傳千年的健康忠告

千秋文化
2026-03-28 21:05:04
崩潰!丈夫45歲失業(yè)、踢壞叛逆期女兒房門,妻子稱無力勸阻引熱議

崩潰!丈夫45歲失業(yè)、踢壞叛逆期女兒房門,妻子稱無力勸阻引熱議

火山詩話
2026-03-31 07:11:57
一年虧損四千萬,全國陷“關(guān)停潮”,曾經(jīng)的金飯碗現(xiàn)今卻慘遭拋棄

一年虧損四千萬,全國陷“關(guān)停潮”,曾經(jīng)的金飯碗現(xiàn)今卻慘遭拋棄

老赳說歷史
2026-03-31 20:23:32
“手打掛面”未吃出手工口感,今麥郎回應(yīng)稱 “手打” 僅是商標(biāo)

“手打掛面”未吃出手工口感,今麥郎回應(yīng)稱 “手打” 僅是商標(biāo)

界面新聞
2026-03-31 09:53:35
計劃趕不上變化?003航母大改型已取消,江南廠北上支援004三班倒

計劃趕不上變化?003航母大改型已取消,江南廠北上支援004三班倒

墨羽怪談
2026-03-30 18:19:51
從迪拜回來,我才敢說:那里的富豪生活,跟你想的完全不一樣

從迪拜回來,我才敢說:那里的富豪生活,跟你想的完全不一樣

千秋文化
2026-03-30 20:41:04
法國對特朗普指責(zé)“不配合”表“驚訝”

法國對特朗普指責(zé)“不配合”表“驚訝”

澎湃新聞
2026-04-01 02:25:03
提前恭喜了!突發(fā)利好!A股明天將大漲!

提前恭喜了!突發(fā)利好!A股明天將大漲!

龍行天下虎
2026-04-01 00:58:26
江蘇省南京江北新區(qū)黨工委原委員周金良接受紀(jì)律審查和監(jiān)察調(diào)查

江蘇省南京江北新區(qū)黨工委原委員周金良接受紀(jì)律審查和監(jiān)察調(diào)查

環(huán)球網(wǎng)資訊
2026-03-31 17:07:15
張雪峰去世頭七,電動車還停在公司樓下,與女兒珍貴合影曝光

張雪峰去世頭七,電動車還停在公司樓下,與女兒珍貴合影曝光

180視角
2026-03-30 14:18:21
差120票!聯(lián)大壓倒性投票表決,中國審判美以暴行,現(xiàn)場激烈對峙

差120票!聯(lián)大壓倒性投票表決,中國審判美以暴行,現(xiàn)場激烈對峙

書紀(jì)文譚
2026-03-31 12:32:32
有院區(qū)開了一年多,沒有急診!深圳多家公立醫(yī)院新院“冷清清”!市民:不想去碰壁

有院區(qū)開了一年多,沒有急診!深圳多家公立醫(yī)院新院“冷清清”!市民:不想去碰壁

南方都市報
2026-03-31 15:56:12
騙了全球半世紀(jì)!智利萬年遺址“塌房”,美洲人類史迎來驚天反轉(zhuǎn)

騙了全球半世紀(jì)!智利萬年遺址“塌房”,美洲人類史迎來驚天反轉(zhuǎn)

老謝談史
2026-03-22 22:46:57
哈爾濱美女網(wǎng)紅“羋朵”去世!僅41歲,常熬夜,一周吃四次麻辣燙

哈爾濱美女網(wǎng)紅“羋朵”去世!僅41歲,常熬夜,一周吃四次麻辣燙

裕豐娛間說
2026-03-30 11:38:56
民進(jìn)黨,極有可能在下一屆臺灣地區(qū)選舉后,成為長期一家獨大政黨

民進(jìn)黨,極有可能在下一屆臺灣地區(qū)選舉后,成為長期一家獨大政黨

共工之錨
2026-03-31 00:27:37
單依純自封“創(chuàng)作者”?實則演唱會大把翻唱歌曲,在音著協(xié)的登記作品數(shù)量為0

單依純自封“創(chuàng)作者”?實則演唱會大把翻唱歌曲,在音著協(xié)的登記作品數(shù)量為0

可達(dá)鴨面面觀
2026-03-30 15:48:36
青島樓市起風(fēng)了!青島樓市嶗山區(qū)待售二手房從6783套變成了6775套

青島樓市起風(fēng)了!青島樓市嶗山區(qū)待售二手房從6783套變成了6775套

有事問彭叔
2026-03-30 19:01:39
古籍記載龍長虎短手相 無名指更長之人晚年多有四種人生結(jié)局

古籍記載龍長虎短手相 無名指更長之人晚年多有四種人生結(jié)局

嘮叨說歷史
2026-03-31 14:25:43
2026-04-01 03:15:00
華爾街見聞官方 incentive-icons
華爾街見聞官方
中國領(lǐng)先的金融商業(yè)信息提供商
143870文章數(shù) 2653083關(guān)注度
往期回顧 全部

科技要聞

華為2025年銷售收入8809億,凈利潤680億元

頭條要聞

伊朗總統(tǒng):愿意結(jié)束戰(zhàn)爭 前提是訴求得到滿足

頭條要聞

伊朗總統(tǒng):愿意結(jié)束戰(zhàn)爭 前提是訴求得到滿足

體育要聞

縣城修車工,用20年成為世界冠軍

娛樂要聞

《月鱗綺紀(jì)》空降 鞠婧祎卻被舉報偷稅

財經(jīng)要聞

油價暴漲 我們的生活成本會飆升多少?

汽車要聞

騰勢Z9GT到底GT在哪?

態(tài)度原創(chuàng)

本地
教育
游戲
藝術(shù)
公開課

本地新聞

用Color Walk的方式解鎖城市春日

教育要聞

微專題:高考地理中的地理實驗

上一秒還在嘲笑瓦學(xué)弟,下一秒就去“抗癌”了

藝術(shù)要聞

震撼!他筆下的美女,色彩美得讓人無法自拔!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版