国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

美團(tuán)正式上線LongCat App,可體驗(yàn)語音通話等新功能

0
分享至

11月3日, LongCat-Flash系列再升級(jí),全新家族成員LongCat-Flash-Omni正式發(fā)布并開源,LongCat官方App同步上線公測(cè)。目前,新App已支持聯(lián)網(wǎng)搜索、語音通話等功能,視頻通話等功能會(huì)稍后上線;Web端則增加圖片、文件上傳和語音通話等功能。

據(jù)介紹,LongCat-Flash-Omni以LongCat-Flash系列的高效架構(gòu)設(shè)計(jì)為基礎(chǔ)(Shortcut-Connected MoE,含零計(jì)算專家),集成了高效多模態(tài)感知模塊與語音重建模塊,在總參數(shù) 5600 億(激活參數(shù) 270 億)的龐大參數(shù)規(guī)模下,仍實(shí)現(xiàn)低延遲的實(shí)時(shí)音視頻交互能力,為開發(fā)者的多模態(tài)應(yīng)用場(chǎng)景提供了更高效的技術(shù)選擇。

新模型也是業(yè)界首個(gè)實(shí)現(xiàn)“全模態(tài)覆蓋、端到端架構(gòu)、大參數(shù)量高效推理”于一體的開源大語言模型,首次在開源范疇內(nèi)實(shí)現(xiàn)了對(duì)標(biāo)閉源模型的全模態(tài)能力,并憑借創(chuàng)新的架構(gòu)設(shè)計(jì)與工程優(yōu)化,讓大參數(shù)模型在多模態(tài)任務(wù)中能實(shí)現(xiàn)毫秒級(jí)響應(yīng),解決行業(yè)內(nèi)推理延遲的痛點(diǎn)。

具體來看,LongCat-Flash-Omni在一體化框架中整合了離線多模態(tài)理解與實(shí)時(shí)音視頻交互能力,并采用完全端到端的設(shè)計(jì),以視覺與音頻編碼器作為多模態(tài)感知器,由 LLM 直接處理輸入并生成文本與語音token,再通過輕量級(jí)音頻解碼器重建為自然語音波形,從而實(shí)現(xiàn)低延遲的實(shí)時(shí)交互。所有模塊均基于高效流式推理設(shè)計(jì),視覺編碼器、音頻編解碼器均為輕量級(jí)組件,參數(shù)量均約為6億,延續(xù)了 LongCat-Flash 系列的創(chuàng)新型高效架構(gòu)設(shè)計(jì),實(shí)現(xiàn)了性能與推理效率間的最優(yōu)平衡。



▲LongCat-Flash-Omni模型架構(gòu)

與此同時(shí),新模型突破“大參數(shù)規(guī)模與低延遲交互難以兼顧”的瓶頸,在大規(guī)模架構(gòu)基礎(chǔ)上實(shí)現(xiàn)高效實(shí)時(shí)音視頻交互:模型總參數(shù)達(dá) 5600 億(激活參數(shù) 270 億),卻依托 LongCat-Flash 系列創(chuàng)新的 ScMoE 架構(gòu)(含零計(jì)算專家)作為 LLM 骨干,結(jié)合高效多模態(tài)編解碼器和“分塊式音視頻特征交織機(jī)制”,最終實(shí)現(xiàn)低延遲、高質(zhì)量的音視頻處理與流式語音生成。模型可支持128K tokens上下文窗口及超 8 分鐘音視頻交互,在多模態(tài)長(zhǎng)時(shí)記憶、多輪對(duì)話、時(shí)序推理等能力上具有優(yōu)勢(shì)。

全模態(tài)模型訓(xùn)練的核心挑戰(zhàn)之一是 “不同模態(tài)的數(shù)據(jù)分布存在顯著異質(zhì)性”,LongCat-Flash-Omni采用漸進(jìn)式早期多模融合訓(xùn)練策略,在平衡數(shù)據(jù)策略與早期融合訓(xùn)練范式下,逐步融入文本、音頻、視頻等模態(tài),確保全模態(tài)性能強(qiáng)勁且無任何單模態(tài)性能退化。



綜合評(píng)估結(jié)果表明,LongCat-Flash-Omni在綜合性的全模態(tài)基準(zhǔn)測(cè)試(如Omni-Bench, WorldSense)上達(dá)到了開源最先進(jìn)水平(SOTA),并在文本、圖像、音頻、視頻等各項(xiàng)模態(tài)的能力位居開源模型前列,實(shí)現(xiàn)“全模態(tài)不降智”的結(jié)果:



· ▲LongCat-Flash-Omni 的基準(zhǔn)測(cè)試性能

· 文本:LongCat-Flash-Omni 延續(xù)了該系列卓越的文本基礎(chǔ)能力,且在多領(lǐng)域均呈現(xiàn)領(lǐng)先性能。相較于 LongCat-Flash 系列早期版本,該模型不僅未出現(xiàn)文本能力的衰減,反而在部分領(lǐng)域?qū)崿F(xiàn)了性能提升。這一結(jié)果不僅印證了該團(tuán)隊(duì)訓(xùn)練策略的有效性,更凸顯出全模態(tài)模型訓(xùn)練中不同模態(tài)間的潛在協(xié)同價(jià)值。

· 圖像理解:LongCat-Flash-Omni 的性能(RealWorldQA 74.8分)與閉源全模態(tài)模型 Gemini-2.5-Pro 相當(dāng),且優(yōu)于開源模型 Qwen3-Omni;多圖像任務(wù)優(yōu)勢(shì)尤為顯著,核心得益于高質(zhì)量交織圖文、多圖像及視頻數(shù)據(jù)集上的訓(xùn)練成果。

· 音頻能力:從自動(dòng)語音識(shí)別(ASR)、文本到語音(TTS)、語音續(xù)寫維度進(jìn)行評(píng)估,Instruct Model 層面表現(xiàn)突出:ASR 在 LibriSpeech、AISHELL-1 等數(shù)據(jù)集上優(yōu)于 Gemini-2.5-Pro;語音到文本翻譯(S2TT)在 CoVost2 表現(xiàn)強(qiáng)勁;音頻理解在 TUT2017、Nonspeech7k 等任務(wù)達(dá)當(dāng)前最優(yōu);音頻到文本對(duì)話在 OpenAudioBench、VoiceBench 表現(xiàn)優(yōu)異,實(shí)時(shí)音視頻交互評(píng)分接近閉源模型,類人性指標(biāo)優(yōu)于 GPT-4o,實(shí)現(xiàn)基礎(chǔ)能力到實(shí)用交互的高效轉(zhuǎn)化。

· 視頻理解:LongCat-Flash-Omni 視頻到文本任務(wù)性能達(dá)當(dāng)前最優(yōu),短視頻理解大幅優(yōu)于現(xiàn)有參評(píng)模型,長(zhǎng)視頻理解比肩 Gemini-2.5-Pro 與 Qwen3-VL,這得益于動(dòng)態(tài)幀采樣、分層令牌聚合的視頻處理策略,及高效骨干網(wǎng)絡(luò)對(duì)長(zhǎng)上下文的支持。

· 跨模態(tài)理解:性能優(yōu)于 Gemini-2.5-Flash(非思考模式),比肩 Gemini-2.5-Pro(非思考模式);尤其在真實(shí)世界音視頻理解WorldSense 基準(zhǔn)測(cè)試上,相較其他開源全模態(tài)模型展現(xiàn)出顯著的性能優(yōu)勢(shì),印證其高效的多模態(tài)融合能力,是當(dāng)前綜合能力領(lǐng)先的開源全模態(tài)模型。



· 端到端交互:由于目前行業(yè)內(nèi)尚未有成熟的實(shí)時(shí)多模態(tài)交互評(píng)估體系,LongCat團(tuán)隊(duì)構(gòu)建了一套專屬的端到端評(píng)測(cè)方案,該方案由定量用戶評(píng)分(250 名用戶評(píng)分)與定性專家分析(10 名專家,200 個(gè)對(duì)話樣本)組成。定量結(jié)果顯示:圍繞端到端交互的自然度與流暢度,LongCat-Flash-Omni 在開源模型中展現(xiàn)出顯著優(yōu)勢(shì) —— 其評(píng)分比當(dāng)前最優(yōu)開源模型 Qwen3-Omni 高出 0.56 分;定性結(jié)果顯示:LongCat-Flash-Omni 在副語言理解、相關(guān)性與記憶能力三個(gè)維度與頂級(jí)模型持平,但是在實(shí)時(shí)性、類人性與準(zhǔn)確性三個(gè)維度仍存在差距,也將在未來工作中進(jìn)一步優(yōu)化。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
神秘消失623年,至今下落不明

神秘消失623年,至今下落不明

我是歷史其實(shí)挺有趣
2025-12-25 19:20:20
一路走好!1天之內(nèi)3位名人離世,死因令人惋惜,眾明星發(fā)文哀悼

一路走好!1天之內(nèi)3位名人離世,死因令人惋惜,眾明星發(fā)文哀悼

尋墨閣
2025-12-28 16:47:39
她是最漂亮的央視主持人,離過兩次婚,如今還是一個(gè)人生活。

她是最漂亮的央視主持人,離過兩次婚,如今還是一個(gè)人生活。

民間平哥
2025-12-28 14:26:37
輪船拉導(dǎo)彈!美國(guó)萬萬沒有想到東大的反擊計(jì)劃會(huì)如此極端!

輪船拉導(dǎo)彈!美國(guó)萬萬沒有想到東大的反擊計(jì)劃會(huì)如此極端!

阿龍聊軍事
2025-12-27 22:07:28
被網(wǎng)友的“空氣炸鍋用法”驚到了!打開思路后,根本閑置不了

被網(wǎng)友的“空氣炸鍋用法”驚到了!打開思路后,根本閑置不了

室內(nèi)設(shè)計(jì)師有料兒
2025-12-27 11:41:48
美國(guó)為何注定出局?這場(chǎng)終極競(jìng)爭(zhēng),中國(guó)要的不是第一,而是唯一

美國(guó)為何注定出局?這場(chǎng)終極競(jìng)爭(zhēng),中國(guó)要的不是第一,而是唯一

遠(yuǎn)方風(fēng)林
2025-12-23 21:09:27
美國(guó)對(duì)中國(guó)發(fā)飆,五角大樓:若開戰(zhàn),美10多個(gè)基地?fù)p毀,比中國(guó)多

美國(guó)對(duì)中國(guó)發(fā)飆,五角大樓:若開戰(zhàn),美10多個(gè)基地?fù)p毀,比中國(guó)多

健身狂人
2025-12-28 16:32:41
得知美國(guó)向日本扔了原子彈,全延安都在慶祝,毛主席卻氣得拍了桌子:這是原則錯(cuò)誤!

得知美國(guó)向日本扔了原子彈,全延安都在慶祝,毛主席卻氣得拍了桌子:這是原則錯(cuò)誤!

史海殘?jiān)?/span>
2025-12-27 19:15:21
俄反對(duì)任何形式的臺(tái)獨(dú)分裂行徑

俄反對(duì)任何形式的臺(tái)獨(dú)分裂行徑

財(cái)聯(lián)社
2025-12-28 11:22:15
墻倒眾人推!姜昆徒弟承認(rèn)其在美國(guó)唱紅歌,狐貍尾巴藏不住了

墻倒眾人推!姜昆徒弟承認(rèn)其在美國(guó)唱紅歌,狐貍尾巴藏不住了

鋭娛之樂
2025-12-28 08:41:04
蘿莉島的骯臟超乎想象,克林頓喜歡年輕女孩,科學(xué)家霍金竟也去過

蘿莉島的骯臟超乎想象,克林頓喜歡年輕女孩,科學(xué)家霍金竟也去過

小熊侃史
2025-12-21 07:05:12
毛主席告訴李銀橋想吃紅燒肉,江青知道后吐槽:改不了的農(nóng)民習(xí)慣

毛主席告訴李銀橋想吃紅燒肉,江青知道后吐槽:改不了的農(nóng)民習(xí)慣

大運(yùn)河時(shí)空
2025-12-27 16:30:03
演員王星自曝被騙緬甸時(shí)手機(jī)被人拿走刷了數(shù)萬元網(wǎng)貸,回國(guó)后自己分期還款;透露有人找他出演“人口販賣”題材影片,但都拒絕了

演員王星自曝被騙緬甸時(shí)手機(jī)被人拿走刷了數(shù)萬元網(wǎng)貸,回國(guó)后自己分期還款;透露有人找他出演“人口販賣”題材影片,但都拒絕了

揚(yáng)子晚報(bào)
2025-12-27 18:49:32
央視導(dǎo)演哈文在美國(guó)過圣誕!吃全聚德烤鴨,調(diào)侃自己過成了中國(guó)年

央視導(dǎo)演哈文在美國(guó)過圣誕!吃全聚德烤鴨,調(diào)侃自己過成了中國(guó)年

娛圈小愚
2025-12-28 11:26:51
顧客稱在店內(nèi)飲用星巴克競(jìng)品,被工作人員提醒“盡快喝完”或“套上星巴克杯套”,星巴克回應(yīng)

顧客稱在店內(nèi)飲用星巴克競(jìng)品,被工作人員提醒“盡快喝完”或“套上星巴克杯套”,星巴克回應(yīng)

揚(yáng)子晚報(bào)
2025-12-27 23:20:23
海南“火山口”施工進(jìn)度曝光,2027年完工!

海南“火山口”施工進(jìn)度曝光,2027年完工!

GA環(huán)球建筑
2025-12-27 23:43:38
從鄉(xiāng)鎮(zhèn)調(diào)到省廳,想在女友家亮身份,瞥見她爸胸牌我改口說打雜

從鄉(xiāng)鎮(zhèn)調(diào)到省廳,想在女友家亮身份,瞥見她爸胸牌我改口說打雜

曉艾故事匯
2025-12-25 08:06:26
中方大拋美債,魯比奧態(tài)度大變,48小時(shí)2次警告日本,石破茂反水

中方大拋美債,魯比奧態(tài)度大變,48小時(shí)2次警告日本,石破茂反水

小蜜情感說
2025-12-28 10:52:49
泰國(guó)輿論炸鍋,打了勝仗,簽協(xié)議時(shí)卻做出重大妥協(xié),阿努廷危險(xiǎn)了

泰國(guó)輿論炸鍋,打了勝仗,簽協(xié)議時(shí)卻做出重大妥協(xié),阿努廷危險(xiǎn)了

通鑒史智
2025-12-28 16:14:03
哭了!原來有錢人冬天過得這么舒服!網(wǎng)友:不像我一身塑料

哭了!原來有錢人冬天過得這么舒服!網(wǎng)友:不像我一身塑料

另子維愛讀史
2025-12-27 18:24:20
2025-12-28 17:44:49
讀懂?dāng)?shù)字財(cái)經(jīng)
讀懂?dāng)?shù)字財(cái)經(jīng)
用數(shù)據(jù),說點(diǎn)財(cái)經(jīng)人話
1777文章數(shù) 3559關(guān)注度
往期回顧 全部

科技要聞

特斯拉將在華布局自動(dòng)駕駛?記者求證→

頭條要聞

賴清德彈劾案通過 臺(tái)媒體人:2026年要讓賴輸?shù)矫撗?/h3>

頭條要聞

賴清德彈劾案通過 臺(tái)媒體人:2026年要讓賴輸?shù)矫撗?/h3>

體育要聞

83分鐘絕殺!曼城2-1年度收官:英超6連勝狂飆

娛樂要聞

白敬亭現(xiàn)身冰雪大世界 拍視頻還翻車了

財(cái)經(jīng)要聞

英偉達(dá)的收購(gòu)史

汽車要聞

理想的2026:L9不容有失,i9再戰(zhàn)純電?

態(tài)度原創(chuàng)

房產(chǎn)
親子
數(shù)碼
本地
公開課

房產(chǎn)要聞

降維打擊!三亞CBD驚現(xiàn)“豪宅新王”,高端局要變天了!

親子要聞

祝媽媽長(zhǎng)命百歲

數(shù)碼要聞

兒童手表“跨品牌交友”啟動(dòng),小尋官宣支持與華為碰一碰加好友

本地新聞

云游安徽|踏訪池州,讀懂山水間的萬年史書

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版