国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

美團盯上原生多模態(tài)!路子還很野:把圖像語音都當成Token來預測

0
分享至

Token,這下真成了智能世界的基本單位。

不是被定義出來的“詞元”,而是被一套全新的統一Token架構,直接壓進了現實建模的最底層。



過去一年,幾乎所有頭部大模型玩家,都在忙著重寫多模態(tài)的底層架構。

從谷歌、OpenAI到國內的字節(jié)、MiniMax,大家在實踐中逐漸形成共識——不走原生多模態(tài),已經不夠、不行了。

但問題是,原生多模態(tài)到底該怎么走?到目前為止,業(yè)界并沒有一個統一答案。

直到這一次,一直悶頭搞AI的美團LongCat,歘的一下亮出新解法:

把圖片、語音,統統當成Token來預測。

聽起來有點離譜,但他們不僅這么做了,而且——

還做成了。

真原生、真統一

先回答一個基本問題:為什么要做原生多模態(tài)?

理由雖然很多,但核心只有一個:

目前業(yè)界主流的多模態(tài)大模型,本質上采用的是一套“拼湊式架構”——語言模型當底座,視覺、語音當外掛。

這種架構下,理解靠連續(xù)特征對齊(比如要理解圖片就得把圖片轉成語言能看懂的信號)、生成靠擴散模型,兩套系統各說各話,根本談不上真正的統一。

結果就是,中間“傳話人”一多,算力消耗飆升,信息也一路跑偏、流失。

而原生多模態(tài),則從一開始就用一套統一的方式,把所有模態(tài)一起建?!恍枰唇印⒉恍枰獋髟挿g,所有模態(tài)共用同一套“語言”。

而這,正是美團LongCat做的事。

至于為什么說他們采用的方式很“離譜”,原因在于,他們把“離散自回歸”直接搬到了圖像和語音這種連續(xù)信號上。

眾所周知,依賴離散自回歸建模,“預測下一個Token”讓大語言模型一戰(zhàn)成名。

但當這套范式被搬到視覺上時,問題也隨之出現:

圖片是連續(xù)信號,不能像文本那樣天然離散,一旦強行切成Token(類似把一張圖分成幾塊),模型就會丟信息“變弱”。

因此,行業(yè)長期認為,離散視覺建模存在“性能天花板”。

但隨著美團LongCat一篇新論文的出現,這一認知被打破了——

文本、圖像、語音,可以被統一壓進同一個離散Token空間,用一套自回歸邏輯從頭建模,而且模型效果可以媲美主流頂尖模型。



從論文中可以看到,為這套理念提供支撐的,正是美團LongCat首創(chuàng)的離散原生自回歸架構——DiNA(Discrete Native Autoregressive )。

DiNA核心只做一件事——把文字、圖像、語音都變成同一種東西,即離散Token。

這樣一來,無論模型是讀文字、看圖片還是聽聲音,本質上都是在預測下一個Token。

聽起來是不是仍有點抽象?不妨看看下面這張架構運行圖。

簡單來說,DiNA的一個完整“小周天”,大致會經歷以下三個過程:

  • 輸入側:文本、圖像、語音各自經過自家Tokenizer,統一把原始信號轉成離散Token;
  • 中間:所有Token匯入一個不區(qū)分模態(tài)的學習器,它只處理Token序列,所有理解、推理、生成都在這里完成;
  • 輸出側:處理完的Token再通過各自的De-Tokenizer還原成圖像、音頻、文本。



這種架構設計帶來的好處顯而易見:

以前都是各管各的(文字模型管文字、圖片模型管圖片),現在所有模態(tài)都共享同一個自回歸骨干。

這意味著,甭管處理哪種模態(tài),模型都用同一套參數、同一個注意力機制、同一個損失函數。

而這,無疑可以讓模型在訓練時更穩(wěn)定,部署時更輕量。

訓練時,多模態(tài)數據互相補充,梯度信號更穩(wěn),不容易跑偏;部署時,一個模型頂三個,顯存省了,速度也快了。

空口無憑。

美團LongCat用LongCat-Flash-Lite MoE(總參數685億,激活僅30億)做基座,在這個框架上訓練出LongCat-Next。

結果發(fā)現,DiNA的MoE路由在訓練中逐漸學會了“分工”——不同專家開始偏好處理不同模態(tài),激活的專家數量也比純語言模型時更多,這說明模型正在用更大容量支撐能力擴展。

說白了就是,為了多干活,找了更多專家。



再一個,前面提到了理解和生成的割裂問題(需要兩套系統)。

而在DiNA這里,它倆也變成了“預測下一個Token”這一件事——數學形式完全一樣,只是輸入輸出互換。

看到圖片,預測文字是“理解”;看到文字,預測圖片是“生成”。理解和生成一個模型全搞定。

至于具體效果嘛?實驗數據很能說明問題:

統一模型的理解損失僅比純理解模型高0.006,而生成損失比純生成模型低0.02。

這說明什么?理解不僅沒拖累生成,反而表現出協同潛力

以及最后還有很重要的一點,那就是真·原生。

以前的多模態(tài)模型,本質上天天干的是“對齊”的活兒——不同模態(tài)之間“對話”需要靠“翻譯傳話”。

而現在,美團LongCat發(fā)現:

把不同模態(tài)的Token丟進t-SNE可視化之后,它們不是各占一角,而是混在一起,自然交融,而且不同的專家模塊開始自動偏好處理圖像、文字或語音。

這說明,模型不是在“拼湊”多模態(tài),而是在內部長出了一個統一的多模態(tài)世界



說到這里,懂行的朋友可能就問了:

OK,現在我們已經知道DiNA架構長什么樣、具體怎么運作的了,但這里還有一個關鍵問題沒有被提到:

它是怎么把不同模態(tài)離散成Token的?文本不必多說,至少得說清圖像和語音咋處理的。

而這,就要談到美團LongCat的另一項自研了。

所以,怎么“離散”的?

一般來說,基于以下兩點理由,離散建模一直被人說“不行”:

  • 表征容量有限:離散Token就那么幾個,怕裝不下太多信息;
  • 離散化損失:離散化過程會丟東西,比如一旦把連續(xù)信號切成塊,細節(jié)就容易漏掉。

但美團LongCat就說了,這些還真不是關鍵。

真正決定上限的,是離散Token本身是否具備語義完備性(Semantic Completeness)。

換言之,問題不在“要不要離散”,而在離散后的Token本身到底夠不夠“有內容”——既懂大意,又摳細節(jié)。



所以現在問題就變成了:怎么構建合適的表征基礎?

先說視覺。

對此,美團LongCat想了兩招。

第一招:先把基礎打好,讓信息在被離散前盡可能豐富、準確。

他們拿出語義對齊編碼器SAE(Semantic-and-Aligned Encoder),用來從圖像中提煉高信息密度、多屬性的特征。

不同于傳統對比學習(如SigLIP那種“看文字和圖片是否匹配”),SAE是通過大規(guī)模視覺-語言監(jiān)督,像做閱讀理解一樣,把圖像描述、視覺問答、視覺推理統統學一遍。

結果就是,它提取的特征既有“這是什么”的語義,又有“長什么樣”的細節(jié)。

第二招:甩出自研視覺分詞器dNaViT,把SAE提煉出來的特征,逐級量化成離散Token。



怎么個逐級量化?dNaViT這里采用的是8層殘差向量量化(RVQ),通俗來講就是“分層打包”。

既然細節(jié)很多,那就第一層打包輪廓、第二層打包顏色、第三層打包紋理……

每一層只負責上一層沒包進去的“剩余信息”。

8層補下去之后,最后可以實現高達28倍的極致像素空間壓縮。

光壓縮還不算完,到了還原圖像的時候,dNaViT還有一套雙軌解碼器來為還原質量“保駕護航”。

  • 結構像素解碼器:搭出低分辨率錨點圖,保布局;
  • 擴散像素細化器:注入高頻紋理細節(jié),讓畫面更完整清晰。

到這里,美團LongCat就完成了視覺離散的幾個關鍵步驟——SAE“先看懂”、dNaViT再壓縮和還原。

發(fā)現沒,和語言模型的Tokenizer一樣,dNaViT也把圖像的理解和生成放在同一套Token序列里閉環(huán)流轉了。



不過更關鍵的還在于,在LongCat-Next中:

視覺Token化這個過程完成的是圖像到離散ID的映射,真正的特征是原生學習的。

意思是,視覺Token化這個過程只負責把圖像轉成ID編號,至于這個編號代表什么含義,是模型自己學出來的,不是別人硬塞給它的。

在美團LongCat看來,這種從“借用模態(tài)”到“內生模態(tài)”的轉變,是原生多模態(tài)建模的核心。

還是舉一個例子。

從dNaViT的架構圖可以看到,雖然左邊輸入了三張尺寸完全不同的圖像,但經過中間的離散和右下邊的還原后,輸出的尺寸和輸入完全一致,細節(jié)也沒丟。

這就是“原生分辨率”的含義——無需任何額外動作(縮放、裁剪、填充),dNaViT可以實現任意分辨率的圖像編碼與解碼。



再說語音。

語音的離散思路和視覺基本一致——

先用OpenAI的Whisper編碼器提取聲音特征,然后用RVQ切成離散Token,最后用解碼器還原聲音。



唯一比較狠的一點是,在文本引導音頻的統一建模下,LongCat-Next同時支持并行生成與串行生成兩種策略,使得模型可以在生成速度與語音準確性之間靈活權衡。

  • 想“快”(如實時語音對話):可以走并行生成,延遲更低;
  • 想“準”(如后期配音):可以走串行生成,雖然過程慢一點,但文本對音頻的指導作用更強。

至于什么情況選哪個,也都是模型自己來決定。

通過隨機延遲對齊——訓練時隨機切換“一起出”和“先后出”,模型能自己學會平衡速度和準確度,實現又快又準。



至此,美團LongCat在LongCat-Next身上看到了:

離散表示并非信息的退化形式,而可以成為統一理解與生成的完備表達載體。

通過“離散”這種方式,文字、圖像、語音可以變成“同一種Token”——原生多模態(tài)的底層統一,由此實現。

跑分和背后的發(fā)現

具體效果可以看LongCat-Next的跑分情況。

這個基于LongCat-Flash-Lite(MoE)訓練的模型,沒有像傳統模型那樣給不同任務設計不同的專家模塊,而是采用“與模態(tài)無關”的MoE——由模型自行決定如何為各模態(tài)分配訓練資源。



結果大家也都看到了,憑借這套離散原生框架,LongCat-Next在視覺理解、圖像生成、音頻、智能體等多個維度上,都展現出與多模專用模型相當甚至領先的性能。



老實說,雖然LongCat-Next的成績不錯,但我還是有點懷疑“離散”是否真能work。

于是立馬讓模型識別一下桌面上的小白盒(反光下比較模糊):



沒想到LongCat-Next成功識別了耳機盒上的所有關鍵參數:





當然,如果細扒每一項成績,你會發(fā)現背后還藏著這樣幾個關鍵點:

發(fā)現1:離散視覺沒有天花板

前文也提到,行業(yè)長期認為離散模型在做細粒度文本識別時,天然就不如連續(xù)模型。

因為離散化本身就是一個信息壓縮和丟失的過程,而細粒度文本識別恰恰對信息保真度要求極高。

但LongCat-Next這次用實力挑戰(zhàn)了這一觀點。

證據之一是,在OmniDocBench這個涵蓋學術論文、財報、行政表格等各種復雜文檔的多模態(tài)基準測試上,LongCat-Next的成績不僅超越同類多模態(tài)模型,還超過了專門做視覺理解的模型。

更重要的是,美團LongCat通過對照實驗發(fā)現,離散視覺的性能瓶頸并非來自“離散化本身”,而是來自數據規(guī)模。

在相同設置下對比離散模型(Discrete)和連續(xù)模型(Continuous)可以發(fā)現:

小數據下,離散模型確實弱于連續(xù)模型;但隨著數據規(guī)模不斷擴大,二者的性能差距會持續(xù)縮小。

繼續(xù)擴大數據規(guī)模,離散模型甚至可以和連續(xù)模型性能接近一致(near-parity)。



照理說,如果離散化本身存在不可突破的性能上限,那么隨著數據增加,這一差距理應在某個階段停止收斂,但實驗中并未觀察到這一“收斂停滯”。

所以論文給出了一個判斷——

離散建模并不存在內在性能天花板,其上限更多取決于數據規(guī)模與表征質量

發(fā)現2:理解和生成可以協同

原理就不必多說了,咱直接亮成績:

在考察長文本渲染能力的LongText-Bench上(側重生成),LongCat-Next拿下93.15的高分。

與此同時,它還在考察數學推理能力的MathVista上(側重理解),斬獲83.1的領先成績。

理解和生成齊高,這說明理解不僅沒有損害生成,反而表現出協同潛力。

這也很好理解。以前它們分屬兩套系統,各有各的優(yōu)化目標;現在卻被拉到了一起,理解學到的東西直接服務生成,兩者天然同向、越學越強。



發(fā)現3:經過原生多模態(tài)訓練后,不會折損文本能力

以前多模態(tài)訓練就像“端水”,要小心翼翼在各種模態(tài)的能力之間取得平衡。

但LongCat-Next就不一樣了。

圖像、音頻能力配上后,文本能力也沒被削弱——

在純文本任務上,LongCat-Next在MMLU-Pro和C-Eval上分別斬獲77.02和86.80的領先成績。

而且工具調用、代碼能力等個個不差。

還是那句話,當模型學會用同一種方式理解圖像、聲音和文字時,它對世界的理解無疑更上一層樓。

美團LongCat用實驗初步證明:

當不同模態(tài)都用同一套離散Token體系后,模型不再需要為不同模態(tài)、不同任務分別設計機制,而是可以用一套可擴展的方式去建模整個世界

在這個意義上,離散建模并非一種妥協,而是另一條可擴展路徑。

這件事意味著什么?

不止于此。

把視角再往前推一步,你會發(fā)現一個有意思的“隔空呼應”:這項研究,幾乎正對上了LeCun和謝賽寧等人的判斷。

LeCun就不必多說了,誰都知道他一直批評“純文本LLM無法實現AGI”;謝賽寧則在對談張小珺時表示,語言本身是人類文明高度提煉的結構,相當于一種“捷徑”或“拐杖”,過度依賴語言會限制AI對真實世界的學習。

而要突破語言模型的局限性,統一的多模態(tài)預訓練,正是那條繞不開的路。

在近期公開的論文《Beyond Language Modeling: An Exploration of Multimodal Pretraining》中,LeCun等人決定不再把視覺當作輔助輸入,而是推進統一的多模態(tài)預訓練——

讓視覺和語言一樣,成為模型里的“first-class citizen”。



而美團LongCat這一步,正是把這條思路進一步推向工程化落地的體現——

在不推翻LLM、自回歸這些成熟體系的前提下,他們直接把圖像、語音、文字統統壓進了Token序列,并且做到了工業(yè)級可用。

怎么個工業(yè)可用?答案是:開源。

沒錯,美團LongCat這次不僅公開了技術論文,而且還把LongCat-Next及其分詞器開!源!了!

不過要想使用LongCat-Next,除了硬件上需要至少3張80GB顯存的專業(yè)顯卡(如英偉達A100/H100),軟件配置要求如下:



到這一步,當一套方案不僅在論文里成立,而且已經以開源的形式跑通工程閉環(huán)時,它對業(yè)界的意義除了多了一個新框架外,更重要的其實還在于——驗證了一條新路徑

細究之下,在通往“原生多模態(tài)”的這條路上:

有人在做融合,語言模型當底座,視覺、語音當外掛,一心想讓不同模態(tài)更好協同;也有人更進一步做早期融合+MoE,不再依賴預訓練編碼器,從零開始聯合訓練,讓模型內部自己長出視覺和聽覺。

而美團LongCat更為直接——不走融合,不做對齊,直接把所有模態(tài)統統變成Token。

此時,模型面對的就不再是“多模態(tài)”,而是同一種可以被預測、被生成的序列。

某種程度上來說——

模態(tài)這個東西本身,也正在消失。

Paper: https://github.com/meituan-longcat/LongCat-Next/blob/main/tech_report.pdf
GitHub: https://github.com/meituan-longcat/LongCat-Next
HuggingFace: https://huggingface.co/meituan-longcat/LongCat-Next
blog: https://longcat.chat/longcat-next/intro

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
溫瑞博和吉村真晴排名上升,林昀儒反超松島輝空,向鵬積分清除

溫瑞博和吉村真晴排名上升,林昀儒反超松島輝空,向鵬積分清除

子水體娛
2026-04-12 23:45:40
性這件事,成年人的欲望,其實男女都一樣

性這件事,成年人的欲望,其實男女都一樣

加油丁小文
2026-04-09 05:00:03
良莠不齊的“莠”不讀yòu,也不讀xiù,常見字,讀錯說不過去!

良莠不齊的“莠”不讀yòu,也不讀xiù,常見字,讀錯說不過去!

未央看點
2026-04-12 00:02:41
45歲張敬軒公開道歉,就不當言行深刻反省,李力持轉發(fā):回頭是岸

45歲張敬軒公開道歉,就不當言行深刻反省,李力持轉發(fā):回頭是岸

情感大頭說說
2026-04-12 19:21:10
特朗普稱美國海軍將開始阻止任何船只進出霍爾木茲海峽

特朗普稱美國海軍將開始阻止任何船只進出霍爾木茲海峽

新華社
2026-04-12 21:03:04
風向都變了!以美國為首的多國認為:中國已在換電等關鍵領域崛起

風向都變了!以美國為首的多國認為:中國已在換電等關鍵領域崛起

潮鹿逐夢
2026-04-11 11:22:49
92歲香港老戲骨鄭雷去世,曾出演多部金庸劇

92歲香港老戲骨鄭雷去世,曾出演多部金庸劇

極目新聞
2026-04-12 22:05:17
馬伊琍官宣喜訊不到24小時 文章高調求“復合” 姚笛才是笑到最后

馬伊琍官宣喜訊不到24小時 文章高調求“復合” 姚笛才是笑到最后

潮鹿逐夢
2026-04-11 14:48:49
戚薇北京品牌活動,身穿黑色露腰西裝真空內搭,黑直發(fā)型簡約利落

戚薇北京品牌活動,身穿黑色露腰西裝真空內搭,黑直發(fā)型簡約利落

烈史
2026-04-11 21:04:13
偉大的2-1!安洗瑩女單奪冠創(chuàng)紀錄,加冕全滿貫,王祉怡雖敗猶榮

偉大的2-1!安洗瑩女單奪冠創(chuàng)紀錄,加冕全滿貫,王祉怡雖敗猶榮

劉姚堯的文字城堡
2026-04-12 16:19:01
何超盈6歲女兒舉辦藝術展,何超盈亮相一臉自豪,辛奇隆再度缺席

何超盈6歲女兒舉辦藝術展,何超盈亮相一臉自豪,辛奇隆再度缺席

樹娃
2026-04-03 11:44:52
7歲女兒從12樓墜落,丈夫事后鐵心離婚,甚至起訴離婚三次未果

7歲女兒從12樓墜落,丈夫事后鐵心離婚,甚至起訴離婚三次未果

潮鹿逐夢
2026-04-12 13:12:37
高速路上妻子不停數落丈夫  貓咪2次硬核“捂嘴”封殺!

高速路上妻子不停數落丈夫 貓咪2次硬核“捂嘴”封殺!

塵埃里的看客
2026-04-11 16:42:03
黃金突發(fā),美伊談崩了;金銀原油,會如何?

黃金突發(fā),美伊談崩了;金銀原油,會如何?

楊子黃金
2026-04-12 21:32:43
強制員工自費500元給顧客買禮物 海底撈通報:情況基本屬實

強制員工自費500元給顧客買禮物 海底撈通報:情況基本屬實

閃電新聞
2026-04-11 20:00:17
開國上將鬧離婚:結發(fā)40年竟遭發(fā)妻死命舉報,六名子女為何如釋重負

開國上將鬧離婚:結發(fā)40年竟遭發(fā)妻死命舉報,六名子女為何如釋重負

睡前講故事
2026-04-07 14:43:34
估價2600萬元翡翠原石亮相中國國際珠寶展,參展商:能切出五六條價值超300萬元手鐲,另可制作多個平安扣等掛件

估價2600萬元翡翠原石亮相中國國際珠寶展,參展商:能切出五六條價值超300萬元手鐲,另可制作多個平安扣等掛件

極目新聞
2026-04-10 19:25:32
醫(yī)生直言:體檢報告這5項指標正常,身體基本上無大礙,建議了解

醫(yī)生直言:體檢報告這5項指標正常,身體基本上無大礙,建議了解

熊貓醫(yī)學社
2026-04-03 11:35:03
留給美國時間不多了,伊朗戰(zhàn)爭打完后,世界就只剩一個超級大國了

留給美國時間不多了,伊朗戰(zhàn)爭打完后,世界就只剩一個超級大國了

觸摸史跡
2026-04-02 14:39:03
爆炸性新聞!加州民調第一的州長候選人被曝強奸女下屬,民主黨高層迅速劃清界線

爆炸性新聞!加州民調第一的州長候選人被曝強奸女下屬,民主黨高層迅速劃清界線

大洛杉磯LA
2026-04-12 04:46:31
2026-04-13 00:44:49
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
12463文章數 176449關注度
往期回顧 全部

科技要聞

理想稱遭惡意拉踩,東風日產:尊重同行

頭條要聞

特朗普:將封鎖任何試圖進出霍爾木茲海峽的船只

頭條要聞

特朗普:將封鎖任何試圖進出霍爾木茲海峽的船只

體育要聞

創(chuàng)造歷史!五大聯賽首位女性主教練誕生

娛樂要聞

賭王女兒何超蕸病逝,常年和乳癌斗爭

財經要聞

美伊談判破裂的三大癥結

汽車要聞

煥新極氪007/007GT上市 限時19.39萬起

態(tài)度原創(chuàng)

家居
藝術
數碼
公開課
軍事航空

家居要聞

復古風格 自然簡約

藝術要聞

揭開她筆下女人的神秘面紗,豪放灑脫的魅力令人驚嘆!

數碼要聞

蘋果版套娃 買臺Mac Pro回家:打開一看里面還藏著一臺Mac Pro

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美國副總統萬斯:美伊談判未能達成協議

無障礙瀏覽 進入關懷版