網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

美團(tuán)LongCat-Next：把圖像、聲音、文字都變成Token，然后呢？

2026-04-02 14:03:47　來(lái)源: 機(jī)器之心Pro

北京舉報(bào)

分享至

機(jī)器之心編輯部

近日，美團(tuán)發(fā)布了一項(xiàng)頗具分量的多模態(tài)研究成果 ——LongCat-Next

這是一款離散原生自回歸多模態(tài)大模型，基于 LongCat-Flash-Lite MoE 架構(gòu)構(gòu)建，總參數(shù)量達(dá) 68.5B，激活參數(shù)僅 3B，能夠在統(tǒng)一框架下同時(shí)處理文本、圖像與音頻三種模態(tài)。

該模型的出現(xiàn)，直接挑戰(zhàn)了多模態(tài)領(lǐng)域長(zhǎng)期存在的一個(gè)認(rèn)知：將視覺(jué)信息離散化為 Token 會(huì)導(dǎo)致嚴(yán)重的細(xì)節(jié)丟失，在 OCR、復(fù)雜圖表等細(xì)粒度理解任務(wù)上天然弱于連續(xù)特征模型。

LongCat-Next 是目前首個(gè)在純離散框架下，將上述細(xì)粒度視覺(jué)理解能力推至與專(zhuān)用連續(xù)模型相當(dāng)水平的統(tǒng)一多模態(tài)模型，與同等參數(shù)量專(zhuān)用視覺(jué)模型 Qwen3-VL-A3B 相比毫不遜色。

在圖像生成方面，其長(zhǎng)文本理解與文字渲染能力相較同類(lèi)統(tǒng)一模型優(yōu)勢(shì)顯著，整體生成質(zhì)量可與專(zhuān)用文生圖模型 Flux-dev 相抗衡。

在音頻方面，語(yǔ)音識(shí)別與理解能力超越了 Gemini 3.1 Flash-Lite preview、MiMo-Audio 等同量級(jí)模型。

LongCat-Next 還破解了視覺(jué)理解與生成之間的優(yōu)化沖突。

論文實(shí)驗(yàn)表明，在同等 token 預(yù)算下，理解與生成的聯(lián)合訓(xùn)練不僅沒(méi)有相互拖累，理解任務(wù)的訓(xùn)練信號(hào)反而對(duì)生成質(zhì)量有正向促進(jìn)，這一結(jié)論與多數(shù)統(tǒng)一模型的實(shí)際經(jīng)驗(yàn)相悖。

當(dāng)所有模態(tài)都以離散 token 的形式在同一嵌入空間中共同訓(xùn)練后，模型內(nèi)部自發(fā)涌現(xiàn)出一種跨模態(tài)的語(yǔ)義交融現(xiàn)象，視覺(jué) token 與文本 token 在表示空間中形成交織分布。

論文地址：https://github.com/meituan-longcat/LongCat-Next/blob/main/tech_report.pdf
GitHub：https://github.com/meituan-longcat/LongCat-Next
HuggingFace：https://huggingface.co/meituan-longcat/LongCat-Next
blog：https://longcat.chat/longcat-next/intro

下面，我們通過(guò)幾個(gè)具體 case 直觀感受下它的能力。

先睹為快，文圖音三模態(tài)初體驗(yàn)

先來(lái)試下它的視覺(jué)理解能力

我們上傳一張愛(ài)樂(lè)之城配色的插花圖片，讓 LongCat-Next 識(shí)別其中的植物，并介紹各自特征。

提示詞：圖片中的花束包含哪幾種植物，分別有什么特征？

模型準(zhǔn)確辨別出黃色多頭玫瑰、紫色洋桔梗、鼠尾草類(lèi)香草及配葉植物，并對(duì)各自顏色、形態(tài)給出較為細(xì)致描述，還主動(dòng)補(bǔ)充花束整體配色風(fēng)格的分析。

我們又以三座風(fēng)格各異的地標(biāo)建筑為素材，考察模型對(duì)國(guó)內(nèi)城市地標(biāo)的圖像識(shí)別能力。

提示詞：這三個(gè)地方分別是哪里？

LongCat-Next 準(zhǔn)確識(shí)別出北京「望京之眼」、廣州中銀大廈及南京青奧中心三處建筑，并對(duì)每座地標(biāo)建筑的背景信息有所掌握。

比如提到廣州中銀大廈的網(wǎng)絡(luò)外號(hào)「蟑螂大廈」及其獨(dú)特造型，以及南京青奧中心由扎哈?哈迪德設(shè)計(jì)等細(xì)節(jié)。

下面這道圖形推理題除了考察模型的圖像理解能力外，還涉及到抽象規(guī)律的歸納。

提示詞：Which option should be chosen for this question?

LongCat-Next 抓住其中門(mén)道，每幅圖形均由外框與內(nèi)部黑點(diǎn)兩個(gè)要素構(gòu)成，并通過(guò)多組數(shù)據(jù)橫向比對(duì)，得出「外框邊數(shù) - 黑點(diǎn)個(gè)數(shù) = 2」這一隱藏規(guī)律，最終鎖定答案 B。

再看看圖像生成能力

LongCat-Next 生成的日出時(shí)分高山湖泊，無(wú)論構(gòu)圖還是光影過(guò)渡，已接近專(zhuān)業(yè)風(fēng)光攝影的質(zhì)感。

prompt: A crystal clear mountain lake reflecting snow-capped peaks at sunrise. Still water, mirror-like reflection, pink and gold sky, pine trees along the shore.

下面這個(gè) case 主要考察文字渲染能力。生成的馬克杯產(chǎn)品圖中，文字沒(méi)有變形或亂碼，整體呈現(xiàn)極簡(jiǎn)風(fēng)格。

prompt: A white mug on a wooden table with \"LongCat-Next\" printed on it in clean font. Simple background, morning light from a window, minimalist product photography.

LongCat-Next 生成的圣托里尼，色彩表現(xiàn)是最大亮點(diǎn)，藍(lán)頂白墻、三角梅、落日構(gòu)成強(qiáng)烈且協(xié)調(diào)的撞色對(duì)比，很有氛圍感。

prompt: Santorini white buildings with blue domes overlooking the Aegean sea at sunset. Warm golden light, bougainvillea flowers, calm ocean, iconic Greek island view.

LongCat-Next 還支持任意分辨率輸出，即使是極端長(zhǎng)寬比構(gòu)圖需求，它同樣能穩(wěn)定生成。

視覺(jué)之外，LongCat-Next 同樣將音頻納入了統(tǒng)一的離散自回歸框架。

音頻理解能力能像處理文本一樣，對(duì)聲音信號(hào)做出準(zhǔn)確、連貫的響應(yīng)，涵蓋語(yǔ)音內(nèi)容識(shí)別與復(fù)雜場(chǎng)景語(yǔ)義理解等。

比如用四川話(huà)問(wèn)它一道經(jīng)典邏輯謎題，LongCat-Next 沒(méi)有出現(xiàn)識(shí)別偏差或語(yǔ)義丟失，四川話(huà)的語(yǔ)音信號(hào)被準(zhǔn)確轉(zhuǎn)化為可推理的語(yǔ)義內(nèi)容，并順暢進(jìn)入后續(xù)邏輯分析流程。

這在一定程度上說(shuō)明，LongCat-Next 的音頻離散化表示具備相當(dāng)?shù)聂敯粜?，方言、口音等聲學(xué)變體并不會(huì)成為理解鏈路上的斷點(diǎn)。

給它一段環(huán)境錄音，它從持續(xù)、有節(jié)奏的「咔噠」聲與汽笛聲中，準(zhǔn)確判斷出錄制地點(diǎn)為火車(chē)站、地鐵站或者鐵路軌道附近。

由此可見(jiàn)，LongCat-Next 可以綜合多個(gè)聲學(xué)線索完成場(chǎng)景級(jí)語(yǔ)義推斷。

它還能敏銳感知到話(huà)里話(huà)外的情緒。比如一段男聲音頻中，LongCat-Next 不僅聽(tīng)懂了字面內(nèi)容，還從提高的音量與急促的語(yǔ)速中，判斷出說(shuō)話(huà)者情緒激動(dòng)、帶有明顯怒意。

除了「聽(tīng)懂」音頻，LongCat-Next 還具備語(yǔ)音合成與聲音克隆能力

提供一段帶有濃重廣味的普通話(huà)作為參考音頻，讓它在保留說(shuō)話(huà)人音色特征的同時(shí)，合成全新的目標(biāo)內(nèi)容。

合成音頻還原了說(shuō)話(huà)人的嗓音質(zhì)感，那股辨識(shí)度極高的粵腔普通話(huà)韻味也被完整保留。

切換到英文場(chǎng)景，同樣給出參考音頻，要求模型克隆音色并復(fù)述指定內(nèi)容。

LongCat-Next 準(zhǔn)確捕捉到說(shuō)話(huà)者的音色特征與口音習(xí)慣，輸出的合成語(yǔ)音在聽(tīng)感上與原聲高度貼近，目標(biāo)內(nèi)容的表達(dá)也清晰準(zhǔn)確。

當(dāng)「萬(wàn)物」都變成 Token

模型開(kāi)始真正統(tǒng)一世界

今天的大模型，在核心建模范式上，仍以「預(yù)測(cè)下一個(gè) token」為基礎(chǔ)。但問(wèn)題在于，這個(gè) token，長(zhǎng)期只屬于語(yǔ)言。LongCat-Next 將這一理念延伸至多模態(tài)領(lǐng)域，提出了離散原生自回歸（DiNA）框架

在該框架下，圖像和音頻等連續(xù)信號(hào)被轉(zhuǎn)化為與文本共享表示空間的離散 token。在統(tǒng)一 token 表示下，大幅減少了為不同模態(tài)設(shè)計(jì)專(zhuān)用架構(gòu)的需求。視覺(jué)理解與生成、音頻處理等任務(wù)，在核心建模上被統(tǒng)一為自回歸預(yù)測(cè)過(guò)程。

通過(guò)成對(duì)的 tokenizer，將多模態(tài)能力擴(kuò)展到一種類(lèi)似語(yǔ)言建模的原生框架之中。

如何把高維視聽(tīng)信號(hào)無(wú)損變成 Token 并還原？

首先的問(wèn)題是，圖像真的能變成 token 嗎？

語(yǔ)言天然是離散的，但視覺(jué)不是。一張圖像，是高維、連續(xù)、信息密度極高的信號(hào)，一旦壓縮成有限 token，很容易發(fā)生語(yǔ)義丟失（看不懂）、細(xì)節(jié)丟失（畫(huà)不出來(lái)）。

LongCat-Next 把這個(gè)問(wèn)題抽象成一個(gè)核心原則：語(yǔ)義完備性。也就是說(shuō)，token 化之后，模型基于 token 做出的判斷，應(yīng)盡可能接近直接基于原始圖像的判斷。

為了將高維的視覺(jué)信號(hào)轉(zhuǎn)化為離散 token 且盡量減少信息損失，LongCat-Next 設(shè)計(jì)了名為dNaViT（Discrete Native Resolution Vision Transformer）的視覺(jué) Tokenizer 。

該 Tokenizer 的核心包含三個(gè)關(guān)鍵部分：

SAE（語(yǔ)義對(duì)齊編碼器）：模型采用經(jīng)過(guò)大規(guī)模圖文對(duì)齊訓(xùn)練的視覺(jué)編碼器作為預(yù)量化特征的基礎(chǔ)。這類(lèi)編碼器不僅能夠捕獲高層語(yǔ)義概念，同時(shí)也保留了細(xì)粒度的視覺(jué)屬性，為后續(xù)離散建模提供語(yǔ)義基礎(chǔ)。

RVQ 壓縮（殘差向量量化）：為了將連續(xù)特征映射到有限的離散代碼本中，模型引入多層級(jí)聯(lián)的 RVQ 機(jī)制。它通過(guò)逐層量化殘差誤差的方式不斷逼近原始表示，從而在壓縮率與信息保真之間取得更好的平衡。

dNaViT 原生分辨率：傳統(tǒng)視覺(jué)模型通常依賴(lài)固定分辨率輸入，這在縮放或裁剪過(guò)程中不可避免地帶來(lái)信息損失。dNaViT 則直接在原生分辨率下處理任意長(zhǎng)寬比圖像，將視覺(jué)信號(hào)轉(zhuǎn)化為變長(zhǎng) token 序列，從而最大程度保留細(xì)節(jié)信息。

在將圖像轉(zhuǎn)換為 token 的過(guò)程中，研究人員觀察到一個(gè)內(nèi)在的信息保留現(xiàn)象：即使視覺(jué)編碼器沒(méi)有接受像素級(jí)重建訓(xùn)練，只要其結(jié)構(gòu)中包含殘差連接，就會(huì)自然保留一條低層信號(hào)傳播路徑。

換句話(huà)說(shuō)，殘差，就是保住珍貴像素細(xì)節(jié)的「保鮮通道」

在這種結(jié)構(gòu)下，淺層的像素級(jí)與結(jié)構(gòu)細(xì)節(jié)可以通過(guò)恒等映射直接傳遞到深層，不會(huì)被高層語(yǔ)義完全覆蓋。這也意味著，在離散化之前，模型內(nèi)部已經(jīng)隱式保留了部分用于圖像重建的底層信息。

基于不同凍結(jié)視覺(jué)編碼器的視覺(jué)重建，使用輕量級(jí)像素解碼器訓(xùn)練。結(jié)果表明，殘差連接固有地保留了用于低級(jí)信號(hào)傳播的潛在路徑。

那么，在生成階段，模型如何將離散 token 重新還原為圖像？

首先，這些離散代碼嵌入會(huì)被送入一個(gè)基于視覺(jué) Transformer（ViT）的像素解碼器中，用于恢復(fù)圖像的空間布局與對(duì)象結(jié)構(gòu)等基礎(chǔ)內(nèi)容。隨后，模型引入一個(gè)基于流匹配訓(xùn)練的圖像細(xì)化器，在結(jié)構(gòu)結(jié)果之上進(jìn)一步補(bǔ)充紋理與高頻細(xì)節(jié)，最終生成高質(zhì)量圖像。

可以理解為：第一階段負(fù)責(zé)「還原結(jié)構(gòu)」，第二階段負(fù)責(zé)「提升觀感」。

dNaViT 的 tokenizer 與 de-tokenizer 訓(xùn)練流程：通過(guò)殘差向量量化（RVQ）將圖像編碼為離散 token，并通過(guò)像素解碼器在任意分辨率下將其解碼回圖像空間。

聲音同樣被納入統(tǒng)一的離散建模體系中。模型首先利用Whisper 編碼器提取音頻的語(yǔ)義與副語(yǔ)言特征（如語(yǔ)氣、情感等），隨后通過(guò)下采樣與 RVQ 壓縮為離散音頻 token。

在解碼端，模型先恢復(fù)粗略的梅爾頻譜，再通過(guò)基于流匹配的模型進(jìn)行細(xì)化，從而顯著提升語(yǔ)音合成的聲學(xué)保真度與音質(zhì)表現(xiàn)。

通過(guò)上述設(shè)計(jì)，LongCat-Next 最終證實(shí)了一個(gè)重要的觀點(diǎn)：信息的豐富度并不必然依賴(lài)于連續(xù)的空間

團(tuán)隊(duì)在后續(xù)的評(píng)測(cè)中，用一系列的理解任務(wù)指標(biāo)直接證明了這一點(diǎn)：即使是一張包含密集圖表、海量文字的極其復(fù)雜的圖像（例如在 OmniDocBench 等重度文檔問(wèn)答任務(wù)中），在被強(qiáng)行壓縮成有限的離散 token 后，依然能夠精準(zhǔn)回答關(guān)于該圖像的所有 QA、Caption 以及邏輯推理任務(wù) 。

這意味著，在跨越模態(tài)的轉(zhuǎn)換中，圖像的核心信息并沒(méi)有消亡。這堆看似有限且抽象的離散 ID，實(shí)質(zhì)上已經(jīng)成為了高維、連續(xù)視覺(jué)信號(hào)的一種極度緊湊且語(yǔ)義完備的等價(jià)表示。它們不僅成功鎖住了視覺(jué)世界的骨相與細(xì)節(jié)，更變成了語(yǔ)言模型能夠毫無(wú)障礙、直接閱讀的「通用母語(yǔ)」。

LongCat-Next 在復(fù)雜視覺(jué)理解任務(wù)中的表現(xiàn)。即使面對(duì)排版密集的報(bào)紙、復(fù)雜的幾何圖表與邏輯推理題，轉(zhuǎn)化為離散 token 后的模型依然能夠精準(zhǔn)提取信息并進(jìn)行深度邏輯推理，證明了該離散表示的語(yǔ)義完備性。

另外，對(duì)比近期的一些架構(gòu)演進(jìn)，「殘差機(jī)制」在不同場(chǎng)景下呈現(xiàn)出截然不同的作用。

在 LongCat 的視覺(jué)編碼階段，殘差更像是一條「保留通道」。由于網(wǎng)絡(luò)相對(duì)較淺，且目標(biāo)是盡可能無(wú)損地保留原始像素信息，殘差的恒等映射特性能夠有效防止底層細(xì)節(jié)被高層語(yǔ)義覆蓋。

而在 Kimi 團(tuán)隊(duì)最近大火的 Attention Residuals 工作中，當(dāng)語(yǔ)言模型深度達(dá)到上百層時(shí)，傳統(tǒng)殘差累加反而會(huì)演變?yōu)椤感畔⑾♂尅埂Ｔ缙趯有畔⒃趥鞑ブ兄饾u衰減，同時(shí)隱狀態(tài)不斷擴(kuò)張，帶來(lái)穩(wěn)定性問(wèn)題。因此，該工作引入注意力機(jī)制對(duì)殘差信息進(jìn)行選擇性傳遞。

LLM 的「大腦」如何處理信息？

在 DiNA 框架下，所有輸入（無(wú)論是文本、圖像還是語(yǔ)音）在進(jìn)入模型之前，都會(huì)被轉(zhuǎn)換為統(tǒng)一格式的離散 token。隨后，它們被送入同一個(gè)解碼器架構(gòu)中，由一個(gè)模態(tài)無(wú)關(guān)的混合專(zhuān)家網(wǎng)絡(luò)（Modality-Agnostic MoE）統(tǒng)一處理

這意味著，傳統(tǒng)多模態(tài)模型中視覺(jué)分支、語(yǔ)音分支、跨模態(tài)對(duì)齊模塊等常見(jiàn)的結(jié)構(gòu)，在這里被徹底取消。主干路徑被統(tǒng)一為：token → 共享嵌入 → 自回歸建模，但在輸入與輸出端仍保留模態(tài)相關(guān)組件。

換句話(huà)說(shuō)，大模型的「多模態(tài)能力」，不再來(lái)自結(jié)構(gòu)拼接，而是來(lái)自表示統(tǒng)一

理解與生成并不沖突

傳統(tǒng)的觀點(diǎn)認(rèn)為，理解和生成是兩個(gè)相互競(jìng)爭(zhēng)的目標(biāo) 。但在 LongCat-Next 中，它們被統(tǒng)一為同一自回歸預(yù)測(cè)過(guò)程中的兩種表現(xiàn)形式。實(shí)驗(yàn)證明，將視覺(jué)理解與生成置于統(tǒng)一的自回歸目標(biāo)下進(jìn)行聯(lián)合訓(xùn)練，兩者并未產(chǎn)生容量沖突

在同等 token 數(shù)量的訓(xùn)練下，統(tǒng)一模型（Unified model）的損失與純理解模型（Pure-Und.）的差距微乎其微（僅相差 0.006），同時(shí)其損失甚至比純生成模型（Pure-Gen.）還要低 0.02 。

這意味著，生成任務(wù)不會(huì)削弱理解能力，反而理解任務(wù)的引入會(huì)進(jìn)一步提升生成表現(xiàn)。

為了保證生成語(yǔ)音的邏輯連貫性，模型借鑒了內(nèi)部文本引導(dǎo)的思想，將文本作為語(yǔ)音生成過(guò)程的一部分進(jìn)行顯式建模。

串行生成：模型先生成引導(dǎo)性的文本片段，再生成對(duì)應(yīng)音頻片段。這一方式在每一步只需預(yù)測(cè)單一模態(tài) token，有效避免模態(tài)間干擾，從而保證語(yǔ)義準(zhǔn)確性。

并行生成：模型在每一步同時(shí)生成文本與音頻 token，并通過(guò)延遲首個(gè)音頻 token 的生成步數(shù)，實(shí)現(xiàn)與文本的對(duì)齊。該策略顯著降低響應(yīng)延遲，更適用于實(shí)時(shí)對(duì)話(huà)場(chǎng)景。

為了統(tǒng)一這兩種策略，團(tuán)隊(duì)提出了一種基于隨機(jī)延遲的訓(xùn)練范式：在訓(xùn)練過(guò)程中隨機(jī)采樣文本與音頻的對(duì)齊延遲，使模型學(xué)習(xí)更魯棒的跨模態(tài)對(duì)齊能力。

實(shí)驗(yàn)顯示，在該訓(xùn)練方式下，并行生成在效率與語(yǔ)義準(zhǔn)確度上均可達(dá)到與串行生成相當(dāng)?shù)乃健?/p>

兩種具有內(nèi)部語(yǔ)言引導(dǎo)的語(yǔ)音生成策略。用戶(hù)的輸入音頻被視為純音頻模態(tài)，而由 LongCat-Next（或助手）生成的輸出則被視為文本引導(dǎo)的音頻模態(tài)。為了指示模態(tài)轉(zhuǎn)換并促進(jìn)分段對(duì)齊，團(tuán)隊(duì)引入了三個(gè)特殊標(biāo)記：AS（Audio Start，音頻開(kāi)始）、AE（Audio End，音頻結(jié)束）和 TE（Text End，文本結(jié)束），分別表示音頻片段的起始和結(jié)束，以及文本片段的結(jié)束。

基礎(chǔ)設(shè)施保障：V-Half 流水線調(diào)度

在多模態(tài)模型中，計(jì)算負(fù)載本質(zhì)上是異構(gòu)的。圖、音、文在 Embedding 層和特定模態(tài)損失模塊（如深度 Transformer）的計(jì)算耗時(shí)存在顯著差異，且會(huì)隨每條樣本中模態(tài) token 分布的不同而動(dòng)態(tài)波動(dòng) 。傳統(tǒng)的線性流水線并行會(huì)導(dǎo)致嚴(yán)重的級(jí)間負(fù)載不均、高昂的點(diǎn)對(duì)點(diǎn)通信開(kāi)銷(xiāo)以及大量的算力氣泡。

為解決這一系統(tǒng)瓶頸，團(tuán)隊(duì)采用了基于V-Half的流水線調(diào)度策略。該策略通過(guò)「V 型調(diào)度」，將計(jì)算流水線的第一個(gè)階段（Embedding 層）和最后一個(gè)階段（模態(tài)特定的損失模塊）「折疊」并共置于同一個(gè)物理設(shè)備上。

這種物理層面的共置設(shè)計(jì)，不僅通過(guò)吸收動(dòng)態(tài)計(jì)算開(kāi)銷(xiāo)有效消除了流水線氣泡、實(shí)現(xiàn)了近乎完美的負(fù)載均衡，還使得這兩端模塊之間的前向激活和反向梯度傳遞可以通過(guò)零拷貝的設(shè)備內(nèi)內(nèi)存訪問(wèn)完成，顯著減少了跨階段通信開(kāi)銷(xiāo)。

實(shí)驗(yàn)細(xì)節(jié)與未來(lái)工作

在視覺(jué)生成數(shù)據(jù)上，為避免模型陷入同質(zhì)化審美（即過(guò)度偏向高頻的「AI 風(fēng)格」），團(tuán)隊(duì)引入了基于聚類(lèi)的重平衡策略。通過(guò)對(duì)高密度集群進(jìn)行去重，并提高稀疏長(zhǎng)尾概念（如罕見(jiàn)動(dòng)植物、專(zhuān)業(yè)儀器）的采樣權(quán)重，從數(shù)據(jù)源頭上保障了生成內(nèi)容的多樣性。

左圖：數(shù)據(jù)整理與訓(xùn)練流程包含三個(gè)階段：（I）預(yù)訓(xùn)練：通過(guò)過(guò)濾和重新描述實(shí)現(xiàn)基本對(duì)齊；（II）中期訓(xùn)練：通過(guò)語(yǔ)義聚類(lèi)和重平衡解決數(shù)據(jù)不平衡問(wèn)題；（III）監(jiān)督微調(diào)：基于高質(zhì)量、遵循指令的數(shù)據(jù)，提升美學(xué)質(zhì)量和文本渲染效果。右圖：圖像來(lái)源的分布情況。

將多模態(tài)數(shù)據(jù)離散化為 token 的另一項(xiàng)技術(shù)紅利，體現(xiàn)在強(qiáng)化學(xué)習(xí)階段。離散視覺(jué)潛在空間天然可以作為動(dòng)作空間，使模型能夠直接套用語(yǔ)言模型成熟的 RL 算法（如 GRPO）來(lái)提升畫(huà)圖和理解能力，避免了連續(xù)空間中復(fù)雜的采樣與映射過(guò)程。

在針對(duì)圖像理解進(jìn)行 RL 訓(xùn)練時(shí)，團(tuán)隊(duì)遭遇了嚴(yán)重的「熵爆炸」問(wèn)題。當(dāng)極少數(shù) token 存在訓(xùn)練 - 推理概率失配時(shí)，微小的亂碼噪聲會(huì)在長(zhǎng)序列生成中累積放大，導(dǎo)致輸出崩潰。團(tuán)隊(duì)最終通過(guò)設(shè)計(jì)基于熵和概率差的「序列級(jí)過(guò)濾機(jī)制」，在梯度更新前精準(zhǔn)丟棄包含致命錯(cuò)亂的樣本序列，成功穩(wěn)定了 RL 的訓(xùn)練過(guò)程。

整體來(lái)看，LongCat-Next 的后續(xù)工作，仍將圍繞兩個(gè)核心問(wèn)題展開(kāi)：一是如何在更高壓縮率下維持跨模態(tài)語(yǔ)義完備性；二是如何在統(tǒng)一 token 空間中進(jìn)一步提升長(zhǎng)序列與復(fù)雜任務(wù)下的穩(wěn)定性與可控性。

結(jié)語(yǔ)

論文在最后探討了一個(gè)非常有趣的觀點(diǎn)：「柏拉圖表征假說(shuō)」。在柏拉圖的哲學(xué)理念中，現(xiàn)實(shí)世界的萬(wàn)事萬(wàn)物，都只是完美「理念」的影子。映射到深度學(xué)習(xí)中，文本、圖像和聲音，本質(zhì)上也是對(duì)同一個(gè)客觀現(xiàn)實(shí)的不同表達(dá)途徑。

在傳統(tǒng)的拼接式模型中，圖、音、文往往各自為陣，在特征空間里形成割裂。但當(dāng)它們被置于 DiNA 這種完全原生的離散框架下時(shí)，實(shí)驗(yàn)觀測(cè)到了一個(gè)美妙的現(xiàn)象：視覺(jué)和文本 token 的特征分布自然地交織在了一起。

它們不再是需要被強(qiáng)行對(duì)齊的異類(lèi)，而是變成了表達(dá)同一個(gè)底層概念的「世界語(yǔ)言」。無(wú)論是屏幕上的像素，還是麥克風(fēng)里的聲波，最終都在模型的高維語(yǔ)義空間中，化為了同一種思維的漣漪。

客觀地看，目前的探索仍是一個(gè)起點(diǎn)。正如團(tuán)隊(duì)在未來(lái)工作中所指出的，當(dāng)前的評(píng)估主要通過(guò)圖像到文本（理解）和文本到圖像（生成）等經(jīng)典任務(wù)，成功驗(yàn)證了這種離散原生架構(gòu)的可行性與語(yǔ)義完整性。然而，距離真正意義上的通用多模態(tài)智能仍有距離。

團(tuán)隊(duì)指出，未來(lái)的原生多模態(tài)系統(tǒng)絕對(duì)不應(yīng)局限于這些傳統(tǒng)的單一方向。理所當(dāng)然的下一步，是必須走向更復(fù)雜的「任意到任意」的交織推理。這意味著未來(lái)的輸入和輸出將是文本、視覺(jué)和音頻的任意組合，甚至涵蓋長(zhǎng)上下文的多模態(tài)交互、多輪視覺(jué)對(duì)話(huà)，以及不同模態(tài)之間動(dòng)態(tài)相互制約的組合生成。只有實(shí)現(xiàn)這種靈活、統(tǒng)一的交互，模型才能真正從「特定任務(wù)的專(zhuān)家」進(jìn)化為「通用多模態(tài)智能」。

文中視頻鏈接：https://mp.weixin.qq.com/s/IzzNLPI9L2tSRvOXniOJ2Q

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.