国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

美團(tuán)LongCat-Next:把圖像、聲音、文字都變成Token,然后呢?

0
分享至



機(jī)器之心編輯部

近日,美團(tuán)發(fā)布了一項(xiàng)頗具分量的多模態(tài)研究成果 ——LongCat-Next

這是一款離散原生自回歸多模態(tài)大模型,基于 LongCat-Flash-Lite MoE 架構(gòu)構(gòu)建,總參數(shù)量達(dá) 68.5B,激活參數(shù)僅 3B,能夠在統(tǒng)一框架下同時(shí)處理文本、圖像與音頻三種模態(tài)。



該模型的出現(xiàn),直接挑戰(zhàn)了多模態(tài)領(lǐng)域長(zhǎng)期存在的一個(gè)認(rèn)知:將視覺(jué)信息離散化為 Token 會(huì)導(dǎo)致嚴(yán)重的細(xì)節(jié)丟失,在 OCR、復(fù)雜圖表等細(xì)粒度理解任務(wù)上天然弱于連續(xù)特征模型。

LongCat-Next 是目前首個(gè)在純離散框架下,將上述細(xì)粒度視覺(jué)理解能力推至與專(zhuān)用連續(xù)模型相當(dāng)水平的統(tǒng)一多模態(tài)模型,與同等參數(shù)量專(zhuān)用視覺(jué)模型 Qwen3-VL-A3B 相比毫不遜色。



在圖像生成方面,其長(zhǎng)文本理解與文字渲染能力相較同類(lèi)統(tǒng)一模型優(yōu)勢(shì)顯著,整體生成質(zhì)量可與專(zhuān)用文生圖模型 Flux-dev 相抗衡。



在音頻方面,語(yǔ)音識(shí)別與理解能力超越了 Gemini 3.1 Flash-Lite preview、MiMo-Audio 等同量級(jí)模型。



LongCat-Next 還破解了視覺(jué)理解與生成之間的優(yōu)化沖突。

論文實(shí)驗(yàn)表明,在同等 token 預(yù)算下,理解與生成的聯(lián)合訓(xùn)練不僅沒(méi)有相互拖累,理解任務(wù)的訓(xùn)練信號(hào)反而對(duì)生成質(zhì)量有正向促進(jìn),這一結(jié)論與多數(shù)統(tǒng)一模型的實(shí)際經(jīng)驗(yàn)相悖。

當(dāng)所有模態(tài)都以離散 token 的形式在同一嵌入空間中共同訓(xùn)練后,模型內(nèi)部自發(fā)涌現(xiàn)出一種跨模態(tài)的語(yǔ)義交融現(xiàn)象,視覺(jué) token 與文本 token 在表示空間中形成交織分布。



  • 論文地址:https://github.com/meituan-longcat/LongCat-Next/blob/main/tech_report.pdf
  • GitHub:https://github.com/meituan-longcat/LongCat-Next
  • HuggingFace:https://huggingface.co/meituan-longcat/LongCat-Next
  • blog:https://longcat.chat/longcat-next/intro

下面,我們通過(guò)幾個(gè)具體 case 直觀感受下它的能力。

先睹為快,文圖音三模態(tài)初體驗(yàn)

先來(lái)試下它的視覺(jué)理解能力

我們上傳一張愛(ài)樂(lè)之城配色的插花圖片,讓 LongCat-Next 識(shí)別其中的植物,并介紹各自特征。



提示詞:圖片中的花束包含哪幾種植物,分別有什么特征?

模型準(zhǔn)確辨別出黃色多頭玫瑰、紫色洋桔梗、鼠尾草類(lèi)香草及配葉植物,并對(duì)各自顏色、形態(tài)給出較為細(xì)致描述,還主動(dòng)補(bǔ)充花束整體配色風(fēng)格的分析。



我們又以三座風(fēng)格各異的地標(biāo)建筑為素材,考察模型對(duì)國(guó)內(nèi)城市地標(biāo)的圖像識(shí)別能力。



提示詞:這三個(gè)地方分別是哪里?

LongCat-Next 準(zhǔn)確識(shí)別出北京「望京之眼」、廣州中銀大廈及南京青奧中心三處建筑,并對(duì)每座地標(biāo)建筑的背景信息有所掌握。

比如提到廣州中銀大廈的網(wǎng)絡(luò)外號(hào)「蟑螂大廈」及其獨(dú)特造型,以及南京青奧中心由扎哈?哈迪德設(shè)計(jì)等細(xì)節(jié)。



下面這道圖形推理題除了考察模型的圖像理解能力外,還涉及到抽象規(guī)律的歸納。



提示詞:Which option should be chosen for this question?

LongCat-Next 抓住其中門(mén)道,每幅圖形均由外框與內(nèi)部黑點(diǎn)兩個(gè)要素構(gòu)成,并通過(guò)多組數(shù)據(jù)橫向比對(duì),得出「外框邊數(shù) - 黑點(diǎn)個(gè)數(shù) = 2」這一隱藏規(guī)律,最終鎖定答案 B。



再看看圖像生成能力

LongCat-Next 生成的日出時(shí)分高山湖泊,無(wú)論構(gòu)圖還是光影過(guò)渡,已接近專(zhuān)業(yè)風(fēng)光攝影的質(zhì)感。



prompt: A crystal clear mountain lake reflecting snow-capped peaks at sunrise. Still water, mirror-like reflection, pink and gold sky, pine trees along the shore.

下面這個(gè) case 主要考察文字渲染能力。生成的馬克杯產(chǎn)品圖中,文字沒(méi)有變形或亂碼,整體呈現(xiàn)極簡(jiǎn)風(fēng)格。



prompt: A white mug on a wooden table with \"LongCat-Next\" printed on it in clean font. Simple background, morning light from a window, minimalist product photography.

LongCat-Next 生成的圣托里尼,色彩表現(xiàn)是最大亮點(diǎn),藍(lán)頂白墻、三角梅、落日構(gòu)成強(qiáng)烈且協(xié)調(diào)的撞色對(duì)比,很有氛圍感。



prompt: Santorini white buildings with blue domes overlooking the Aegean sea at sunset. Warm golden light, bougainvillea flowers, calm ocean, iconic Greek island view.

LongCat-Next 還支持任意分辨率輸出,即使是極端長(zhǎng)寬比構(gòu)圖需求,它同樣能穩(wěn)定生成。



視覺(jué)之外,LongCat-Next 同樣將音頻納入了統(tǒng)一的離散自回歸框架。

音頻理解能力能像處理文本一樣,對(duì)聲音信號(hào)做出準(zhǔn)確、連貫的響應(yīng),涵蓋語(yǔ)音內(nèi)容識(shí)別與復(fù)雜場(chǎng)景語(yǔ)義理解等。

比如用四川話(huà)問(wèn)它一道經(jīng)典邏輯謎題,LongCat-Next 沒(méi)有出現(xiàn)識(shí)別偏差或語(yǔ)義丟失,四川話(huà)的語(yǔ)音信號(hào)被準(zhǔn)確轉(zhuǎn)化為可推理的語(yǔ)義內(nèi)容,并順暢進(jìn)入后續(xù)邏輯分析流程。

這在一定程度上說(shuō)明,LongCat-Next 的音頻離散化表示具備相當(dāng)?shù)聂敯粜?,方言、口音等聲學(xué)變體并不會(huì)成為理解鏈路上的斷點(diǎn)。



給它一段環(huán)境錄音,它從持續(xù)、有節(jié)奏的「咔噠」聲與汽笛聲中,準(zhǔn)確判斷出錄制地點(diǎn)為火車(chē)站、地鐵站或者鐵路軌道附近。

由此可見(jiàn),LongCat-Next 可以綜合多個(gè)聲學(xué)線索完成場(chǎng)景級(jí)語(yǔ)義推斷。



它還能敏銳感知到話(huà)里話(huà)外的情緒。比如一段男聲音頻中,LongCat-Next 不僅聽(tīng)懂了字面內(nèi)容,還從提高的音量與急促的語(yǔ)速中,判斷出說(shuō)話(huà)者情緒激動(dòng)、帶有明顯怒意。



除了「聽(tīng)懂」音頻,LongCat-Next 還具備語(yǔ)音合成與聲音克隆能力

提供一段帶有濃重廣味的普通話(huà)作為參考音頻,讓它在保留說(shuō)話(huà)人音色特征的同時(shí),合成全新的目標(biāo)內(nèi)容。

合成音頻還原了說(shuō)話(huà)人的嗓音質(zhì)感,那股辨識(shí)度極高的粵腔普通話(huà)韻味也被完整保留。



切換到英文場(chǎng)景,同樣給出參考音頻,要求模型克隆音色并復(fù)述指定內(nèi)容。

LongCat-Next 準(zhǔn)確捕捉到說(shuō)話(huà)者的音色特征與口音習(xí)慣,輸出的合成語(yǔ)音在聽(tīng)感上與原聲高度貼近,目標(biāo)內(nèi)容的表達(dá)也清晰準(zhǔn)確。



當(dāng)「萬(wàn)物」都變成 Token

模型開(kāi)始真正統(tǒng)一世界

今天的大模型,在核心建模范式上,仍以「預(yù)測(cè)下一個(gè) token」為基礎(chǔ)。但問(wèn)題在于,這個(gè) token,長(zhǎng)期只屬于語(yǔ)言。LongCat-Next 將這一理念延伸至多模態(tài)領(lǐng)域,提出了離散原生自回歸(DiNA)框架

在該框架下,圖像和音頻等連續(xù)信號(hào)被轉(zhuǎn)化為與文本共享表示空間的離散 token。在統(tǒng)一 token 表示下,大幅減少了為不同模態(tài)設(shè)計(jì)專(zhuān)用架構(gòu)的需求。視覺(jué)理解與生成、音頻處理等任務(wù),在核心建模上被統(tǒng)一為自回歸預(yù)測(cè)過(guò)程。



通過(guò)成對(duì)的 tokenizer,將多模態(tài)能力擴(kuò)展到一種類(lèi)似語(yǔ)言建模的原生框架之中。

如何把高維視聽(tīng)信號(hào)無(wú)損變成 Token 并還原?

首先的問(wèn)題是,圖像真的能變成 token 嗎?

語(yǔ)言天然是離散的,但視覺(jué)不是。一張圖像,是高維、連續(xù)、信息密度極高的信號(hào),一旦壓縮成有限 token,很容易發(fā)生語(yǔ)義丟失(看不懂)、 細(xì)節(jié)丟失(畫(huà)不出來(lái))。

LongCat-Next 把這個(gè)問(wèn)題抽象成一個(gè)核心原則:語(yǔ)義完備性。也就是說(shuō),token 化之后,模型基于 token 做出的判斷,應(yīng)盡可能接近直接基于原始圖像的判斷。

為了將高維的視覺(jué)信號(hào)轉(zhuǎn)化為離散 token 且盡量減少信息損失,LongCat-Next 設(shè)計(jì)了名為dNaViT(Discrete Native Resolution Vision Transformer)的視覺(jué) Tokenizer 。

該 Tokenizer 的核心包含三個(gè)關(guān)鍵部分:

SAE(語(yǔ)義對(duì)齊編碼器):模型采用經(jīng)過(guò)大規(guī)模圖文對(duì)齊訓(xùn)練的視覺(jué)編碼器作為預(yù)量化特征的基礎(chǔ)。這類(lèi)編碼器不僅能夠捕獲高層語(yǔ)義概念,同時(shí)也保留了細(xì)粒度的視覺(jué)屬性,為后續(xù)離散建模提供語(yǔ)義基礎(chǔ)。

RVQ 壓縮(殘差向量量化):為了將連續(xù)特征映射到有限的離散代碼本中,模型引入多層級(jí)聯(lián)的 RVQ 機(jī)制。它通過(guò)逐層量化殘差誤差的方式不斷逼近原始表示,從而在壓縮率與信息保真之間取得更好的平衡。

dNaViT 原生分辨率:傳統(tǒng)視覺(jué)模型通常依賴(lài)固定分辨率輸入,這在縮放或裁剪過(guò)程中不可避免地帶來(lái)信息損失。dNaViT 則直接在原生分辨率下處理任意長(zhǎng)寬比圖像,將視覺(jué)信號(hào)轉(zhuǎn)化為變長(zhǎng) token 序列,從而最大程度保留細(xì)節(jié)信息。



在將圖像轉(zhuǎn)換為 token 的過(guò)程中,研究人員觀察到一個(gè)內(nèi)在的信息保留現(xiàn)象:即使視覺(jué)編碼器沒(méi)有接受像素級(jí)重建訓(xùn)練,只要其結(jié)構(gòu)中包含殘差連接,就會(huì)自然保留一條低層信號(hào)傳播路徑。

換句話(huà)說(shuō),殘差,就是保住珍貴像素細(xì)節(jié)的「保鮮通道」

在這種結(jié)構(gòu)下,淺層的像素級(jí)與結(jié)構(gòu)細(xì)節(jié)可以通過(guò)恒等映射直接傳遞到深層,不會(huì)被高層語(yǔ)義完全覆蓋。這也意味著,在離散化之前,模型內(nèi)部已經(jīng)隱式保留了部分用于圖像重建的底層信息。



基于不同凍結(jié)視覺(jué)編碼器的視覺(jué)重建,使用輕量級(jí)像素解碼器訓(xùn)練。結(jié)果表明,殘差連接固有地保留了用于低級(jí)信號(hào)傳播的潛在路徑。

那么,在生成階段,模型如何將離散 token 重新還原為圖像?

首先,這些離散代碼嵌入會(huì)被送入一個(gè)基于視覺(jué) Transformer(ViT)的像素解碼器中,用于恢復(fù)圖像的空間布局與對(duì)象結(jié)構(gòu)等基礎(chǔ)內(nèi)容。隨后,模型引入一個(gè)基于流匹配訓(xùn)練的圖像細(xì)化器,在結(jié)構(gòu)結(jié)果之上進(jìn)一步補(bǔ)充紋理與高頻細(xì)節(jié),最終生成高質(zhì)量圖像。

可以理解為:第一階段負(fù)責(zé)「還原結(jié)構(gòu)」,第二階段負(fù)責(zé)「提升觀感」。



dNaViT 的 tokenizer 與 de-tokenizer 訓(xùn)練流程:通過(guò)殘差向量量化(RVQ)將圖像編碼為離散 token,并通過(guò)像素解碼器在任意分辨率下將其解碼回圖像空間。

聲音同樣被納入統(tǒng)一的離散建模體系中。模型首先利用Whisper 編碼器提取音頻的語(yǔ)義與副語(yǔ)言特征(如語(yǔ)氣、情感等),隨后通過(guò)下采樣與 RVQ 壓縮為離散音頻 token。

在解碼端,模型先恢復(fù)粗略的梅爾頻譜,再通過(guò)基于流匹配的模型進(jìn)行細(xì)化,從而顯著提升語(yǔ)音合成的聲學(xué)保真度與音質(zhì)表現(xiàn)。



通過(guò)上述設(shè)計(jì),LongCat-Next 最終證實(shí)了一個(gè)重要的觀點(diǎn):信息的豐富度并不必然依賴(lài)于連續(xù)的空間

團(tuán)隊(duì)在后續(xù)的評(píng)測(cè)中,用一系列的理解任務(wù)指標(biāo)直接證明了這一點(diǎn):即使是一張包含密集圖表、海量文字的極其復(fù)雜的圖像(例如在 OmniDocBench 等重度文檔問(wèn)答任務(wù)中),在被強(qiáng)行壓縮成有限的離散 token 后,依然能夠精準(zhǔn)回答關(guān)于該圖像的所有 QA、Caption 以及邏輯推理任務(wù) 。

這意味著,在跨越模態(tài)的轉(zhuǎn)換中,圖像的核心信息并沒(méi)有消亡。這堆看似有限且抽象的離散 ID,實(shí)質(zhì)上已經(jīng)成為了高維、連續(xù)視覺(jué)信號(hào)的一種極度緊湊且語(yǔ)義完備的等價(jià)表示 。它們不僅成功鎖住了視覺(jué)世界的骨相與細(xì)節(jié),更變成了語(yǔ)言模型能夠毫無(wú)障礙、直接閱讀的「通用母語(yǔ)」。



LongCat-Next 在復(fù)雜視覺(jué)理解任務(wù)中的表現(xiàn)。即使面對(duì)排版密集的報(bào)紙、復(fù)雜的幾何圖表與邏輯推理題,轉(zhuǎn)化為離散 token 后的模型依然能夠精準(zhǔn)提取信息并進(jìn)行深度邏輯推理,證明了該離散表示的語(yǔ)義完備性。

另外,對(duì)比近期的一些架構(gòu)演進(jìn),「殘差機(jī)制」在不同場(chǎng)景下呈現(xiàn)出截然不同的作用。

在 LongCat 的視覺(jué)編碼階段,殘差更像是一條「保留通道」。由于網(wǎng)絡(luò)相對(duì)較淺,且目標(biāo)是盡可能無(wú)損地保留原始像素信息,殘差的恒等映射特性能夠有效防止底層細(xì)節(jié)被高層語(yǔ)義覆蓋。

而在 Kimi 團(tuán)隊(duì)最近大火的 Attention Residuals 工作中,當(dāng)語(yǔ)言模型深度達(dá)到上百層時(shí),傳統(tǒng)殘差累加反而會(huì)演變?yōu)椤感畔⑾♂尅埂T缙趯有畔⒃趥鞑ブ兄饾u衰減,同時(shí)隱狀態(tài)不斷擴(kuò)張,帶來(lái)穩(wěn)定性問(wèn)題。因此,該工作引入注意力機(jī)制對(duì)殘差信息進(jìn)行選擇性傳遞。

LLM 的「大腦」如何處理信息?

在 DiNA 框架下,所有輸入(無(wú)論是文本、圖像還是語(yǔ)音)在進(jìn)入模型之前,都會(huì)被轉(zhuǎn)換為統(tǒng)一格式的離散 token。隨后,它們被送入同一個(gè)解碼器架構(gòu)中,由一個(gè)模態(tài)無(wú)關(guān)的混合專(zhuān)家網(wǎng)絡(luò)(Modality-Agnostic MoE)統(tǒng)一處理

這意味著,傳統(tǒng)多模態(tài)模型中視覺(jué)分支、語(yǔ)音分支、跨模態(tài)對(duì)齊模塊等常見(jiàn)的結(jié)構(gòu),在這里被徹底取消。主干路徑被統(tǒng)一為:token → 共享嵌入 → 自回歸建模,但在輸入與輸出端仍保留模態(tài)相關(guān)組件。

換句話(huà)說(shuō),大模型的「多模態(tài)能力」,不再來(lái)自結(jié)構(gòu)拼接,而是來(lái)自表示統(tǒng)一

理解與生成并不沖突

傳統(tǒng)的觀點(diǎn)認(rèn)為,理解和生成是兩個(gè)相互競(jìng)爭(zhēng)的目標(biāo) 。但在 LongCat-Next 中,它們被統(tǒng)一為同一自回歸預(yù)測(cè)過(guò)程中的兩種表現(xiàn)形式。實(shí)驗(yàn)證明,將視覺(jué)理解與生成置于統(tǒng)一的自回歸目標(biāo)下進(jìn)行聯(lián)合訓(xùn)練,兩者并未產(chǎn)生容量沖突

在同等 token 數(shù)量的訓(xùn)練下,統(tǒng)一模型(Unified model)的損失與純理解模型(Pure-Und.)的差距微乎其微(僅相差 0.006) ,同時(shí)其損失甚至比純生成模型(Pure-Gen.)還要低 0.02 。



這意味著,生成任務(wù)不會(huì)削弱理解能力,反而理解任務(wù)的引入會(huì)進(jìn)一步提升生成表現(xiàn)。

為了保證生成語(yǔ)音的邏輯連貫性,模型借鑒了內(nèi)部文本引導(dǎo)的思想,將文本作為語(yǔ)音生成過(guò)程的一部分進(jìn)行顯式建模。

串行生成:模型先生成引導(dǎo)性的文本片段,再生成對(duì)應(yīng)音頻片段。這一方式在每一步只需預(yù)測(cè)單一模態(tài) token,有效避免模態(tài)間干擾,從而保證語(yǔ)義準(zhǔn)確性。

并行生成:模型在每一步同時(shí)生成文本與音頻 token,并通過(guò)延遲首個(gè)音頻 token 的生成步數(shù),實(shí)現(xiàn)與文本的對(duì)齊。該策略顯著降低響應(yīng)延遲,更適用于實(shí)時(shí)對(duì)話(huà)場(chǎng)景。

為了統(tǒng)一這兩種策略,團(tuán)隊(duì)提出了一種基于隨機(jī)延遲的訓(xùn)練范式:在訓(xùn)練過(guò)程中隨機(jī)采樣文本與音頻的對(duì)齊延遲,使模型學(xué)習(xí)更魯棒的跨模態(tài)對(duì)齊能力。

實(shí)驗(yàn)顯示,在該訓(xùn)練方式下,并行生成在效率與語(yǔ)義準(zhǔn)確度上均可達(dá)到與串行生成相當(dāng)?shù)乃健?/p>



兩種具有內(nèi)部語(yǔ)言引導(dǎo)的語(yǔ)音生成策略。 用戶(hù)的輸入音頻被視為純音頻模態(tài),而由 LongCat-Next(或助手)生成的輸出則被視為文本引導(dǎo)的音頻模態(tài)。為了指示模態(tài)轉(zhuǎn)換并促進(jìn)分段對(duì)齊,團(tuán)隊(duì)引入了三個(gè)特殊標(biāo)記:AS(Audio Start,音頻開(kāi)始)、AE(Audio End,音頻結(jié)束) 和 TE(Text End,文本結(jié)束),分別表示音頻片段的起始和結(jié)束,以及文本片段的結(jié)束。

基礎(chǔ)設(shè)施保障:V-Half 流水線調(diào)度

在多模態(tài)模型中,計(jì)算負(fù)載本質(zhì)上是異構(gòu)的 。圖、音、文在 Embedding 層和特定模態(tài)損失模塊(如深度 Transformer)的計(jì)算耗時(shí)存在顯著差異,且會(huì)隨每條樣本中模態(tài) token 分布的不同而動(dòng)態(tài)波動(dòng) 。傳統(tǒng)的線性流水線并行會(huì)導(dǎo)致嚴(yán)重的級(jí)間負(fù)載不均、高昂的點(diǎn)對(duì)點(diǎn)通信開(kāi)銷(xiāo)以及大量的算力氣泡 。

為解決這一系統(tǒng)瓶頸,團(tuán)隊(duì)采用了基于V-Half的流水線調(diào)度策略 。該策略通過(guò)「V 型調(diào)度」,將計(jì)算流水線的第一個(gè)階段(Embedding 層)和最后一個(gè)階段(模態(tài)特定的損失模塊)「折疊」并共置于同一個(gè)物理設(shè)備上 。



這種物理層面的共置設(shè)計(jì),不僅通過(guò)吸收動(dòng)態(tài)計(jì)算開(kāi)銷(xiāo)有效消除了流水線氣泡、實(shí)現(xiàn)了近乎完美的負(fù)載均衡 ,還使得這兩端模塊之間的前向激活和反向梯度傳遞可以通過(guò)零拷貝的設(shè)備內(nèi)內(nèi)存訪問(wèn)完成,顯著減少了跨階段通信開(kāi)銷(xiāo)。

實(shí)驗(yàn)細(xì)節(jié)與未來(lái)工作

在視覺(jué)生成數(shù)據(jù)上,為避免模型陷入同質(zhì)化審美(即過(guò)度偏向高頻的「AI 風(fēng)格」),團(tuán)隊(duì)引入了基于聚類(lèi)的重平衡策略。通過(guò)對(duì)高密度集群進(jìn)行去重,并提高稀疏長(zhǎng)尾概念(如罕見(jiàn)動(dòng)植物、專(zhuān)業(yè)儀器)的采樣權(quán)重,從數(shù)據(jù)源頭上保障了生成內(nèi)容的多樣性。



左圖: 數(shù)據(jù)整理與訓(xùn)練流程包含三個(gè)階段:(I)預(yù)訓(xùn)練:通過(guò)過(guò)濾和重新描述實(shí)現(xiàn)基本對(duì)齊;(II)中期訓(xùn)練:通過(guò)語(yǔ)義聚類(lèi)和重平衡解決數(shù)據(jù)不平衡問(wèn)題;(III)監(jiān)督微調(diào):基于高質(zhì)量、遵循指令的數(shù)據(jù),提升美學(xué)質(zhì)量和文本渲染效果。右圖: 圖像來(lái)源的分布情況。

將多模態(tài)數(shù)據(jù)離散化為 token 的另一項(xiàng)技術(shù)紅利,體現(xiàn)在強(qiáng)化學(xué)習(xí)階段。離散視覺(jué)潛在空間天然可以作為動(dòng)作空間,使模型能夠直接套用語(yǔ)言模型成熟的 RL 算法(如 GRPO)來(lái)提升畫(huà)圖和理解能力,避免了連續(xù)空間中復(fù)雜的采樣與映射過(guò)程。



在針對(duì)圖像理解進(jìn)行 RL 訓(xùn)練時(shí),團(tuán)隊(duì)遭遇了嚴(yán)重的「熵爆炸」問(wèn)題。當(dāng)極少數(shù) token 存在訓(xùn)練 - 推理概率失配時(shí),微小的亂碼噪聲會(huì)在長(zhǎng)序列生成中累積放大,導(dǎo)致輸出崩潰。團(tuán)隊(duì)最終通過(guò)設(shè)計(jì)基于熵和概率差的「序列級(jí)過(guò)濾機(jī)制」,在梯度更新前精準(zhǔn)丟棄包含致命錯(cuò)亂的樣本序列,成功穩(wěn)定了 RL 的訓(xùn)練過(guò)程。

整體來(lái)看,LongCat-Next 的后續(xù)工作,仍將圍繞兩個(gè)核心問(wèn)題展開(kāi):一是如何在更高壓縮率下維持跨模態(tài)語(yǔ)義完備性;二是如何在統(tǒng)一 token 空間中進(jìn)一步提升長(zhǎng)序列與復(fù)雜任務(wù)下的穩(wěn)定性與可控性。

結(jié)語(yǔ)

論文在最后探討了一個(gè)非常有趣的觀點(diǎn):「柏拉圖表征假說(shuō)」。在柏拉圖的哲學(xué)理念中,現(xiàn)實(shí)世界的萬(wàn)事萬(wàn)物,都只是完美「理念」的影子。映射到深度學(xué)習(xí)中,文本、圖像和聲音,本質(zhì)上也是對(duì)同一個(gè)客觀現(xiàn)實(shí)的不同表達(dá)途徑。

在傳統(tǒng)的拼接式模型中,圖、音、文往往各自為陣,在特征空間里形成割裂。但當(dāng)它們被置于 DiNA 這種完全原生的離散框架下時(shí),實(shí)驗(yàn)觀測(cè)到了一個(gè)美妙的現(xiàn)象:視覺(jué)和文本 token 的特征分布自然地交織在了一起。

它們不再是需要被強(qiáng)行對(duì)齊的異類(lèi),而是變成了表達(dá)同一個(gè)底層概念的「世界語(yǔ)言」。無(wú)論是屏幕上的像素,還是麥克風(fēng)里的聲波,最終都在模型的高維語(yǔ)義空間中,化為了同一種思維的漣漪。

客觀地看,目前的探索仍是一個(gè)起點(diǎn)。正如團(tuán)隊(duì)在未來(lái)工作中所指出的,當(dāng)前的評(píng)估主要通過(guò)圖像到文本(理解)和文本到圖像(生成)等經(jīng)典任務(wù),成功驗(yàn)證了這種離散原生架構(gòu)的可行性與語(yǔ)義完整性。然而,距離真正意義上的通用多模態(tài)智能仍有距離。

團(tuán)隊(duì)指出,未來(lái)的原生多模態(tài)系統(tǒng)絕對(duì)不應(yīng)局限于這些傳統(tǒng)的單一方向 。理所當(dāng)然的下一步,是必須走向更復(fù)雜的「任意到任意」的交織推理 。這意味著未來(lái)的輸入和輸出將是文本、視覺(jué)和音頻的任意組合 ,甚至涵蓋長(zhǎng)上下文的多模態(tài)交互、多輪視覺(jué)對(duì)話(huà),以及不同模態(tài)之間動(dòng)態(tài)相互制約的組合生成 。只有實(shí)現(xiàn)這種靈活、統(tǒng)一的交互,模型才能真正從「特定任務(wù)的專(zhuān)家」進(jìn)化為「通用多模態(tài)智能」 。

文中視頻鏈接:https://mp.weixin.qq.com/s/IzzNLPI9L2tSRvOXniOJ2Q

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
CBA男籃最新動(dòng)態(tài)!遼寧vs浙江,賽前帶來(lái)遼寧隊(duì)趙繼偉、新大外援、威爾斯以及浙江男籃最新消息

CBA男籃最新動(dòng)態(tài)!遼寧vs浙江,賽前帶來(lái)遼寧隊(duì)趙繼偉、新大外援、威爾斯以及浙江男籃最新消息

凱豐侃球
2026-04-03 00:12:56
地鐵直達(dá)!北京28億中醫(yī)新院區(qū),2029年建成,看病不用跑遠(yuǎn)路

地鐵直達(dá)!北京28億中醫(yī)新院區(qū),2029年建成,看病不用跑遠(yuǎn)路

水泥土的搞笑
2026-04-03 00:39:39
檢查一下:臥室里有“這7樣”東西,盡快拿走!別給自己找麻煩

檢查一下:臥室里有“這7樣”東西,盡快拿走!別給自己找麻煩

摳搜俠
2026-04-02 16:01:42
名場(chǎng)面!特朗普突襲最高法想立威,反被法官一句話(huà)回懟:變臉離席

名場(chǎng)面!特朗普突襲最高法想立威,反被法官一句話(huà)回懟:變臉離席

小豹子找食物
2026-04-02 17:44:44
李嘉誠(chéng)貼身風(fēng)水師:因泄露天機(jī)遭天譴,死后為鬼算命,瞧不上許老板

李嘉誠(chéng)貼身風(fēng)水師:因泄露天機(jī)遭天譴,死后為鬼算命,瞧不上許老板

可兒故事匯
2024-08-20 23:50:14
8天已到,高市拒絕道歉!外交部宣布動(dòng)手,日本有人財(cái)產(chǎn)全被凍結(jié)

8天已到,高市拒絕道歉!外交部宣布動(dòng)手,日本有人財(cái)產(chǎn)全被凍結(jié)

書(shū)紀(jì)文譚
2026-04-02 13:22:34
美以還未撤軍,阿聯(lián)酋將對(duì)伊朗宣戰(zhàn),話(huà)音剛落,中巴發(fā)表聯(lián)合聲明

美以還未撤軍,阿聯(lián)酋將對(duì)伊朗宣戰(zhàn),話(huà)音剛落,中巴發(fā)表聯(lián)合聲明

烈史
2026-04-01 22:50:25
76人153-131大勝奇才!喬治創(chuàng)31年紀(jì)錄,不愧是年薪5100萬(wàn)球員

76人153-131大勝奇才!喬治創(chuàng)31年紀(jì)錄,不愧是年薪5100萬(wàn)球員

籃球大視野
2026-04-02 09:46:05
針對(duì)演員AI換臉、聲紋復(fù)刻,行業(yè)協(xié)會(huì)重磅發(fā)聲!

針對(duì)演員AI換臉、聲紋復(fù)刻,行業(yè)協(xié)會(huì)重磅發(fā)聲!

證券時(shí)報(bào)e公司
2026-04-02 19:31:01
美準(zhǔn)備派地面部隊(duì)打伊朗?中方嚴(yán)肅警告:絕不允許將戰(zhàn)亂引入亞太

美準(zhǔn)備派地面部隊(duì)打伊朗?中方嚴(yán)肅警告:絕不允許將戰(zhàn)亂引入亞太

興史興談
2026-04-01 20:14:06
連續(xù)4個(gè)月?lián)p失人數(shù)超過(guò)動(dòng)員人數(shù),7.6萬(wàn)俄高校學(xué)生或加入俄軍

連續(xù)4個(gè)月?lián)p失人數(shù)超過(guò)動(dòng)員人數(shù),7.6萬(wàn)俄高校學(xué)生或加入俄軍

山河路口
2026-04-01 11:38:12
粉底液將軍事件再升級(jí)!網(wǎng)友懷疑反華勢(shì)力入侵,張凌赫恐被當(dāng)炮灰

粉底液將軍事件再升級(jí)!網(wǎng)友懷疑反華勢(shì)力入侵,張凌赫恐被當(dāng)炮灰

千言?shī)蕵?lè)記
2026-04-02 12:32:24
特朗普:美國(guó)聯(lián)邦政府不能承擔(dān)育兒醫(yī)保費(fèi)用,因?yàn)槊绹?guó)正在打仗,并建議州政府提高稅率

特朗普:美國(guó)聯(lián)邦政府不能承擔(dān)育兒醫(yī)保費(fèi)用,因?yàn)槊绹?guó)正在打仗,并建議州政府提高稅率

大象新聞
2026-04-02 21:53:07
中年群體猝死事件刷屏!網(wǎng)友建議:別再裸睡,萬(wàn)一猝死太不體面

中年群體猝死事件刷屏!網(wǎng)友建議:別再裸睡,萬(wàn)一猝死太不體面

火山詩(shī)話(huà)
2026-04-01 13:23:12
普京拍板為伊朗兜底?特朗普通告全球,法國(guó)上將:中國(guó)遲早也要?jiǎng)?>
    </a>
        <h3>
      <a href=李健政觀察
2026-04-02 12:18:04
美媒:哈馬斯的5000枚火箭彈,至少打出了中國(guó)5年的戰(zhàn)略緩沖期

美媒:哈馬斯的5000枚火箭彈,至少打出了中國(guó)5年的戰(zhàn)略緩沖期

軒逸阿II
2026-03-29 12:25:26
博主:據(jù)傳王霄在遼寧鐵人辦公室上了一天班之后已經(jīng)離任

博主:據(jù)傳王霄在遼寧鐵人辦公室上了一天班之后已經(jīng)離任

懂球帝
2026-04-02 17:39:13
美國(guó)遮羞布被扯下?馬斯克:沒(méi)有中國(guó),誰(shuí)也別想造出電動(dòng)車(chē)!

美國(guó)遮羞布被扯下?馬斯克:沒(méi)有中國(guó),誰(shuí)也別想造出電動(dòng)車(chē)!

混沌錄
2026-04-02 16:18:31
整容臉千萬(wàn)別演年代劇!看冬去春來(lái)里章若楠和林允對(duì)比就全明白了

整容臉千萬(wàn)別演年代劇!看冬去春來(lái)里章若楠和林允對(duì)比就全明白了

TVB的四小花
2026-04-02 14:56:47
中央網(wǎng)信辦、工業(yè)和信息化部、公安部關(guān)于開(kāi)展2026年個(gè)人信息保護(hù)系列專(zhuān)項(xiàng)行動(dòng)的公告

中央網(wǎng)信辦、工業(yè)和信息化部、公安部關(guān)于開(kāi)展2026年個(gè)人信息保護(hù)系列專(zhuān)項(xiàng)行動(dòng)的公告

小易正能量
2026-04-02 20:44:14
2026-04-03 04:44:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專(zhuān)業(yè)的人工智能媒體
12668文章數(shù) 142605關(guān)注度
往期回顧 全部

科技要聞

三年虧20億,最新估值58億,Xreal沖刺港股

頭條要聞

伊朗稱(chēng)擊中敵軍先進(jìn)戰(zhàn)機(jī) 已墜入波斯灣

頭條要聞

伊朗稱(chēng)擊中敵軍先進(jìn)戰(zhàn)機(jī) 已墜入波斯灣

體育要聞

邵佳一的改革,從讓每個(gè)人踢舒服開(kāi)始

娛樂(lè)要聞

《浪姐》人氣榜出爐!曾沛慈斷層第一

財(cái)經(jīng)要聞

市場(chǎng)被特朗普一句話(huà)打醒 滯脹交易回歸

汽車(chē)要聞

軸距2米7/后排能蹺腿 試駕后驅(qū)小車(chē)QQ3 EV

態(tài)度原創(chuàng)

本地
旅游
游戲
時(shí)尚
公開(kāi)課

本地新聞

從學(xué)徒到世界冠軍,為什么說(shuō)張雪的底氣在重慶?

旅游要聞

文明旅游 | 清明出行,讓文明與安全一路相伴!

上線9周年后,《PUBG》新地圖把“大逃殺”老本行扔了?

成熟女性衣服別越買(mǎi)越多,準(zhǔn)備好襯衫和西裝,得體大方又高級(jí)

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版