国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

百萬 Token 也能無損壓縮?C3 模型用“級聯(lián)壓縮”重新定義長上下文挑戰(zhàn)

0
分享至


【編者按】百萬級別 Token 的輸入,正在成為大型語言模型(LLMs)長上下文任務(wù)中的計算與內(nèi)存“噩夢”。DeepSeekOCR 憑借“上下文光學(xué)壓縮”技術(shù)實現(xiàn)了 10 倍 Token 壓縮率,引發(fā)全網(wǎng)熱議。但透過現(xiàn)象看本質(zhì),高壓縮率的秘密,真的在于“圖像化”嗎?

作者 | 劉帆帆

出品丨作者投稿

DeepSeekOCR 的成功讓許多人誤以為“視覺編碼”是壓縮的關(guān)鍵。然而,研究團(tuán)隊經(jīng)過深入分析發(fā)現(xiàn),高壓縮率的核心其實源自 Latent Tokens(潛在 Token)本身——這是一種比離散文本 Token 更高效、密度更高的信息載體。

基于這一洞察,作者所在的研究團(tuán)隊提出了一種直擊本質(zhì)的全新路徑:Context Cascade Compression (C3,上下文級聯(lián)壓縮)。

將兩種路徑進(jìn)行對比:

  • DeepSeek OCR 路徑: 文本 → 圖像 → 視覺 Token → 語言模型(引入了布局、噪點、視覺編碼器等無關(guān)干擾)

  • C3 路徑: 文本 → 文本 Latent Tokens → 語言模型(純粹、無損、直接)

具體來說,一個小型 LLM 作為第一級,通過將長上下文壓縮成一組潛在 token(例如,長度為 32 或 64),實現(xiàn)高比例的文本 token 到潛在 token 的壓縮。 一個大型 LLM 作為第二級,然后對這個壓縮的上下文執(zhí)行解碼任務(wù)。

這一設(shè)計也驗證了近期熱門論文《LANGUAGE MODELS ARE INJECTIVE AND HENCE INVERTIBLE》中關(guān)于「LLM 本質(zhì)是無損壓縮」的論斷。

實驗表明,在 20 倍壓縮比(文本 token 數(shù)量是潛在 token 數(shù)量的 20 倍)下,C3 實現(xiàn)了 98% 的解碼準(zhǔn)確率,而 DeepSeek OCR 大約為60%。當(dāng)我們進(jìn)一步將壓縮比增加到 40 倍時,準(zhǔn)確率仍保持在約 93%。這表明在上下文壓縮領(lǐng)域,C3 壓縮比光學(xué)字符壓縮展示了更優(yōu)越的性能和可行性。

目前模型與代碼現(xiàn)已開源:

  • 原文:https://arxiv.org/pdf/2511.15244

  • 代碼:https://github.com/liufanfanlff/C3-Context-Cascade-Compression

  • 模型:https://huggingface.co/liufanfanlff/C3-Context-Cascade-Compression


架構(gòu)

在介紹 C3 之前,先帶大家來了解一下 DeepSeek-OCR 的工作原理。DeepSeek-OCR 采用了一種創(chuàng)新的"視覺壓縮"思路,這種方法的優(yōu)勢在于利用了視覺編碼器強(qiáng)大的特征提取能力,但也面臨著圖像布局復(fù)雜性、低分辨率下的模糊等固有限制。C3 提出了一個更直接的壓縮思路:跳過視覺中介,沒有中間商賺差價,直接在文本域進(jìn)行壓縮。其核心架構(gòu)包括:

1.雙 LLM 級聯(lián)設(shè)計

  • 小型 LLM(算力消耗低)作為壓縮編碼器,壓縮上下文信息。

  • 大型 LLM(推理生成能力強(qiáng))作為解碼器執(zhí)行下游任務(wù)。

2.壓縮機(jī)制

  • 引入可學(xué)習(xí)的"上下文查詢"(Context Query)嵌入

  • 將長文本壓縮為固定長度的潛在token(如32或64個)。

  • 完全保留預(yù)訓(xùn)練 LLM 的語言壓縮能力



性能表現(xiàn)

在 Fox 基準(zhǔn)測試中,C3 展現(xiàn)出顯著優(yōu)勢:

  • 在約 20 倍壓縮時,C3 保持 98.4% 精度,而D eepSeek-OCR 降至59.1%

  • 即使在極限的 40 倍壓縮率下(32 個潛在 token),C3 仍能維持 93% 以上的重建精度

獨特的"遺忘模式":更接近人類記憶


研究還發(fā)現(xiàn)了 C3 的一個有趣特性:當(dāng)壓縮率過高導(dǎo)致信息損失時,錯誤往往集中在文本末尾,呈現(xiàn)序列性信息衰減。這與光學(xué)壓縮方法的"全局模糊"不同,反而更類似人類記憶的漸進(jìn)式遺忘過程。

這種特性使得 C3 在實際應(yīng)用中更具可預(yù)測性——重要信息可以優(yōu)先放置在文本前部,確保關(guān)鍵內(nèi)容的完整保留。

測試


無論是在長英文文本還是中文古文上均做到了近乎完美的壓縮還原

甚至對于 LLM 一直難以處理的亂序文本也能精準(zhǔn)還原


應(yīng)用前景

1. 超長上下文處理:C3 可作為現(xiàn)有 LLM 的"前端壓縮器",將百萬級 token 的輸入(如整本書籍、大型代碼庫)壓縮到可處理范圍,降低計算成本。

2. 多模態(tài):級連輕量級 VLM 和 LLM,輕量級 VLM 作為視覺 encoder 進(jìn)行信息壓縮,處理視覺信息豐富的長文檔等。

3. 下一代模型的基礎(chǔ)組件 :C3 的編碼-解碼架構(gòu)可直接應(yīng)用于擴(kuò)散語言模型和潛在自回歸模型,將可變長度文本轉(zhuǎn)換為固定長度潛在表示。

這是一個在有限的人力、算力與數(shù)據(jù)背景下誕生的“小而美”項目。

目前 C3 的代碼與權(quán)重開源,希望開源社區(qū)的研究者們能接過這一棒,激發(fā)出C3 的巨大潛能。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
赫魯曉夫:斯大林出賣了高崗,導(dǎo)致蘇聯(lián)失去了中國情報的寶貴來源

赫魯曉夫:斯大林出賣了高崗,導(dǎo)致蘇聯(lián)失去了中國情報的寶貴來源

南書房
2025-07-04 15:35:03
中國是如何擁有殲20的?美國五角大樓:中國瞞了全世界!

中國是如何擁有殲20的?美國五角大樓:中國瞞了全世界!

桑啟紅原
2026-01-05 12:49:57
40年國軍軍長投日,麾下連長選擇投奔八路軍,10年后連長家喻戶曉

40年國軍軍長投日,麾下連長選擇投奔八路軍,10年后連長家喻戶曉

浩渺青史
2026-01-05 03:12:24
東莞20年:親眼目睹工廠女工的性生活,她們的孤獨壓抑和肆意歡歌

東莞20年:親眼目睹工廠女工的性生活,她們的孤獨壓抑和肆意歡歌

農(nóng)村情感故事
2025-04-06 20:07:35
海南一空姐被窮打工仔追求,婚后一個月,她才得知丈夫真實身份

海南一空姐被窮打工仔追求,婚后一個月,她才得知丈夫真實身份

小月文史
2024-11-19 21:11:58
或?qū)⒋钶dV8引擎 奧迪Q9將于2026年發(fā)布

或?qū)⒋钶dV8引擎 奧迪Q9將于2026年發(fā)布

車質(zhì)網(wǎng)
2026-01-05 09:27:15
認(rèn)知的4大境界:達(dá)到第3大層次就是開悟,你將不再有精神內(nèi)耗

認(rèn)知的4大境界:達(dá)到第3大層次就是開悟,你將不再有精神內(nèi)耗

失語者云驤
2024-09-13 19:49:11
2007年,傅冬菊在北京醫(yī)院離世,作為推動北平和平解放的功臣,她卻曾被多次催促繳納房款

2007年,傅冬菊在北京醫(yī)院離世,作為推動北平和平解放的功臣,她卻曾被多次催促繳納房款

寄史言志
2026-01-02 19:54:08
從120斤瘦猴到肌肉巨獸,李維剛到底對這張臉做了什么?

從120斤瘦猴到肌肉巨獸,李維剛到底對這張臉做了什么?

東方不敗然多多
2025-12-25 13:11:43
這一夜,70歲米雪秒了78歲的汪明荃,才懂穿著得體的含金量有多高

這一夜,70歲米雪秒了78歲的汪明荃,才懂穿著得體的含金量有多高

洲洲影視娛評
2026-01-05 12:41:30
入粵始祖,后裔2700萬,客家八大姓氏之一,認(rèn)祖歸宗憑一首詩

入粵始祖,后裔2700萬,客家八大姓氏之一,認(rèn)祖歸宗憑一首詩

銘記歷史呀
2026-01-05 03:24:58
南京將適時開展南京大勝關(guān)大橋差異化收費研究

南京將適時開展南京大勝關(guān)大橋差異化收費研究

現(xiàn)代快報
2026-01-04 23:02:12
山東兩地迎來新任區(qū)委書記

山東兩地迎來新任區(qū)委書記

濱州日報
2026-01-05 09:42:18
著名脊柱外科專家、院士候選人,被官宣雙開!

著名脊柱外科專家、院士候選人,被官宣雙開!

梅斯醫(yī)學(xué)
2026-01-05 07:54:59
最高降4000元,小米正式官宣:1月5日,全品支持國補(bǔ)!

最高降4000元,小米正式官宣:1月5日,全品支持國補(bǔ)!

科技堡壘
2026-01-05 11:49:57
符合預(yù)斷,川普戰(zhàn)略第二步開始:武管美洲、格陵蘭、顛覆神權(quán)

符合預(yù)斷,川普戰(zhàn)略第二步開始:武管美洲、格陵蘭、顛覆神權(quán)

邵旭峰域
2026-01-04 11:26:35
鐵飯碗碎了!遼寧公立二甲醫(yī)院正式歇業(yè),行業(yè)凜冬

鐵飯碗碎了!遼寧公立二甲醫(yī)院正式歇業(yè),行業(yè)凜冬

王曉愛體彩
2026-01-05 07:29:03
隨著太陽絕殺雷霆 掘金翻車,湖人逆轉(zhuǎn)灰熊,NBA西部最新排名出爐

隨著太陽絕殺雷霆 掘金翻車,湖人逆轉(zhuǎn)灰熊,NBA西部最新排名出爐

董老師看競技
2026-01-05 13:47:07
官方:上海海港中場徐新離隊,轉(zhuǎn)會加盟云南玉昆

官方:上海海港中場徐新離隊,轉(zhuǎn)會加盟云南玉昆

懂球帝
2026-01-05 14:19:20
王祖賢參加中醫(yī)艾灸會,素顏照片曝光翻車:臉部饅化、虎背熊腰

王祖賢參加中醫(yī)艾灸會,素顏照片曝光翻車:臉部饅化、虎背熊腰

小徐講八卦
2026-01-05 08:05:06
2026-01-05 15:16:49
CSDN incentive-icons
CSDN
成就一億技術(shù)人
26230文章數(shù) 242208關(guān)注度
往期回顧 全部

科技要聞

雷軍新年首播:確認(rèn)汽車業(yè)務(wù)降速

頭條要聞

媒體:美國捉拿馬杜羅后 多位專家示警賴清德

頭條要聞

媒體:美國捉拿馬杜羅后 多位專家示警賴清德

體育要聞

女子世界第一,9年前在咖啡店洗碗

娛樂要聞

黃宗澤奪雙料視帝,淚灑頒獎臺憶往昔

財經(jīng)要聞

李迅雷:擴(kuò)內(nèi)需要把重心從"投"轉(zhuǎn)向"消"

汽車要聞

不是9S是8X!極氪全新高性能旗艦SUV命名官宣

態(tài)度原創(chuàng)

時尚
房產(chǎn)
數(shù)碼
教育
家居

今年冬天最流行的4雙鞋,配闊腿褲時髦又高級!

房產(chǎn)要聞

再次登頂海南樓市!超越阿那亞的,只有阿那亞!

數(shù)碼要聞

瑞美熱水器好不好?這3點實力遠(yuǎn)超大牌

教育要聞

收藏:山東2026高中綜評操作教程(教師端)

家居要聞

白色大理石 奢華現(xiàn)代

無障礙瀏覽 進(jìn)入關(guān)懷版