国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

DeepSeek-OCR是「長文本理解」未來方向?中科院VTCBench給出答案

0
分享至



DeepSeek-OCR 的視覺文本壓縮(VTC)技術(shù)通過將文本編碼為視覺 Token,實現(xiàn)高達 10 倍的壓縮率,大幅降低大模型處理長文本的成本。但是,視覺語言模型能否理解壓縮后的高密度信息?中科院自動化所等推出 VTCBench 基準測試,評估模型在視覺空間中的認知極限,包括信息檢索、關(guān)聯(lián)推理和長期記憶三大任務(wù)。

近期,DeepSeek-OCR 憑借其創(chuàng)新的「視覺文本壓縮」(Vision-Text Compression, VTC)范式引發(fā)了技術(shù)圈的高度關(guān)注,以極少的視覺 Token 實現(xiàn)高效的文本信息編碼,為長文本處理開辟了新路徑。

這一突破性進展讓大模型處理超長文本的成本大幅降低,但也拋出了一個核心問題:當長文本被高度壓縮為 2D 圖像后,視覺語言模型(VLM)真的能理解其中的內(nèi)容嗎?

為了解答這一疑問,來自中科院自動化所、中國科學(xué)院香港創(chuàng)新研究院等機構(gòu)的研究團隊推出了首個專門針對視覺 - 文本壓縮范式的基準測試 ——VTCBench。



  • 論文鏈接:https://arxiv.org/abs/2512.15649
  • VTCBench 鏈接: https://github.com/Moenupa/VTCBench
  • VLMEvalKit 鏈接:https://github.com/bjzhb666/VLMEvalKit
  • Huggingface 鏈接: https://huggingface.co/datasets/MLLM-CL/VTCBench



圖 1:視覺 - 文本壓縮 (VTC) 流程演示及 VTCBench

與傳統(tǒng)大模型直接讀取成千上萬的純文本 Token 不同,VTC 范式(如 DeepSeek-OCR)先將長文檔渲染 (Rendering)為高密度的 2D 圖像,再由視覺編碼器轉(zhuǎn)化為少量的視覺 Token。

該技術(shù)可實現(xiàn) 2 倍至 10 倍的 Token 壓縮率,顯著降低了長文本處理時的計算與顯存開銷。

VTCBench 現(xiàn)已在 GitHub 和 Huggingface 全面開源,其衍生版本 VTCBench-Wild 是一個統(tǒng)一的、全方位評估模型在復(fù)雜現(xiàn)實場景下視覺文本壓縮的魯棒性,現(xiàn)已集成到 VLMevalkit。

核心使命——衡量「看得見」之后的「看得懂」

目前的 VLM 也許能出色地完成 OCR 識別,但在處理 VTC 壓縮后的高密度信息時,其長文本理解能力仍存疑。

VTCBench 通過三大任務(wù),系統(tǒng)性地評估模型在視覺空間中的認知極限:

  1. VTC-Retrieval (信息檢索):在視覺「大海」中尋找特定事實的「針」(Needle-in-a-Haystack),測試模型對空間分布信息的捕捉能力;
  2. VTC-Reasoning (關(guān)聯(lián)推理):挑戰(zhàn)模型在幾乎沒有文本重疊的情況下,通過關(guān)聯(lián)推理尋找事實,超越單純的詞匯檢索;
  3. VTC-Memory (長期記憶):模擬超長對話,評估模型在視覺壓縮框架下,抵御時間與結(jié)構(gòu)性信息衰減的能力。

此外,團隊同步推出了 VTCBench-Wild,引入 99 種不同的渲染配置(涵蓋多種字體、字號、行高及背景),全方位檢測模型在復(fù)雜現(xiàn)實場景下的魯棒性。

揭秘視覺壓縮背后的認知瓶頸



圖 2:VTCBench 針對模型在長圖像中檢索信息的熱力圖。橫軸代表上下文長度,縱軸代表關(guān)鍵事實(Needle)在文檔中的深度。展現(xiàn)了模型表現(xiàn)的「迷失」與突破。

測試結(jié)果呈現(xiàn)出顯著的 「U 型曲線」:與文本模型類似,視覺語言模型(VLM)能夠精準捕捉開頭和結(jié)尾的信息,但對于中間部分的事實,理解能力會隨著文檔變長而劇烈衰退。

這證明了即使在視覺空間,模型依然存在嚴重的「空間注意力偏見」,是未來 VTC 架構(gòu)優(yōu)化的關(guān)鍵方向。

行業(yè)洞察 —— 視覺壓縮是長文本的終局嗎?



通過對 GPT、Gemini、Claude、QwenVL、InternVL、Gemma、KimiVL、Seed1.5 等 10 余種尖端模型的深度評測,可以發(fā)現(xiàn):

雖然 VTC 極大提升了效率,但現(xiàn)有 VLM 在復(fù)雜推理和記憶任務(wù)上的表現(xiàn)仍顯著弱于純文本 LLM;

消融實驗證明,信息密度是決定模型性能的關(guān)鍵因素,直接影響視覺編碼器的識別精度;

Gemini-3-Pro 在 VTCBench-Wild 上表現(xiàn)驚艷,其視覺理解能力已幾乎追平其純文本基準,證明了 VTC 是實現(xiàn)大規(guī)模長文本處理的極其可行的路徑!

總結(jié)

如果說傳統(tǒng)的長文本處理是「逐字閱讀」,那么, DeepSeek-OCR 所引領(lǐng)的 VTC 范式就是「過目成誦」的攝影式記憶。VTCBench 的出現(xiàn),正是為了確保模型在擁有這種「超能力」的同時,依然能夠讀懂字里行間的微言大義。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
兩艘一起造?中國第5艘航母來了:不是復(fù)制福建艦,而是全面放大

兩艘一起造?中國第5艘航母來了:不是復(fù)制福建艦,而是全面放大

輝輝歷史記
2026-01-13 15:01:09
1976年9月8日,毛主席臨終前拼盡全力敲了三下,葉帥當時沒懂,后來全明白了

1976年9月8日,毛主席臨終前拼盡全力敲了三下,葉帥當時沒懂,后來全明白了

寄史言志
2026-01-13 18:22:07
男單大冷門!國乒世界冠軍1:3不敵日本選手,國乒女單拿下兩連勝

男單大冷門!國乒世界冠軍1:3不敵日本選手,國乒女單拿下兩連勝

國乒二三事
2026-01-13 05:13:11
生產(chǎn)廠被曝存在衛(wèi)生隱患等問題,金粒門致歉并公布賠付方案

生產(chǎn)廠被曝存在衛(wèi)生隱患等問題,金粒門致歉并公布賠付方案

界面新聞
2026-01-13 17:57:50
廣東隊最新消息!麥考爾王者歸來,首秀將迎戰(zhàn)上海男籃?

廣東隊最新消息!麥考爾王者歸來,首秀將迎戰(zhàn)上海男籃?

緋雨兒
2026-01-13 14:34:09
暴跌,新股民的天塌了

暴跌,新股民的天塌了

曹多魚的財經(jīng)世界
2026-01-13 16:02:22
一場大裁員正在席卷中國的銀行!金飯碗也不香了,究竟是什么原因

一場大裁員正在席卷中國的銀行!金飯碗也不香了,究竟是什么原因

墨蘭史書
2025-12-26 19:40:03
如果3年內(nèi)沒有離開股市的打算,那就買這一種股票,賺到盆滿缽滿

如果3年內(nèi)沒有離開股市的打算,那就買這一種股票,賺到盆滿缽滿

股經(jīng)縱橫談
2026-01-09 17:42:31
勢不可擋,自盧在快船6勝21負宣布“北伐”后,快船已10勝2負

勢不可擋,自盧在快船6勝21負宣布“北伐”后,快船已10勝2負

懂球帝
2026-01-13 16:50:03
廣西一精神小妹結(jié)婚,身上多處紋身新郎小她10歲,網(wǎng)友:相當炸裂

廣西一精神小妹結(jié)婚,身上多處紋身新郎小她10歲,網(wǎng)友:相當炸裂

唐小糖說情感
2026-01-07 16:37:28
1950年,林彪擺出4條鐵證拒不出兵,毛主席熬紅雙眼拍板硬打,基辛格:這眼光毒得讓人后背發(fā)涼

1950年,林彪擺出4條鐵證拒不出兵,毛主席熬紅雙眼拍板硬打,基辛格:這眼光毒得讓人后背發(fā)涼

清風(fēng)鑒史
2026-01-12 23:23:16
旗袍:一件會呼吸的契約

旗袍:一件會呼吸的契約

疾跑的小蝸牛
2026-01-12 23:39:08
豆包日活破億、千問元寶追趕,百度文心掉隊,AI超級入口終成字節(jié)阿里之爭?

豆包日活破億、千問元寶追趕,百度文心掉隊,AI超級入口終成字節(jié)阿里之爭?

搜狐科技
2026-01-13 18:14:20
原上海電氣(集團)總公司黨委書記、董事長鄭建華被判死緩

原上海電氣(集團)總公司黨委書記、董事長鄭建華被判死緩

證券時報
2026-01-13 14:55:03
度日如年:三名皇家馬德里球員是阿隆索下課的導(dǎo)火索

度日如年:三名皇家馬德里球員是阿隆索下課的導(dǎo)火索

油潑辣不辣
2026-01-13 06:07:44
拉黑了一個弱質(zhì)

拉黑了一個弱質(zhì)

吳女士
2026-01-13 16:43:42
謝暉也沒想到,不愿給自己生娃的佟晨潔,如今卻在給魏巍當“媽”

謝暉也沒想到,不愿給自己生娃的佟晨潔,如今卻在給魏巍當“媽”

叨叨話影
2026-01-13 19:00:27
紐森強烈反對加州“巨富稅”公投 稱此舉正逼著億萬富翁搬離

紐森強烈反對加州“巨富稅”公投 稱此舉正逼著億萬富翁搬離

財聯(lián)社
2026-01-13 16:44:05
功勛名帥回歸!教出兩代一姐,邱貽可上位失敗,王楚欽面臨換教練

功勛名帥回歸!教出兩代一姐,邱貽可上位失敗,王楚欽面臨換教練

三十年萊斯特城球迷
2026-01-12 19:12:06
丁蘭給江青接生第二天,江青找到她:真是對不起你,請你原諒

丁蘭給江青接生第二天,江青找到她:真是對不起你,請你原諒

搜史君
2026-01-13 07:45:06
2026-01-13 19:39:02
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12110文章數(shù) 142535關(guān)注度
往期回顧 全部

科技要聞

每年10億美元!谷歌大模型注入Siri

頭條要聞

距中國加強管制不到一周 日本派船盯上6000米深海稀土

頭條要聞

距中國加強管制不到一周 日本派船盯上6000米深海稀土

體育要聞

他帶出國乒世界冠軍,退休后為愛徒返場

娛樂要聞

周杰倫以球員身份參加澳網(wǎng),C位海報公開

財經(jīng)要聞

"天量存款"將到期 資金會否搬入股市?

汽車要聞

限時9.99萬元起 2026款啟辰大V DD-i虎鯨上市

態(tài)度原創(chuàng)

時尚
藝術(shù)
本地
親子
公開課

走過那個夏天,甜茶終于站上金球獎之巔

藝術(shù)要聞

書法爭議再起:拙與妍孰優(yōu)孰劣引發(fā)熱議

本地新聞

云游內(nèi)蒙|到巴彥淖爾去,赴一場塞上江南的邀約

親子要聞

應(yīng)對近視低齡化,專家呼吁提早建立高風(fēng)險兒童屈光發(fā)育檔案

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版