国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

DeepSeek-OCR是「長(zhǎng)文本理解」未來方向嗎?中科院新基準(zhǔn)給出答案

0
分享至


新智元報(bào)道

編輯:LRST

【新智元導(dǎo)讀】DeepSeek-OCR的視覺文本壓縮(VTC)技術(shù)通過將文本編碼為視覺Token,實(shí)現(xiàn)高達(dá)10倍的壓縮率,大幅降低大模型處理長(zhǎng)文本的成本。但是,視覺語(yǔ)言模型能否理解壓縮后的高密度信息?中科院自動(dòng)化所等推出VTCBench基準(zhǔn)測(cè)試,評(píng)估模型在視覺空間中的認(rèn)知極限,包括信息檢索、關(guān)聯(lián)推理和長(zhǎng)期記憶三大任務(wù)。

近期,DeepSeek-OCR憑借其創(chuàng)新的「視覺文本壓縮」(Vision-Text Compression, VTC)范式引發(fā)了技術(shù)圈的高度關(guān)注,以極少的視覺Token實(shí)現(xiàn)高效的文本信息編碼,為長(zhǎng)文本處理開辟了新路徑。

這一突破性進(jìn)展讓大模型處理超長(zhǎng)文檔的成本大幅降低,但也拋出了一個(gè)核心問題:當(dāng)長(zhǎng)文本被高度壓縮為2D圖像后,視覺語(yǔ)言模型(VLM)真的能理解其中的內(nèi)容嗎?

為了解答這一疑問,來自中科院自動(dòng)化所、中國(guó)科學(xué)院香港創(chuàng)新研究院等機(jī)構(gòu)的研究團(tuán)隊(duì)推出了首個(gè)專門針對(duì)視覺-文本壓縮范式的基準(zhǔn)測(cè)試——VTCBench。


論文鏈接:https://arxiv.org/abs/2512.15649

VTCBench鏈接: https://github.com/Moenupa/VTCBench

VLMEvalKit鏈接:https://github.com/bjzhb666/VLMEvalKit

Huggingface鏈接: https://huggingface.co/datasets/MLLM-CL/VTCBench


圖 1:視覺-文本壓縮 (VTC) 流程演示及VTCBench

與傳統(tǒng)大模型直接讀取成千上萬的純文本Token不同,VTC范式(如DeepSeek-OCR)先將長(zhǎng)文檔渲染 (Rendering)為高密度的2D圖像,再由視覺編碼器轉(zhuǎn)化為少量的視覺Token。

該技術(shù)可實(shí)現(xiàn)2倍至10倍的Token壓縮率,顯著降低了長(zhǎng)文本處理時(shí)的計(jì)算與顯存開銷。

VTCBench現(xiàn)已在GitHub和Huggingface全面開源,其衍生版本VTCBench-Wild是一個(gè)統(tǒng)一的、全方位評(píng)估模型在復(fù)雜現(xiàn)實(shí)場(chǎng)景下視覺文本壓縮的魯棒性,現(xiàn)已集成到VLMevalkit。

核心使命

衡量「看得見」之后的「看得懂」

目前的VLM也許能出色地完成OCR識(shí)別,但在處理 VTC 壓縮后的高密度信息時(shí),其長(zhǎng)文本理解能力仍存疑。

VTCBench通過三大任務(wù),系統(tǒng)性地評(píng)估模型在視覺空間中的認(rèn)知極限:

1.VTC-Retrieval (信息檢索)在視覺「大?!怪袑ふ姨囟ㄊ聦?shí)的「針」(Needle-in-a-Haystack),測(cè)試模型對(duì)空間分布信息的捕捉能力。

2.VTC-Reasoning (關(guān)聯(lián)推理)挑戰(zhàn)模型在幾乎沒有文本重疊的情況下,通過關(guān)聯(lián)推理尋找事實(shí),超越單純的詞匯檢索。

3.VTC-Memory (長(zhǎng)期記憶)模擬超長(zhǎng)對(duì)話,評(píng)估模型在視覺壓縮框架下,抵御時(shí)間與結(jié)構(gòu)性信息衰減的能力。

此外,團(tuán)隊(duì)同步推出了VTCBench-Wild,引入 99 種不同的渲染配置(涵蓋多種字體、字號(hào)、行高及背景),全方位檢測(cè)模型在復(fù)雜現(xiàn)實(shí)場(chǎng)景下的魯棒性。

揭秘視覺壓縮背后的認(rèn)知瓶頸


圖 2:VTCBench針對(duì)模型在長(zhǎng)圖像中檢索信息的熱力圖。橫軸代表上下文長(zhǎng)度,縱軸代表關(guān)鍵事實(shí)(Needle)在文檔中的深度。展現(xiàn)了模型表現(xiàn)的「迷失」與突破。

測(cè)試結(jié)果呈現(xiàn)出顯著的「U 型曲線」:與文本模型類似,視覺語(yǔ)言模型(VLM)能夠精準(zhǔn)捕捉開頭和結(jié)尾的信息,但對(duì)于中間部分的事實(shí),理解能力會(huì)隨著文檔變長(zhǎng)而劇烈衰退。這證明了即使在視覺空間,模型依然存在嚴(yán)重的「空間注意力偏見」,是未來 VTC 架構(gòu)優(yōu)化的關(guān)鍵方向。

行業(yè)洞察

視覺壓縮是長(zhǎng)文本的終局嗎?


通過對(duì)GPT、Gemini、Claude、QwenVL、InternVL、Gemma、KimiVL、Seed1.5等10余種尖端模型的深度評(píng)測(cè),可以發(fā)現(xiàn):

雖然VTC極大提升了效率,但現(xiàn)有VLM在復(fù)雜推理和記憶任務(wù)上的表現(xiàn)仍普遍弱于純文本LLM;

消融實(shí)驗(yàn)證明,信息密度是決定模型性能的關(guān)鍵因素,直接影響視覺編碼器的識(shí)別精度;

Gemini-3-Pro在VTCBench-Wild上表現(xiàn)驚艷,其視覺理解能力已幾乎追平其純文本基準(zhǔn),證明了VTC是實(shí)現(xiàn)大規(guī)模長(zhǎng)文本處理的極其可行的路徑!

總結(jié)


如果說傳統(tǒng)的長(zhǎng)文本處理是「逐字閱讀」,那么DeepSeek-OCR所引領(lǐng)的VTC范式就是「過目成誦」的攝影式記憶。VTCBench的出現(xiàn),正是為了確保模型在擁有這種「超能力」的同時(shí),依然能夠讀懂字里行間的微言大義。

參考資料:

https://arxiv.org/abs/2512.15649

秒追ASI

?點(diǎn)贊、轉(zhuǎn)發(fā)、在看一鍵三連?

點(diǎn)亮星標(biāo),鎖定新智元極速推送!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
神秘“華人”爆料,某島上錢色交易不值一提,深層次的秘密才可怕

神秘“華人”爆料,某島上錢色交易不值一提,深層次的秘密才可怕

林林故事揭秘
2024-12-25 12:24:41
內(nèi)地女子在香港涉持假匯款單被拘捕!要求提款160億歐元

內(nèi)地女子在香港涉持假匯款單被拘捕!要求提款160億歐元

南方都市報(bào)
2026-01-09 22:30:13
周五深夜定方向,下一周90%的人或?qū)?huì)再次被洗出去!

周五深夜定方向,下一周90%的人或?qū)?huì)再次被洗出去!

股市皆大事
2026-01-09 22:20:00
人潮涌動(dòng)!上海宜家恢復(fù)營(yíng)業(yè)首日,顧客狂購(gòu)物不停!

人潮涌動(dòng)!上海宜家恢復(fù)營(yíng)業(yè)首日,顧客狂購(gòu)物不停!

別人都叫我阿腈
2026-01-10 01:36:26
陳博彰當(dāng)選長(zhǎng)沙市市長(zhǎng),原市長(zhǎng)已進(jìn)京任職

陳博彰當(dāng)選長(zhǎng)沙市市長(zhǎng),原市長(zhǎng)已進(jìn)京任職

上觀新聞
2026-01-09 18:12:06
都被騙了?委元首被捕后,一架美洲專機(jī)將抵華,卡尼在中國(guó)待4天

都被騙了?委元首被捕后,一架美洲專機(jī)將抵華,卡尼在中國(guó)待4天

阿釗是個(gè)小小評(píng)論員
2026-01-10 03:24:18
對(duì)于中國(guó)收臺(tái),特朗普表態(tài):中方怎么做自己決定,這是他們的自由

對(duì)于中國(guó)收臺(tái),特朗普表態(tài):中方怎么做自己決定,這是他們的自由

阿釗是個(gè)小小評(píng)論員
2026-01-10 03:04:49
45歲富哥“北京肖哥”去世,前一天還曬老婆,死因曝光仇人都惋惜

45歲富哥“北京肖哥”去世,前一天還曬老婆,死因曝光仇人都惋惜

嫹筆牂牂
2025-12-31 07:07:52
“大尺度”新年掛歷火了!活菩薩椰樹慫了

“大尺度”新年掛歷火了!活菩薩椰樹慫了

李東陽(yáng)朋友圈
2026-01-09 20:01:49
丹麥議員嗆聲:被槍指頭還談什么,都要倒向中國(guó)了…

丹麥議員嗆聲:被槍指頭還談什么,都要倒向中國(guó)了…

觀察者網(wǎng)
2026-01-08 15:30:04
日方召見中國(guó)大使抗議,吳江浩大使當(dāng)場(chǎng)駁回:中方意志不會(huì)改變

日方召見中國(guó)大使抗議,吳江浩大使當(dāng)場(chǎng)駁回:中方意志不會(huì)改變

阿釗是個(gè)小小評(píng)論員
2026-01-10 02:47:26
考辛斯戳破勇士遮羞布:追夢(mèng)的脾氣是你們慣的,贏球時(shí)咋沒人罵?

考辛斯戳破勇士遮羞布:追夢(mèng)的脾氣是你們慣的,贏球時(shí)咋沒人罵?

林子說事
2026-01-09 08:09:55
分手傳聞持續(xù)發(fā)酵后,一言不發(fā)的龐眾望,終于不再顧忌所謂的體面

分手傳聞持續(xù)發(fā)酵后,一言不發(fā)的龐眾望,終于不再顧忌所謂的體面

觀察者海風(fēng)
2026-01-08 09:35:23
無錫博物院嚴(yán)正聲明!

無錫博物院嚴(yán)正聲明!

江南晚報(bào)
2026-01-09 17:46:57
山東高速豪取五連勝凸顯兩笑話:北京首鋼總冠軍,周琦是第一中鋒

山東高速豪取五連勝凸顯兩笑話:北京首鋼總冠軍,周琦是第一中鋒

姜大叔侃球
2026-01-09 22:36:46
這組數(shù)據(jù),見證“大國(guó)水網(wǎng)”新畫卷!

這組數(shù)據(jù),見證“大國(guó)水網(wǎng)”新畫卷!

新華社
2026-01-09 14:03:09
西工大連夜宣布好消息!全世界都沒想到,中國(guó)居然“彎道超車”

西工大連夜宣布好消息!全世界都沒想到,中國(guó)居然“彎道超車”

八斗小先生
2026-01-09 16:11:04
中鐵五局被停業(yè)整頓180日

中鐵五局被停業(yè)整頓180日

第一財(cái)經(jīng)資訊
2026-01-09 10:22:53
老鷹奇才1換2交易官宣!特雷-楊改穿3號(hào)球衣:滿懷欣喜開啟新篇章

老鷹奇才1換2交易官宣!特雷-楊改穿3號(hào)球衣:滿懷欣喜開啟新篇章

羅說NBA
2026-01-10 04:37:12
中國(guó)購(gòu)買了20架伊爾-78MK-90A加油機(jī)

中國(guó)購(gòu)買了20架伊爾-78MK-90A加油機(jī)

Ck的蜜糖
2026-01-09 15:52:05
2026-01-10 05:08:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
14296文章數(shù) 66451關(guān)注度
往期回顧 全部

科技要聞

市場(chǎng)偏愛MiniMax:開盤漲42%,市值超700億

頭條要聞

丹麥專家:美軍“拿下”格陵蘭島只要45分鐘

頭條要聞

丹麥專家:美軍“拿下”格陵蘭島只要45分鐘

體育要聞

金元時(shí)代最后的外援,來中國(guó)8年了

娛樂要聞

關(guān)曉彤鹿晗風(fēng)波后露面 不受影響狀態(tài)佳

財(cái)經(jīng)要聞

投資必看!瑞銀李萌給出3大核心配置建議

汽車要聞

助跑三年的奇瑞 接下來是加速還是起跳?

態(tài)度原創(chuàng)

教育
時(shí)尚
房產(chǎn)
健康
數(shù)碼

教育要聞

教育愛打人的學(xué)生,老師不能惹禍上身??!

推廣中獎(jiǎng)名單-更新至2025年12月19日推廣

房產(chǎn)要聞

66萬方!4755套!三亞巨量房源正瘋狂砸出!

這些新療法,讓化療不再那么痛苦

數(shù)碼要聞

銘凡CES 2026新聞稿提及英特爾酷睿Ultra 9 290HX Plus處理器

無障礙瀏覽 進(jìn)入關(guān)懷版