国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

DeepSeek-OCR是「長文本理解」未來方向嗎?中科院新基準(zhǔn)給出答案

0
分享至


新智元報(bào)道

編輯:LRST

【新智元導(dǎo)讀】DeepSeek-OCR的視覺文本壓縮(VTC)技術(shù)通過將文本編碼為視覺Token,實(shí)現(xiàn)高達(dá)10倍的壓縮率,大幅降低大模型處理長文本的成本。但是,視覺語言模型能否理解壓縮后的高密度信息?中科院自動(dòng)化所等推出VTCBench基準(zhǔn)測試,評(píng)估模型在視覺空間中的認(rèn)知極限,包括信息檢索、關(guān)聯(lián)推理和長期記憶三大任務(wù)。

近期,DeepSeek-OCR憑借其創(chuàng)新的「視覺文本壓縮」(Vision-Text Compression, VTC)范式引發(fā)了技術(shù)圈的高度關(guān)注,以極少的視覺Token實(shí)現(xiàn)高效的文本信息編碼,為長文本處理開辟了新路徑。

這一突破性進(jìn)展讓大模型處理超長文檔的成本大幅降低,但也拋出了一個(gè)核心問題:當(dāng)長文本被高度壓縮為2D圖像后,視覺語言模型(VLM)真的能理解其中的內(nèi)容嗎?

為了解答這一疑問,來自中科院自動(dòng)化所、中國科學(xué)院香港創(chuàng)新研究院等機(jī)構(gòu)的研究團(tuán)隊(duì)推出了首個(gè)專門針對(duì)視覺-文本壓縮范式的基準(zhǔn)測試——VTCBench。


論文鏈接:https://arxiv.org/abs/2512.15649

VTCBench鏈接: https://github.com/Moenupa/VTCBench

VLMEvalKit鏈接:https://github.com/bjzhb666/VLMEvalKit

Huggingface鏈接: https://huggingface.co/datasets/MLLM-CL/VTCBench


圖 1:視覺-文本壓縮 (VTC) 流程演示及VTCBench

與傳統(tǒng)大模型直接讀取成千上萬的純文本Token不同,VTC范式(如DeepSeek-OCR)先將長文檔渲染 (Rendering)為高密度的2D圖像,再由視覺編碼器轉(zhuǎn)化為少量的視覺Token

該技術(shù)可實(shí)現(xiàn)2倍至10倍的Token壓縮率,顯著降低了長文本處理時(shí)的計(jì)算與顯存開銷。

VTCBench現(xiàn)已在GitHub和Huggingface全面開源,其衍生版本VTCBench-Wild是一個(gè)統(tǒng)一的、全方位評(píng)估模型在復(fù)雜現(xiàn)實(shí)場景下視覺文本壓縮的魯棒性,現(xiàn)已集成到VLMevalkit。

核心使命

衡量「看得見」之后的「看得懂」

目前的VLM也許能出色地完成OCR識(shí)別,但在處理 VTC 壓縮后的高密度信息時(shí),其長文本理解能力仍存疑。

VTCBench通過三大任務(wù),系統(tǒng)性地評(píng)估模型在視覺空間中的認(rèn)知極限:

1.VTC-Retrieval (信息檢索)在視覺「大?!怪袑ふ姨囟ㄊ聦?shí)的「針」(Needle-in-a-Haystack),測試模型對(duì)空間分布信息的捕捉能力。

2.VTC-Reasoning (關(guān)聯(lián)推理)挑戰(zhàn)模型在幾乎沒有文本重疊的情況下,通過關(guān)聯(lián)推理尋找事實(shí),超越單純的詞匯檢索。

3.VTC-Memory (長期記憶)模擬超長對(duì)話,評(píng)估模型在視覺壓縮框架下,抵御時(shí)間與結(jié)構(gòu)性信息衰減的能力。

此外,團(tuán)隊(duì)同步推出了VTCBench-Wild,引入 99 種不同的渲染配置(涵蓋多種字體、字號(hào)、行高及背景),全方位檢測模型在復(fù)雜現(xiàn)實(shí)場景下的魯棒性。

揭秘視覺壓縮背后的認(rèn)知瓶頸


圖 2:VTCBench針對(duì)模型在長圖像中檢索信息的熱力圖。橫軸代表上下文長度,縱軸代表關(guān)鍵事實(shí)(Needle)在文檔中的深度。展現(xiàn)了模型表現(xiàn)的「迷失」與突破。

測試結(jié)果呈現(xiàn)出顯著的「U 型曲線」:與文本模型類似,視覺語言模型(VLM)能夠精準(zhǔn)捕捉開頭和結(jié)尾的信息,但對(duì)于中間部分的事實(shí),理解能力會(huì)隨著文檔變長而劇烈衰退。這證明了即使在視覺空間,模型依然存在嚴(yán)重的「空間注意力偏見」,是未來 VTC 架構(gòu)優(yōu)化的關(guān)鍵方向。

行業(yè)洞察

視覺壓縮是長文本的終局嗎?


通過對(duì)GPT、Gemini、Claude、QwenVL、InternVL、Gemma、KimiVL、Seed1.5等10余種尖端模型的深度評(píng)測,可以發(fā)現(xiàn):

雖然VTC極大提升了效率,但現(xiàn)有VLM在復(fù)雜推理和記憶任務(wù)上的表現(xiàn)仍普遍弱于純文本LLM;

消融實(shí)驗(yàn)證明,信息密度是決定模型性能的關(guān)鍵因素,直接影響視覺編碼器的識(shí)別精度;

Gemini-3-Pro在VTCBench-Wild上表現(xiàn)驚艷,其視覺理解能力已幾乎追平其純文本基準(zhǔn),證明了VTC是實(shí)現(xiàn)大規(guī)模長文本處理的極其可行的路徑!

總結(jié)


如果說傳統(tǒng)的長文本處理是「逐字閱讀」,那么DeepSeek-OCR所引領(lǐng)的VTC范式就是「過目成誦」的攝影式記憶。VTCBench的出現(xiàn),正是為了確保模型在擁有這種「超能力」的同時(shí),依然能夠讀懂字里行間的微言大義。

參考資料:

https://arxiv.org/abs/2512.15649

秒追ASI

?點(diǎn)贊、轉(zhuǎn)發(fā)、在看一鍵三連?

點(diǎn)亮星標(biāo),鎖定新智元極速推送!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
獲刑13年,江蘇省政協(xié)原副主席王昊受賄案一審宣判

獲刑13年,江蘇省政協(xié)原副主席王昊受賄案一審宣判

界面新聞
2026-01-07 17:02:01
5-0!開場38分鐘進(jìn)4球 雄獅半決賽被虐慘 11.2億豪門9連勝?zèng)_衛(wèi)冕

5-0!開場38分鐘進(jìn)4球 雄獅半決賽被虐慘 11.2億豪門9連勝?zèng)_衛(wèi)冕

狍子歪解體壇
2026-01-08 04:49:24
巧立名目地從老百姓口袋里掏錢,真是不遺余力

巧立名目地從老百姓口袋里掏錢,真是不遺余力

胖胖說他不胖
2026-01-07 10:00:09
唐嫣在國外很豪放!穿連體衣下面不系扣,難道不好好穿衣就時(shí)髦?

唐嫣在國外很豪放!穿連體衣下面不系扣,難道不好好穿衣就時(shí)髦?

章眽八卦
2026-01-05 12:27:07
中國研究人員發(fā)現(xiàn),清理霧霾的行動(dòng)或?qū)е掳拇罄麃啔夂蜃兊酶鼰岣稍?>
    </a>
        <h3>
      <a href=風(fēng)向觀察
2026-01-07 16:03:01
凌晨1點(diǎn),老黃又扔“核彈”!英偉達(dá) Vera Rubin 芯片問世,算力暴漲5倍,我看傻了...

凌晨1點(diǎn),老黃又扔“核彈”!英偉達(dá) Vera Rubin 芯片問世,算力暴漲5倍,我看傻了...

AI范兒
2026-01-06 07:59:53
凌晨打車22公里收98元?乘客拒付耗到天亮,的哥委屈:是政府定價(jià)

凌晨打車22公里收98元?乘客拒付耗到天亮,的哥委屈:是政府定價(jià)

奇思妙想草葉君
2026-01-07 22:36:16
日本芯片材料制造商寧背債務(wù)不漲售價(jià),總裁:漲價(jià)是對(duì)客戶的背叛

日本芯片材料制造商寧背債務(wù)不漲售價(jià),總裁:漲價(jià)是對(duì)客戶的背叛

風(fēng)向觀察
2026-01-07 13:37:16
女子新房裝玫紅色入戶門貼花壁紙,網(wǎng)友直呼“全網(wǎng)獨(dú)一無二”,當(dāng)事人:裝修花費(fèi)近100萬元,老公每次來都像游客一樣

女子新房裝玫紅色入戶門貼花壁紙,網(wǎng)友直呼“全網(wǎng)獨(dú)一無二”,當(dāng)事人:裝修花費(fèi)近100萬元,老公每次來都像游客一樣

極目新聞
2026-01-07 13:36:53
閆學(xué)晶報(bào)應(yīng)來了!代言品牌或要解約,評(píng)論區(qū)淪陷,春晚節(jié)目疑落空

閆學(xué)晶報(bào)應(yīng)來了!代言品牌或要解約,評(píng)論區(qū)淪陷,春晚節(jié)目疑落空

小徐講八卦
2026-01-06 08:32:20
柬政府確認(rèn)陳志6日已被遣返回中國,柬國王頒布王令撤銷其柬埔寨國籍

柬政府確認(rèn)陳志6日已被遣返回中國,柬國王頒布王令撤銷其柬埔寨國籍

紅星新聞
2026-01-07 23:38:19
印尼求中國重組雅萬高鐵債務(wù):運(yùn)營兩年盈利難 暴高鐵商業(yè)化痛點(diǎn)

印尼求中國重組雅萬高鐵債務(wù):運(yùn)營兩年盈利難 暴高鐵商業(yè)化痛點(diǎn)

社會(huì)日日鮮
2026-01-07 12:07:02
深夜突發(fā)!全線暴跌

深夜突發(fā)!全線暴跌

中國基金報(bào)
2026-01-08 00:12:48
U23國足首戰(zhàn)就是生死戰(zhàn)!8年后再?zèng)_開門紅,或12年首次連勝

U23國足首戰(zhàn)就是生死戰(zhàn)!8年后再?zèng)_開門紅,或12年首次連勝

奧拜爾
2026-01-07 19:51:00
“美國斬殺線”:一則都市傳說如何被包裝成“真實(shí)美國”敘事

“美國斬殺線”:一則都市傳說如何被包裝成“真實(shí)美國”敘事

美國華人雜談
2026-01-07 08:04:45
74歲王石坐公務(wù)艙出行!沒戴假發(fā)狀態(tài)疲憊,拿手機(jī)坐窗口認(rèn)真拍照

74歲王石坐公務(wù)艙出行!沒戴假發(fā)狀態(tài)疲憊,拿手機(jī)坐窗口認(rèn)真拍照

李健政觀察
2026-01-07 23:45:35
太子集團(tuán)創(chuàng)始人陳志,被遣送回中國,接受有關(guān)部門調(diào)查

太子集團(tuán)創(chuàng)始人陳志,被遣送回中國,接受有關(guān)部門調(diào)查

新京報(bào)政事兒
2026-01-07 20:35:03
司曉迪高清照片無碼流出,一人睡遍整個(gè)娛樂圈頂流?看完太炸裂了

司曉迪高清照片無碼流出,一人睡遍整個(gè)娛樂圈頂流?看完太炸裂了

烏娛子醬
2026-01-06 14:19:18
2026剛開年,中國連續(xù)出重拳,臺(tái)灣沒事,日本也可以有事

2026剛開年,中國連續(xù)出重拳,臺(tái)灣沒事,日本也可以有事

強(qiáng)軍路
2026-01-07 17:39:26
江蘇調(diào)查組在徐湖平別墅搜出啥?太離譜!

江蘇調(diào)查組在徐湖平別墅搜出啥?太離譜!

鶴羽說個(gè)事
2026-01-07 11:06:57
2026-01-08 06:43:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
14279文章數(shù) 66451關(guān)注度
往期回顧 全部

科技要聞

精華!黃仁勛CES記者會(huì):揭秘新款大殺器

頭條要聞

美軍扣押俄潛艇護(hù)航的油輪 俄羅斯外交部回應(yīng)

頭條要聞

美軍扣押俄潛艇護(hù)航的油輪 俄羅斯外交部回應(yīng)

體育要聞

賣水果、搬磚的小伙,與哈蘭德爭英超金靴

娛樂要聞

《馬背搖籃》首播,革命的樂觀主義故事

財(cái)經(jīng)要聞

農(nóng)大教授科普:無需過度擔(dān)憂蔬菜農(nóng)殘

汽車要聞

燃油駕趣+智能電感雙Buff 試駕全新奧迪Q5L

態(tài)度原創(chuàng)

時(shí)尚
本地
教育
游戲
軍事航空

李夢(mèng)系穿搭,就這么養(yǎng)成了

本地新聞

“閩東利劍·惠民安商”高效執(zhí)行專項(xiàng)行動(dòng)

教育要聞

參考!2025山東本科最低錄取分?jǐn)?shù)!376上了本科!

《GTA6》地圖規(guī)模再引熱議:這次真要"大到離譜"了?

軍事要聞

特朗普政府正在討論獲取格陵蘭島的方案 包括軍事選項(xiàng)

無障礙瀏覽 進(jìn)入關(guān)懷版