国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Deepseek V4的最后一塊拼圖來了?全新OCR架構(gòu)超越視覺壓縮

0
分享至

1 月 27 日,DeepSeek 發(fā)布了《DeepSeek-OCR 2: Visual Causal Flow》論文,并同步開源新一代文檔理解模型。這是該公司在 2026 年 1 月的第三次技術(shù)更新:月初完善了 R1 論文的技術(shù)細節(jié),中旬開源了 Engram 記憶模塊,月末又推出 OCR 2。如此密集的節(jié)奏,也讓外界猜測春節(jié)前后可能亮相的 DeepSeek-V4 的輪廓逐漸成形。


圖 | Deepseek 最新論文:視覺因果流(來源:GitHub)

在討論 OCR 2 的更新前,不妨先回溯去年 10 月的初代版本。雖然名字里帶著“OCR”(Optical Character Recognition,光學字符識別),但 DeepSeek 開源的初代模型瞄準的并非傳統(tǒng)意義上的字符識別,而是想解決大模型長期面臨的一個瓶頸:超長上下文帶來的算力壓力。

由于大語言模型的自注意力機制計算復雜度隨序列長度呈平方級增長,當上下文從千級 token 擴展到萬級,計算量可能暴增百倍。處理上百頁的財報或整本書時,開發(fā)者往往陷入兩難:要么切片分段輸入,犧牲全局連貫性;要么硬扛長序列,付出高昂的計算成本與延遲。

DeepSeek 團隊選擇換了個思路:既然文本 token 太昂貴,能否用圖像來“打包”同等信息?他們發(fā)現(xiàn),將一頁文檔渲染為圖像后,視覺編碼器提取的視覺 token 數(shù)量遠少于等效文本,卻能完整保留文字與版式結(jié)構(gòu)。這套“上下文光學壓縮”(Contextual Optical Compression)技術(shù),本質(zhì)上是將一維的文本序列“折疊”進二維像素空間,借圖像的天然空間結(jié)構(gòu)實現(xiàn)高效壓縮。

而 OCR 從圖像中還原文本的任務(wù)效果,恰好可以成為驗證壓縮質(zhì)量的理想標尺:還原越準,說明壓縮越有效。

最后的成果確實令人矚目。在 10 倍壓縮率下,文本還原準確率仍達 97%;即便壓縮至 20 倍,準確率也保持在 60%左右。一張 1,024×1,024 的文檔圖像,傳統(tǒng)方案需數(shù)千 token,DeepSeek-OCR 僅用 256 個即可表征,效率奇高。

但初代 OCR 也存在明顯短板。它的核心編碼器 DeepEncoder 采用 SAM(Segment Anything Model,分割萬物模型)加 CLIP(Contrastive Language-Image Pre-training,對比語言圖像預訓練)的雙模塊設(shè)計:SAM 負責局部細節(jié)感知,CLIP 負責全局語義理解,中間嵌入 16 倍壓縮層。這套架構(gòu)雖然高效,但在處理圖像時遵循固定的空間順序——無論文檔內(nèi)容如何,視覺 token 總是按從左上到右下的柵格排列。

也就是說,不管面對的是論文、發(fā)票還是漫畫,模型都像掃描儀一樣逐字逐行,從左到右地機械掃描。這顯然和人類讀文檔的方式不同,我們會根據(jù)版面布局、語義結(jié)構(gòu)進行自然跳轉(zhuǎn):先看標題,再看摘要,表格要整體理解,圖注和正文有對應(yīng)關(guān)系。

此次發(fā)布的 OCR 2 要解決的正是這個問題。新架構(gòu) DeepEncoder V2 做了一個關(guān)鍵改動:用一個小型語言模型(基于 Qwen2-0.5B,約 5 億參數(shù))替代了原有的 CLIP 模塊,從而引入了“因果”機制。


(來源:論文)

具體而言,V2 把視覺 token 分成了兩組處理:第一組是原始視覺 token,它們之間可以互相“看到”,保證模型對整張圖有全局視野;第二組是新引入的“因果流查詢”(causal flow query),它們有嚴格的先后順序。每個查詢只能看到它前面的信息,就像人逐步閱讀文檔時,后面理解的內(nèi)容會基于前面已讀的內(nèi)容來組織。

這種設(shè)計讓模型可以根據(jù)圖像內(nèi)容動態(tài)調(diào)整“閱讀順序”。最終送入解碼器的只有第二組 token,它們已經(jīng)按語義邏輯重排過,而非機械的空間順序。論文把這稱為“視覺因果流”(visual causal flow)——讓 2D 圖像理解通過兩級級聯(lián)的 1D 因果推理來實現(xiàn)。


圖 | 混合注意力掩碼 (Attention Mask) 設(shè)計(來源:論文)

這種改變帶來的提升是多維度的。

在 OmniDocBench v1.5 測試集上(涵蓋雜志、論文、研究報告等 9 類文檔),OCR 2 總體得分 91.09%,比前代提升 3.73 個百分點。更能說明新架構(gòu)價值的是“閱讀順序”指標:編輯距離從 0.085 降到 0.057,意味著模型對文檔結(jié)構(gòu)的判斷更準確。它確實在學著按語義而非空間來組織信息。


圖 | OmniDocBench v1.5 核心評測結(jié)果(來源:論文)

同時,OCR 2 延續(xù)了前代的高壓縮率優(yōu)勢,視覺 token 上限僅 256–1,120 個,而多數(shù)同類模型需要超過 6,000 個。在文本、公式、表格等細分類別上均有 2–6 個百分點的提升,與 Gemini-3 Pro 在相近 token 預算下的對比中(文檔解析編輯距離 0.100 vs 0.115),OCR 2 也占據(jù)優(yōu)勢。

得益于此,OCR 2 擁有了更廣泛的應(yīng)用場景,它可以用來處理布局復雜、結(jié)構(gòu)多變的文檔。例如學術(shù)論文中多欄混排加公式表格、財務(wù)報表里數(shù)據(jù)圖表與文字說明交織、雜志版面的圖文混搭——這些曾經(jīng)讓初代 OCR 捉襟見肘的場景,現(xiàn)在恰恰是因果視覺流架構(gòu)的用武之地。

不過,新架構(gòu)并非完美。論文坦承,在報紙類文檔上,OCR 2 的識別準確率仍有明顯差距,甚至識別性能略低于一代模型。團隊歸因于兩點:一是報紙版面密集、文字量大,當前 token 上限可能不足(可通過增加局部裁剪緩解);二是訓練數(shù)據(jù)中報紙樣本僅 25 萬張,覆蓋有限。這再次印證了端到端模型的通病:性能高度依賴訓練數(shù)據(jù)的廣度與質(zhì)量。

此外,有研究者通過語義破壞實驗發(fā)現(xiàn),DeepSeek-OCR 系列的高分部分源于語言先驗——模型有時是“猜”出內(nèi)容,而非真正“看清”。當輸入被刻意打亂時,性能會顯著下滑。這意味著在識別生造詞、嚴重污損的掃描件等邊緣場景中,其魯棒性可能仍不及傳統(tǒng)管道式 OCR。

回看 1 月的三次技術(shù)更新,一條清晰的主線逐漸浮現(xiàn):DeepSeek 正系統(tǒng)性地探索如何讓模型在不同任務(wù)中“更聰明地工作”,而非一味堆疊計算量。

月初,團隊將 R1 論文從 22 頁大幅擴充至 86 頁,揭示其推理能力的核心來源。并非依賴海量人工標注數(shù)據(jù),而是通過強化學習在“做題-反饋-改進”的循環(huán)中自主學會思考與糾錯。這為低成本訓練強推理模型開辟了一條新路徑。

中旬,梁文鋒署名的 Engram 論文進一步延伸這一思路:既然人名、術(shù)語等靜態(tài)知識無需每次重新思考,何不將其存為可檢索的記憶表?實驗表明,將約 20%的參數(shù)用于構(gòu)建這類外部記憶、80%保留給動態(tài)計算,在知識問答、推理與代碼任務(wù)上反而表現(xiàn)更優(yōu)。

到了月末,OCR 2 則將這一哲學延伸至視覺領(lǐng)域。它不再讓模型機械地按空間柵格掃描文檔,而是引入因果機制,使其能像人類一樣根據(jù)語義結(jié)構(gòu)動態(tài)調(diào)整“閱讀順序”。

三次更新看似分別切入推理、記憶與視覺,實則共同回應(yīng)一個問題:模型在哪些環(huán)節(jié)可以少算多查,或重組流程以提升效率?R1 證明復雜推理可借強化學習涌現(xiàn),Engram 驗證靜態(tài)知識適合查表替代計算,OCR 2 則展示 2D 圖像理解能通過因果排序適配 1D 語言模型的處理范式。這種結(jié)構(gòu)優(yōu)化的轉(zhuǎn)向,或許正是 DeepSeek 為下一代模型鋪就的底層邏輯。

如果傳聞屬實,計劃于 2 月中旬春節(jié)前后發(fā)布的 DeepSeek-V4,或?qū)⑹状握线@三條技術(shù)線索:融合 R1 的推理框架、Engram 的記憶架構(gòu)與 OCR 2 的視覺理解能力,打造一個更高效處理文本、代碼與復雜文檔的多面手。不過最終體驗如何,我們還需等待春節(jié)它的真正亮相。

1.https://github.com/deepseek-ai/DeepSeek-OCR-2/blob/main/DeepSeek_OCR2_paper.pdf

運營/排版:何晨龍

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
中央批準:省級黨委常委跨省履新!近日,五個省級黨委領(lǐng)導班子調(diào)整

中央批準:省級黨委常委跨省履新!近日,五個省級黨委領(lǐng)導班子調(diào)整

上觀新聞
2026-01-26 22:42:05
李湘前夫發(fā)聲,有五個點讓人覺得很詭異!

李湘前夫發(fā)聲,有五個點讓人覺得很詭異!

麥杰遜
2026-01-27 13:06:01
上海機場這兩天繃緊了弦?5例尼帕病毒、7天閉環(huán)隔離全在動真格

上海機場這兩天繃緊了弦?5例尼帕病毒、7天閉環(huán)隔離全在動真格

李博世財經(jīng)
2026-01-27 16:59:22
突發(fā)! 楊蘭蘭澳洲與警察正面沖突! 全身香奈兒、座駕勞斯萊斯! 警察要求摘口罩!

突發(fā)! 楊蘭蘭澳洲與警察正面沖突! 全身香奈兒、座駕勞斯萊斯! 警察要求摘口罩!

澳洲紅領(lǐng)巾
2026-01-27 13:12:36
宇樹科技官宣!

宇樹科技官宣!

每日經(jīng)濟新聞
2026-01-26 20:58:07
王樹斌代理高州市市長,曾任佛山市政府副秘書長

王樹斌代理高州市市長,曾任佛山市政府副秘書長

南方都市報
2026-01-27 16:53:35
6-4,6-3!中國金花澳網(wǎng)壓哨進8強,追平上屆紀錄,下輪對手確定

6-4,6-3!中國金花澳網(wǎng)壓哨進8強,追平上屆紀錄,下輪對手確定

劉姚堯的文字城堡
2026-01-27 12:20:26
綿陽市委副書記、市長李云被查

綿陽市委副書記、市長李云被查

新京報
2026-01-27 17:02:53
運動員獲獎后網(wǎng)上追討?yīng)劷?宜昌興山縣文旅局:獎金方案已批復,正籌措資金

運動員獲獎后網(wǎng)上追討?yīng)劷?宜昌興山縣文旅局:獎金方案已批復,正籌措資金

封面新聞
2026-01-27 20:11:30
史上最大協(xié)議!剛剛,印度、歐盟,聯(lián)手了

史上最大協(xié)議!剛剛,印度、歐盟,聯(lián)手了

中國基金報
2026-01-27 19:41:30
全國9地取消固定分時電價

全國9地取消固定分時電價

財聯(lián)社
2026-01-27 13:58:05
貝克漢姆家齊聚巴黎!被問起大布全體冷漠,15歲小七胖成兩個貝嫂

貝克漢姆家齊聚巴黎!被問起大布全體冷漠,15歲小七胖成兩個貝嫂

李健政觀察
2026-01-27 09:46:07
前哈佛大學教授斷言:最快4年內(nèi)大量程序員將失業(yè)或薪資暴跌,AI革命發(fā)展得太快了

前哈佛大學教授斷言:最快4年內(nèi)大量程序員將失業(yè)或薪資暴跌,AI革命發(fā)展得太快了

知識圈
2026-01-27 19:41:38
在盒馬app買鮮百合被誤送成水仙球,北京祖孫二人誤食中毒后進醫(yī)院,盒馬回應(yīng)

在盒馬app買鮮百合被誤送成水仙球,北京祖孫二人誤食中毒后進醫(yī)院,盒馬回應(yīng)

瀟湘晨報
2026-01-27 18:01:05
“謹防袈裟”回來了!網(wǎng)友:聽勸的“老鐵”,愛了

“謹防袈裟”回來了!網(wǎng)友:聽勸的“老鐵”,愛了

城事特搜
2026-01-27 20:12:48
多地赴三亞機票上漲,部分時段突破4000元,網(wǎng)友:還沒到春節(jié)就“飛不起了”

多地赴三亞機票上漲,部分時段突破4000元,網(wǎng)友:還沒到春節(jié)就“飛不起了”

瀟湘晨報
2026-01-27 16:02:12
駐日武官王慶簡:為日本潛伏20年出賣軍事機密,因一動作暴露身份

駐日武官王慶簡:為日本潛伏20年出賣軍事機密,因一動作暴露身份

古書記史
2026-01-27 00:30:48
花498萬買進“百強縣”榜單,官方回應(yīng)

花498萬買進“百強縣”榜單,官方回應(yīng)

中國新聞周刊
2026-01-27 18:10:38
0-2大爆冷!高芙澳網(wǎng)遭橫掃+僅贏3局,數(shù)據(jù)太拉胯,薩巴倫卡笑了

0-2大爆冷!高芙澳網(wǎng)遭橫掃+僅贏3局,數(shù)據(jù)太拉胯,薩巴倫卡笑了

大秦壁虎白話體育
2026-01-27 17:50:12
輪胎成為壓垮電車車主的稻草,加上超高的保險費,省錢已成為笑話

輪胎成為壓垮電車車主的稻草,加上超高的保險費,省錢已成為笑話

柏銘銳談
2026-01-26 23:50:34
2026-01-27 20:52:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
16184文章數(shù) 514551關(guān)注度
往期回顧 全部

科技要聞

馬化騰3年年會講話透露了哪些關(guān)鍵信息

頭條要聞

回擊特朗普 印度與歐盟達成"史上最大規(guī)模協(xié)議"

頭條要聞

回擊特朗普 印度與歐盟達成"史上最大規(guī)模協(xié)議"

體育要聞

冒充職業(yè)球員,比賽規(guī)則還和對手現(xiàn)學?

娛樂要聞

張雨綺被曝代孕,春晚被拒,代言跑路

財經(jīng)要聞

多地對壟斷行業(yè)"近親繁殖"出手了

汽車要聞

標配華為乾崑ADS 4/鴻蒙座艙5 華境S體驗車下線

態(tài)度原創(chuàng)

時尚
本地
藝術(shù)
健康
公開課

跟著這些古早變美綜藝,真的能學到東西啊

本地新聞

云游中國|撥開云霧,巫山每幀都是航拍大片

藝術(shù)要聞

日本東京國立博物館中的100幅宋畫

耳石脫落為何讓人天旋地轉(zhuǎn)+惡心?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版