国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

DeepSeek開源OCR-2模型,梁文鋒帶隊探索新架構(gòu)

0
分享至



出品|搜狐科技

作者|常博碩

編輯| 楊 錦

臨近春節(jié),DeepSeek的更新也越來越頻繁了。

剛剛,DeepSeek團(tuán)隊發(fā)布了論文《DeepSeek-OCR 2:Visual Causal Flow》,并正式開源了DeepSeek-OCR 2模型。論文三位作者分別是魏浩然、孫耀峰和李宇琨。


要讀懂這篇文章,首先要知道的一個問題就是:啥是OCR?

其實,OCR是光學(xué)字符識別(Optical Character Recognition)的縮寫,基本思路就是讓計算機(jī)能看懂圖像中的文字。比如我們把手機(jī)拍攝的發(fā)票、合同掃描件、書籍照片等轉(zhuǎn)換成計算機(jī)可以編輯和搜索的文字內(nèi)容,這就是OCR。

傳統(tǒng)OCR模型通常遵循掃描式的思路,首先檢測圖像中的文字區(qū)域,再一個字一個字或一行一行地識別,這種固定掃描順序就容易忽略文檔的整體結(jié)構(gòu)。但人不是這樣的,我們在閱讀復(fù)雜文檔時,通常會先瀏覽標(biāo)題然后看看段落表格,會有優(yōu)先級排序,而不是機(jī)械地從左上到右下掃過頁面。

現(xiàn)在的問題是,當(dāng)文檔結(jié)構(gòu)復(fù)雜到一定程度時,AI就不知道先看哪兒了。像學(xué)術(shù)論文一般是多欄排版,文章中還有公式與正文交錯出現(xiàn),技術(shù)報告中的表格與注釋,報紙版面等等這些都對模型提出了超出傳統(tǒng)OCR的要求。

所以,DeepSeek新開源的DeepSeek-OCR 2模型其實就是為了讓機(jī)器閱讀更像人而設(shè)計的。


提出視覺因果流

DeepSeek-OCR 2作為新一代視覺語言O(shè)CR模型,核心創(chuàng)新在于提出了視覺因果流(Visual Causal Flow)的編碼器架構(gòu)。

DeepSeek-OCR 2的整體架構(gòu)延續(xù)了DeepSeek-OCR的“編碼器—解碼器”設(shè)計,其中解碼器仍然采用約3B參數(shù)的MoE語言模型,編碼器部分則升級為DeepEncoder V2。

從論文中看,DeepEncoder V2編碼器通過引入語義驅(qū)動的順序重排,使AI能夠根據(jù)圖片內(nèi)容的邏輯順序來處理信息,而不再只是按照固定的柵格順序。


上圖示意了DeepSeek-OCR 2的核心架構(gòu)。左邊為傳統(tǒng)DeepEncoder,使用CLIP視覺模型,右圖為DeepEncoder V2。新的架構(gòu)使用了語言模型作為視覺編碼器(LM as Vision Encoder),并在視覺Token序列后附加了因果查詢(learnable query),用于新的閱讀順序排列。

一個關(guān)鍵的點在于,DeepSeek-OCR 2使用了語言模型架構(gòu)作為視覺編碼器。

在DeepEncoder V2中,DeepSeek用一個輕量級語言模型(Qwen2-500M)取代了傳統(tǒng)的CLIP ViT。這樣做就可以讓模型在視覺編碼階段本身就具備序列建模和因果推理能力,使得其與后續(xù)的語言解碼階段在建模范式上保持一致。

從架構(gòu)上看,DeepSeek-OCR 2并未增加視覺token的數(shù)量,也沒有引入額外的多模態(tài)復(fù)雜結(jié)構(gòu),而是通過注意力掩碼的重新設(shè)計,讓“順序”成為可學(xué)習(xí)的對象。這使得模型在處理表格、公式、多欄排版等場景時,能夠更自然地恢復(fù)文檔的邏輯結(jié)構(gòu)。

注意力掩碼的設(shè)計其實十分有意思。在編碼器中,視覺token與一組新增的因果流查詢token被拼接成一個統(tǒng)一序列,但兩者在注意力機(jī)制上其實是非對稱的。

視覺token之間采用雙向注意力,保持與ViT類似的全局建模能力。而查詢token之間采用嚴(yán)格的因果注意力,每個query(查詢)只能關(guān)注其之前的query,同時,每個查詢token都可以訪問所有視覺token。


在這種注意力掩碼的作用下,查詢token被迫以序列化方式逐步聚合視覺信息,其內(nèi)部順序不再由空間坐標(biāo)決定,而是在訓(xùn)練過程中,在語義建模目標(biāo)的驅(qū)動下逐步形成更接近人類閱讀邏輯的視覺表示序列。

這種設(shè)計就和人類閱讀文檔的方式高度相似,首先獲取全局結(jié)構(gòu),隨后在語義理解的引導(dǎo)下,決定接下來該看哪里。


部分表現(xiàn)優(yōu)于Gemini

在OmniDocBench v1.5基準(zhǔn)測試中,DeepSeek-OCR 2在整體準(zhǔn)確率上達(dá)到91.09%,在使用最少視覺token的情況下,較上一代DeepSeek-OCR提升了3.73%。

在衡量閱讀順序(R-order)的指標(biāo)編輯距離(Edit Distance)上,DeepSeek-OCR 2從前代的0.085降低到了0.057,證明了新模型不僅識別得更準(zhǔn),結(jié)構(gòu)理解能力也發(fā)生了實質(zhì)變化。

在和Gemini-3 Pro等閉源強(qiáng)模型的對比中,在均使用約1120個視覺Token的情況下,DeepSeek-OCR2的文檔解析編輯距離(0.100)也優(yōu)于Gemini-3 Pro(0.115)。

根據(jù)DeepSeek披露的數(shù)據(jù),在真實用戶日志與PDF批量處理場景中,DeepSeek-OCR 2的重復(fù)輸出率也有了明顯下降。

相比前代模型,DeepSeek-OCR 2在在線用戶日志圖像中,重復(fù)率從6.25%降至4.17%。在PDF數(shù)據(jù)生產(chǎn)場景中,重復(fù)率從3.69%降至2.88%。重復(fù)輸出往往源于模型對文檔結(jié)構(gòu)理解不充分,導(dǎo)致內(nèi)容會被多次誤讀,從結(jié)果來看,視覺因果流的引入也有效緩解了這一問題。

如果放在更宏觀一點的角度,其實DeepSeek-OCR 2還提供了一種新的框架思路,那就是二維視覺理解,是否可以拆解為兩層一維因果推理。在這一框架下,編碼器負(fù)責(zé)怎么讀內(nèi)容,解碼器負(fù)責(zé)如何回答,兩者共同完成對復(fù)雜視覺內(nèi)容的理解。

這也是DeepSeek在論文最后提出的一個長期方向——原生多模態(tài)(Native Multimodality)。如果同一套因果查詢機(jī)制可以用于視覺、文本甚至音頻,那么OCR可能只是這一架構(gòu)的起點,而不是終點。

正如論文最后所說,雖然光學(xué)文本識別,特別是文檔解析,是大語言模型時代最實用的視覺任務(wù)之一,但它僅占視覺理解領(lǐng)域的一小部分。

展望未來,DeepSeek將向著更通用的多模態(tài)智能繼續(xù)“深度求索”。



運(yùn)營編輯 |曹倩審核|孟莎莎




特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
有意思!周琦解說中國男籃,比賽還沒開始,卻遭到楊毅調(diào)侃

有意思!周琦解說中國男籃,比賽還沒開始,卻遭到楊毅調(diào)侃

體育哲人
2026-03-01 07:30:58
中日局勢大變,24小時內(nèi),雙方相繼出大招,高市以身犯險硬剛到底

中日局勢大變,24小時內(nèi),雙方相繼出大招,高市以身犯險硬剛到底

肖茲探秘說
2026-02-26 22:14:29
上海電影院現(xiàn)場被捉奸,帶情夫當(dāng)老公面出軌,狗血女主角真容曝光

上海電影院現(xiàn)場被捉奸,帶情夫當(dāng)老公面出軌,狗血女主角真容曝光

放開他讓wo來
2026-02-28 22:36:37
87分鐘絕殺!凱恩雙響刷爆紀(jì)錄,3-2雙殺多特,拜仁11分領(lǐng)跑

87分鐘絕殺!凱恩雙響刷爆紀(jì)錄,3-2雙殺多特,拜仁11分領(lǐng)跑

我的護(hù)球最獨(dú)特
2026-03-01 03:33:52
億萬國人破防!90歲院士平靜宣布,中國導(dǎo)彈從此沒有任何死角!

億萬國人破防!90歲院士平靜宣布,中國導(dǎo)彈從此沒有任何死角!

Thurman在昆明
2026-02-28 20:53:27
中方奉陪到底!訪華遲遲沒回復(fù),特朗普掀桌了,要廢除中國一地位

中方奉陪到底!訪華遲遲沒回復(fù),特朗普掀桌了,要廢除中國一地位

愛下廚的阿釃
2026-02-28 17:26:01
隨著一場0-3慘敗 國乒罕見顆粒無收!新加坡大滿貫3月1日賽程出爐

隨著一場0-3慘敗 國乒罕見顆粒無收!新加坡大滿貫3月1日賽程出爐

郝小小看體育
2026-03-01 00:14:26
汪小菲首次回應(yīng)包機(jī)事件,談到S家直呼無語,對黑粉毫不客氣

汪小菲首次回應(yīng)包機(jī)事件,談到S家直呼無語,對黑粉毫不客氣

小徐講八卦
2026-03-01 06:14:05
馬云無眠張紀(jì)中淚目!半個商圈大佬齊聚送別,這個男人啥來頭?

馬云無眠張紀(jì)中淚目!半個商圈大佬齊聚送別,這個男人啥來頭?

老特有話說
2026-01-17 16:26:05
陳若琳也沒想到,春節(jié)剛過10天,全紅嬋僅憑一個舉動再次口碑暴增

陳若琳也沒想到,春節(jié)剛過10天,全紅嬋僅憑一個舉動再次口碑暴增

胡一舸南游y
2026-02-28 19:29:19
馬斯克長子首登Gucci秀場:臺步拉滿爭議,全靠爹的流量撐場

馬斯克長子首登Gucci秀場:臺步拉滿爭議,全靠爹的流量撐場

述家娛記
2026-02-28 08:54:00
伊朗第九輪導(dǎo)彈射向以色列

伊朗第九輪導(dǎo)彈射向以色列

財聯(lián)社
2026-03-01 01:00:05
主動投案,華潤集團(tuán)副總經(jīng)理韓嵩被查

主動投案,華潤集團(tuán)副總經(jīng)理韓嵩被查

都市快報橙柿互動
2026-02-28 20:12:56
哈梅內(nèi)伊將發(fā)表公開講話,伊朗外長:有指揮官犧牲!伊朗新一輪導(dǎo)彈攻擊開始,已有14個美軍基地遭襲擊!安理會應(yīng)中俄要求緊急開會

哈梅內(nèi)伊將發(fā)表公開講話,伊朗外長:有指揮官犧牲!伊朗新一輪導(dǎo)彈攻擊開始,已有14個美軍基地遭襲擊!安理會應(yīng)中俄要求緊急開會

每日經(jīng)濟(jì)新聞
2026-02-28 23:59:05
男子被綠后還被判凈身出戶,女法官說男人要大度,男子兩槍殺之

男子被綠后還被判凈身出戶,女法官說男人要大度,男子兩槍殺之

干史人
2026-02-23 13:25:10
女子故意扮丑去相親,男子一眼看中,女子吃驚:他是不是太餓了

女子故意扮丑去相親,男子一眼看中,女子吃驚:他是不是太餓了

丫頭舫
2026-02-10 22:18:05
中國男籃vs中國臺北前瞻:趙睿領(lǐng)銜三控衛(wèi)+胡金秋成關(guān)鍵 劍指連勝

中國男籃vs中國臺北前瞻:趙睿領(lǐng)銜三控衛(wèi)+胡金秋成關(guān)鍵 劍指連勝

醉臥浮生
2026-03-01 04:59:46
再爆大冷6-4!霍金斯連勝世界第3第4,及第10吳宜澤,晉級決賽了

再爆大冷6-4!霍金斯連勝世界第3第4,及第10吳宜澤,晉級決賽了

小火箭愛體育
2026-03-01 01:02:25
又來?!皮特朱莉24歲兒子放棄皮特姓氏!已經(jīng)第四個了啊...

又來?!皮特朱莉24歲兒子放棄皮特姓氏!已經(jīng)第四個了啊...

英國那些事兒
2026-02-27 23:25:01
反轉(zhuǎn)!日媒承認(rèn)主場哨,央視主持罕見諷刺裁判,中國男籃迎生死戰(zhàn)

反轉(zhuǎn)!日媒承認(rèn)主場哨,央視主持罕見諷刺裁判,中國男籃迎生死戰(zhàn)

慢歌輕步謠
2026-02-28 16:26:39
2026-03-01 10:36:49
搜狐科技 incentive-icons
搜狐科技
搜狐科技官方賬號
4702文章數(shù) 9180關(guān)注度
往期回顧 全部

科技要聞

小米超跑概念車全球首秀!殺入頂豪俱樂部

頭條要聞

哈梅內(nèi)伊遇襲身亡 特朗普:被擊斃的領(lǐng)導(dǎo)人都無計可施

頭條要聞

哈梅內(nèi)伊遇襲身亡 特朗普:被擊斃的領(lǐng)導(dǎo)人都無計可施

體育要聞

球隊主力全報銷?頂風(fēng)擺爛演都不演了

娛樂要聞

周杰倫兒子正面照曝光,與父親好像

財經(jīng)要聞

沖突爆發(fā) 市場變天?

汽車要聞

極石汽車2月交付1298臺 銷量漲至上年200%

態(tài)度原創(chuàng)

教育
健康
房產(chǎn)
手機(jī)
公開課

教育要聞

專業(yè)排名百分比揭秘!別再理解錯了

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

房產(chǎn)要聞

濱江九小也來了!集齊海僑北+哈羅、寰島...江東教育要炸了!

手機(jī)要聞

華為HarmonyOS 6花粉Beta版更新包超18G,曝端側(cè)模型占大半

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版