国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

只有0.9B的PaddleOCR-VL,卻是現(xiàn)在最強的OCR模型。

0
分享至

這幾天,OCR這個詞,絕對是整個AI圈最火的詞。

因為DeepSeek-OCR,甚至讓OCR這個賽道文藝復(fù)興,又給直接帶火了。


整個Hugging Face的趨勢版里,前4有3個OCR,甚至Qwen3-VL-8B也能干OCR的活,說一句全員OCR真的不過分。

然后在我上一篇講DeepSeek-OCR文章的評論區(qū)里,有很多朋友都在把DeepSeek-OCR跟 PaddleOCR-VL做對比, 也有很多人都在問,能不能再解讀一下百度那個OCR模型(也就是 PaddleOCR-VL) 。



所以我也覺得,不如就來寫一篇關(guān)于 PaddleOCR-VL的內(nèi)容吧。

非常坦誠的講,百度家的東西,我寫的一直都會非常謹(jǐn)慎。

但是這個PaddleOCR-VL,是我真的覺得值得一寫的。

因為,確實很牛逼。


首先提一下,PaddleOCR這個項目本身,不是啥新東西,這是百度一直都在做的項目,很多年了,最早期甚至可以追溯到2020年,也是一直是開源的姿態(tài)。


后來他們就不斷的迭代,整整5年時間,成了整個OCR領(lǐng)域最火的開源,現(xiàn)在也應(yīng)該是現(xiàn)在Github上Star最高的OCR項目,有60K,基本屬于斷檔領(lǐng)先。


而 PaddleOCR-VL模型,就是他們 前幾天開源了他們的PaddleOCR系列里最新的模型,這也是第一次,把大模型用在了整個OCR文檔解析的最核心的位置。


整個模型只有0.9B,但是幾乎在OCR的評測集叫OmniDocBench v1.5的所有子項,都做到了SOTA。


左邊有三個類型,分別是傳統(tǒng)的多階段流水線系統(tǒng)、通用多模態(tài)大模型、專門為文檔解析訓(xùn)練的視覺語言模型。

PaddleOCR-VL參數(shù)最小,效果最好,然后因為發(fā)的剛好早了三四天,所以表里沒有DeepSeek-OCR的跑分,但是 OmniDocBench v1.5 的最新跑分昨天也出爐了, DeepSeek-OCR 綜合跑分是86.46,比 PaddleOCR-VL的92.56還是低了大概6分,不過也能理解。


PaddleOCR-VL 確實足夠的猛,在垂直模型領(lǐng)域,把性價比做到了極致。

你可能會有一點點好奇,為啥一個0.9B的模型,能比其他的大模型都要強。

除了確實專精這個領(lǐng)域之外,還有個非常有趣的架構(gòu),是我覺得單獨可以說一下的。

也是長上下文和避免幻覺的一種非常有趣的解法。


很多的多模態(tài)大模型,是端到端的,他們干OCR的方式其實是非常低效的。

就是你把一整張A4紙扔給它,它需要一口氣把這張圖上所有的文字、表格、公式、圖片、排版等等全都看懂,然后再一口氣生成一個完美的Markdown,這個難度,其實也挺地獄級的。

畢竟模型需要同時理解:“哦,這塊是個表,它在頁面的左上角,這個表有3行5列,哦表頭是這個,哦內(nèi)容是那個,它旁邊的這段文字是在解釋這個表……哦哎臥槽我第一個事是要干啥來著。。?!?

PaddleOCR-VL的做法就挺高效好玩的,它的架構(gòu),就兩步:

第一步,先讓專干布局分析的傳統(tǒng)視覺模型上。這個玩意叫PP-DocLayoutV2,它干的活兒特純粹,就是“框”。

它以極快的速度掃一眼整張圖,然后把一些區(qū)域都框起來,然后告訴你:“報告老板,這里是標(biāo)題,那里是正文,這塊是個表,那塊是公式。” 而且每個框的閱讀順序,也都是符合人類的閱讀順序的。

這個活兒,在CV領(lǐng)域已經(jīng)很成熟了,根本不需要一個大模型來搞。


第二步,就是主力登場。這個主力,就是最核心的這個0.9B的PaddleOCR-VL模型。

它現(xiàn)在接到的任務(wù),根本不是去看那張復(fù)雜的A4紙。它接到的是一堆被PP-DocLayoutV2裁好的小圖片。

一個任務(wù)是:“這是一張200x500的小圖,我(PP-DocLayoutV2)已經(jīng)告訴你這是個表了,你(PaddleOCR-VL)給我把它轉(zhuǎn)成Markdown?!?

下一個任務(wù)是:“這是一張50x50的小圖,我知道這是個公式,你給我轉(zhuǎn)成LaTeX。”

然后循環(huán)往復(fù),最后,又準(zhǔn)又快。

所以這種做法,根本不需要復(fù)雜的幾百B的大模型,直接上0.9B的模型,卻能達到最完美的效果。

我之所以把這個點單獨拿出來說,也是想表達我的一個觀點:

在普通用戶眼里,其實很多時候技術(shù)根本沒有優(yōu)劣,能解決用戶的問題,就是最牛逼的技術(shù)。黑貓白貓,能抓到耗子的,就是好貓。

至少我認為,PaddleOCR-VL的做法,就非常的巧勁。

我也專門找了幾類特別有代表性,處理起來比較頭疼的圖片來給大家看一下實測的效果。

首先肯定是掃描PDF,這種應(yīng)該是重中之重,比如下面這張非常糊的掃描件截圖,肉眼看起來也會有點吃力。


糊不拉幾的,我眼睛看著都疼。

而把這個扔給PaddleOCR-VL,它處理起來很順利,先是把需要識別的地方框了出來,并打上了閱讀循序的序號。


然后是第二步,分塊識別出結(jié)果,效果很不錯,公式也識別出來了。


我詳細核對了2、3遍,發(fā)現(xiàn)確實一個字都沒錯。

最后的那個+號后面之所以沒東西了,是因為我截圖的時候,不小心讓搜狗輸入法的圖標(biāo)給擋住了。。。

我又找了一些手寫筆記的照片去試,這玩意絕對是OCR領(lǐng)域的硬骨頭。

不管是中文還是英文,只要字跡別太潦草到像天書一樣,PaddleOCR-VL給出的識別結(jié)果準(zhǔn)確率都還挺在線的。

對比很多工具碰到手寫基本就歇菜的情況,這個已經(jīng)很能打了。


當(dāng)然,前提是你的手寫字得大致能看懂,如果是醫(yī)生的那種字,我覺得神仙來了都沒用。。。

然后是論文這種排版密集的。報紙那小字、多分欄、緊湊的布局,對布局分析和識別都是不小的挑戰(zhàn)。

實測下來,PaddleOCR-VL對多欄的處理還比較穩(wěn)定,閱讀順序也能捋順,文字識別本身也沒啥毛病,基本全對,總體效果挺好。


因為支持端到端的解析,所以能給你把一些圖表啥的都給你還原回來。


這個點非常的牛逼。

還有就是票據(jù),像發(fā)票收據(jù)這些。格式雖然相對固定,但里面混著機打字、數(shù)字、手寫補充、甚至蓋章,挺復(fù)雜的。

PaddleOCR-VL在處理這類半結(jié)構(gòu)化文檔、抓取關(guān)鍵信息時表現(xiàn)還行,我自己跑了很多次,不能說百分百沒差錯,但在同類模型里,已經(jīng)算非??孔V的了。


感覺這個已經(jīng)完全可以替換我們現(xiàn)在多維表格上用的視覺大模型,接入到我們公司財務(wù)的多維表格系統(tǒng)里面了。。。

準(zhǔn)確性強很多,真的能節(jié)省財務(wù)的不少時間。

還有那種大型表格,這就是重頭戲了。

不管是論文里那種帶合并單元格的復(fù)雜表,還是財報里密密麻麻的數(shù)字表,甚至是沒啥框線的表,PaddleOCR-VL的表格結(jié)構(gòu)識別能力是有一點讓我驚訝的,不光能認出格子里面的字,還能把表格的行列關(guān)系比較好地還原出來,這對我們的一些自動化信息提取非常有幫助。

比如就是上文里面的那個跑分圖。

識別提取出來之后,沒有一丁點問題,這個是有點離譜的。


總的來說,這些實測跑下來,PaddleOCR-VL在處理這些復(fù)雜和刁鉆的場景時,表現(xiàn)確實可圈可點。

而且實測確實會比DeepSeek-OCR準(zhǔn)確更高,DeepSeek-OCR提取的時候總是會錯一兩個字,PaddleOCR-VL是一字不錯,當(dāng)然你不能把DeepSeek-OCR純看成是一個純OCR模型,畢竟意義還是不太一樣。

我們自己其實有很多飛書多維表格的信息提取工作流,也已經(jīng)在考慮換成PaddleOCR-VL了。

比如我們經(jīng)常需要,批量上傳一些各個平臺的數(shù)據(jù)截圖,然后提取里面的一些結(jié)構(gòu)化信息。


現(xiàn)在都是接了一些比較大的多模態(tài)大模型來做提取的,有一說一,從價格上來說,會比PaddleOCR-VL這種貴很多,而且有時候還會出錯。

感覺把PaddleOCR-VL接進去,會是目前的最優(yōu)解。

目前PaddleOCR-VL已經(jīng)開源,網(wǎng)址在此:

https://github.com/PaddlePaddle/PaddleOCR

我本來想跟DeepSeek-OCR一樣,給大家手搓一個Windows的本地整合包,讓大家能開箱即用,結(jié)果因為不同于一些常規(guī)的大模型,折騰了一夜,干到凌晨4點多,兩眼發(fā)黑,還是沒做出來,這個只能說對不起大家,還是有點太菜了= =

所以現(xiàn)階段,大家如果有自己部署能力的,可以自己根據(jù)PaddleOCR Github上的部署教程來部署到本地。

只是想用一下的,不想折騰部署的,可以去各大demo平臺上用官方自己部署的體驗版本。

飛槳:https://aistudio.baidu.com/application/detail/98365

魔搭:https://www.modelscope.cn/studios/PaddlePaddle/PaddleOCR-VL_Online_Demo

Hugging Face:https://huggingface.co/spaces/PaddlePaddle/PaddleOCR-VL_Online_Demo

最后,還是想多說幾句。

DeepSeek-OCR探索的上下文光學(xué)壓縮確實非常新,也打開了大家對人類視覺感知的一些新的想象。

百度的PaddleOCR-VL,更是從實際出發(fā),在一個細分領(lǐng)域達到了SOTA,成為了這個領(lǐng)域效果最好的模型。

高效、準(zhǔn)確,也能實實在在地提升我們處理文檔信息的效率。

兩者都是非常優(yōu)秀的工作,沒有誰比誰強。

都是在自己領(lǐng)域。

最亮眼的仔。

以上,既然看到這里了,如果覺得不錯,隨手點個贊、在看、轉(zhuǎn)發(fā)三連吧,如果想第一時間收到推送,也可以給我個星標(biāo)?~謝謝你看我的文章,我們,下次再見。

>/ 作者:卡茲克

>/ 投稿或爆料,請聯(lián)系郵箱:wzglyay@virxact.com

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
最高院:因配偶債務(wù)本人名下存款或其他資產(chǎn)被凍結(jié)的,如何救濟?

最高院:因配偶債務(wù)本人名下存款或其他資產(chǎn)被凍結(jié)的,如何救濟?

周軍律師聊案子
2026-03-02 10:10:05
交了物業(yè)費還收車位管理費?2026年這4種情況,你可以直接拒交

交了物業(yè)費還收車位管理費?2026年這4種情況,你可以直接拒交

阿離家居
2026-03-01 16:53:47
贏球僅1天,中國男籃壞消息傳來:將失去1個主場,沖4連勝難了

贏球僅1天,中國男籃壞消息傳來:將失去1個主場,沖4連勝難了

墨印齋
2026-03-02 19:24:09
官宣!17歲新星前鋒,獲中國足球金童獎,U17亞預(yù)賽狂轟5場9球

官宣!17歲新星前鋒,獲中國足球金童獎,U17亞預(yù)賽狂轟5場9球

小金體壇大視野
2026-03-02 17:08:27
曾是央視知名主持,如今桂林街頭買菜!她的選擇為何讓人深思?

曾是央視知名主持,如今桂林街頭買菜!她的選擇為何讓人深思?

全球風(fēng)情大揭秘
2026-01-11 23:10:48
俄鐵公司將于3月開通前往中國的客運列車

俄鐵公司將于3月開通前往中國的客運列車

俄羅斯衛(wèi)星通訊社
2026-03-01 16:07:36
你們都是什么時候?qū)δ信麻_竅的?網(wǎng)友:果然還是攔不住有心人

你們都是什么時候?qū)δ信麻_竅的?網(wǎng)友:果然還是攔不住有心人

夜深愛雜談
2026-02-21 21:37:02
男人壽命短,根源不在煙酒,而在你每晚的睡覺里

男人壽命短,根源不在煙酒,而在你每晚的睡覺里

青蘋果sht
2026-02-26 07:24:18
2026年養(yǎng)老金或再漲,低于3000元漲10%,高于6000元停漲可行嗎?

2026年養(yǎng)老金或再漲,低于3000元漲10%,高于6000元停漲可行嗎?

另子維愛讀史
2026-03-02 19:31:35
居心叵測!國際籃聯(lián)道歉后又搞事情,主動提及慘案,男籃強勢打臉

居心叵測!國際籃聯(lián)道歉后又搞事情,主動提及慘案,男籃強勢打臉

去山野間追風(fēng)
2026-03-03 01:36:49
終于不用打碼了!汪小菲高調(diào)曬三胎兒子,馬筱梅讓倆孩子徹底歸心

終于不用打碼了!汪小菲高調(diào)曬三胎兒子,馬筱梅讓倆孩子徹底歸心

未曾青梅
2026-03-01 20:05:13
“一家子碳水臉!”3個男生寒假伙食遭2.6w圍觀:你家人真好養(yǎng)活

“一家子碳水臉!”3個男生寒假伙食遭2.6w圍觀:你家人真好養(yǎng)活

墨印齋
2026-03-01 22:08:59
開拓者用雙向合同簽下前雷霆后場新星,他在發(fā)展聯(lián)盟表現(xiàn)出色?

開拓者用雙向合同簽下前雷霆后場新星,他在發(fā)展聯(lián)盟表現(xiàn)出色?

稻谷與小麥
2026-03-03 00:51:37
一場34分慘敗,讓開拓者看清楊瀚森,中國球迷開始理解斯普利特

一場34分慘敗,讓開拓者看清楊瀚森,中國球迷開始理解斯普利特

天光破云來
2026-03-02 20:48:11
掃地出門!曝曼聯(lián)決定出售兩大主力!1.45億強援強勢“空降”

掃地出門!曝曼聯(lián)決定出售兩大主力!1.45億強援強勢“空降”

頭狼追球
2026-03-02 09:34:35
美國軍力全球第一,敢打任何國家?俄潑冷水:這4國你敢打誰?

美國軍力全球第一,敢打任何國家?俄潑冷水:這4國你敢打誰?

近史談
2026-01-19 10:09:51
中美日首次世界500強排名斷崖差距:美151家,日149家,中國呢?

中美日首次世界500強排名斷崖差距:美151家,日149家,中國呢?

阿柒的訊
2025-12-04 19:39:35
笑不活了,看來傍大款這碗飯不是誰都能吃的!網(wǎng)友:我可下不了嘴

笑不活了,看來傍大款這碗飯不是誰都能吃的!網(wǎng)友:我可下不了嘴

另子維愛讀史
2026-03-01 23:17:53
48歲男子陰莖癌晚期,私生活干凈,妻子痛心:1件事,他改不了

48歲男子陰莖癌晚期,私生活干凈,妻子痛心:1件事,他改不了

全球軍事記
2026-03-02 10:15:12
又有2名間諜被抓!潛藏17年,泄露大量國家機密,身份曝光不簡單

又有2名間諜被抓!潛藏17年,泄露大量國家機密,身份曝光不簡單

boss外傳
2026-03-01 12:00:03
2026-03-03 03:08:49
數(shù)字生命卡茲克 incentive-icons
數(shù)字生命卡茲克
反復(fù)橫跳于不同的AI領(lǐng)域,努力分享一些很酷的AI干貨
465文章數(shù) 553關(guān)注度
往期回顧 全部

科技要聞

蘋果中國官網(wǎng)上線iPhone 17e,4499元起

頭條要聞

中國留學(xué)生:很多人得知哈梅內(nèi)伊身亡后 決定盡快撤離

頭條要聞

中國留學(xué)生:很多人得知哈梅內(nèi)伊身亡后 決定盡快撤離

體育要聞

“想要我簽名嗎” 梅西逆轉(zhuǎn)后嘲諷對手主帥

娛樂要聞

李亞鵬與哥哥和解 只有一條真心話短信

財經(jīng)要聞

油價飆升 美伊沖突將如何攪動全球經(jīng)濟

汽車要聞

國民SUV再添一員 瑞虎7L靜態(tài)體驗

態(tài)度原創(chuàng)

藝術(shù)
時尚
旅游
本地
軍事航空

藝術(shù)要聞

這四位老人的花鳥畫,竟讓人欲罷不能!

今年春天一定要擁有的4件衣服,太好看了!

旅游要聞

熱度飆升!非遺、冰雪…禹州元宵“文旅大餐”承包圓滿佳節(jié)!

本地新聞

津南好·四時總相宜

軍事要聞

美國中央司令部透露對伊朗動武全部武器裝備清單

無障礙瀏覽 進入關(guān)懷版