国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

阿里巴巴團(tuán)隊(duì)開源,OCR 又來一個(gè)高手,第一!

0
分享至

大家好,我是Ai學(xué)習(xí)的老章

OCR 我寫過太多了,每隔一段時(shí)間就有新模型出來:

今天這位選手是阿里巴巴團(tuán)隊(duì)開源的Logics-Parsing-v2,在兩個(gè)主流 Benchmark 上直接拿了第一:自家的 LogicsDocBench 拿了82.16 分,公開的 OmniDocBench-v1.5 拿了93.23 分,都是目前最高分。


https://www.modelscope.cn/studios/Alibaba-DT/Logics-Parsing/summary?spm=label.24dbbd5e.0.0.34862eb7aIqtVk 這模型有啥不一樣?

市面上 OCR 模型一大把,Logics-Parsing-v2 憑啥能打?核心就兩個(gè)字:全能

傳統(tǒng) OCR 做的事情比較窄——識別文字、提取表格、處理公式。但實(shí)際文檔遠(yuǎn)比這復(fù)雜:報(bào)紙那種多欄排版、跨頁表格、豎排文字、手寫內(nèi)容……這些"臟活累活",大部分模型處理得都不太行。

Logics-Parsing-v2 在 v1 的基礎(chǔ)上,除了把這些傳統(tǒng)任務(wù)做得更好之外,還加了一個(gè)全新的能力維度,叫Parsing-2.0——支持解析以下內(nèi)容:

  • 流程圖 / 思維導(dǎo)圖→ 輸出 Mermaid 格式

  • 樂譜→ 輸出 ABC 記譜法

  • 代碼塊 / 偽代碼→ 結(jié)構(gòu)化提取

  • 化學(xué)分子式→ SMILES 格式

你沒看錯(cuò),它能看懂樂譜。這在 OCR 領(lǐng)域算是相當(dāng)炸裂的能力了。


Logics-Parsing-v2 能力概覽——從傳統(tǒng)文檔到流程圖、樂譜、代碼全覆蓋 Benchmark 成績單

先看自家的LogicsDocBench,這是阿里專門建的評測集,900 頁 PDF,覆蓋三大場景:

場景

頁數(shù)

包含內(nèi)容

STEM 文檔

218 頁

物理、數(shù)學(xué)、工程等十多個(gè)學(xué)科

復(fù)雜排版

459 頁

多欄、跨頁表格、豎排、圖文混排

Parsing-2.0

223 頁

化學(xué)式、樂譜、代碼塊、流程圖

在這個(gè) Benchmark 上,Logics-Parsing-v2 以82.16 分的總分排名第一,遠(yuǎn)超其他選手。


LogicsDocBench 評測結(jié)果——Logics-Parsing-v2 全面領(lǐng)先

再看公開的OmniDocBench-v1.5,這個(gè)是業(yè)界公認(rèn)的文檔解析評測標(biāo)準(zhǔn)。Logics-Parsing-v2 拿了93.23 分,同樣是最高分——比 Gemini 2.5 Pro、GPT-5、豆包 1.6 這些閉源大模型都高。


OmniDocBench-v1.5 評測結(jié)果——開源模型首次登頂

說實(shí)話,開源 OCR 模型在 OmniDocBench 上打贏閉源大模型,這還是頭一次。之前我測過不少 OCR 模型,閉源的 Mathpix、doc2x 一直是天花板,現(xiàn)在這個(gè)天花板被捅穿了。

跟其他模型比怎么樣?

在阿里自建的 Benchmark 上(v1 評測,數(shù)值越低越好,TEDS 越高越好):

幾個(gè)值得關(guān)注的對比:

  • vs Gemini 2.5 Pro:Logics-Parsing 在英文文本(0.089 vs 0.115)、表格(0.165 vs 0.154 接近)上都有競爭力

  • vs Mathpix:公式識別 Mathpix 還是很強(qiáng)(0.06 vs 0.106),但綜合能力 Logics-Parsing 更好

  • vs MonkeyOCR / GOT-OCR:全面領(lǐng)先,不在一個(gè)檔次

  • vs 通用大模型(GPT-5、Qwen2.5VL-72B):專用模型優(yōu)勢明顯

一個(gè)模型,端到端推理,不需要復(fù)雜的 pipeline,直接圖片進(jìn)、HTML 出。這個(gè)思路比傳統(tǒng)的"檢測+識別+后處理"流水線簡潔太多了。

輸出格式很講究

Logics-Parsing-v2 輸出的不是純文本,而是結(jié)構(gòu)化 HTML

每個(gè)內(nèi)容塊都帶有:

  • 類別標(biāo)簽:段落、表格、圖片、公式等

  • 邊界框坐標(biāo):精確到像素級的位置信息

  • OCR 文本:識別出的內(nèi)容

對于 Parsing-2.0 的新場景,輸出格式也做了定制:

  • 流程圖 →Mermaid語法(可以直接渲染)

  • 樂譜 →ABC 記譜法(音樂人看得懂)

  • 化學(xué)式 →SMILES格式(化學(xué)標(biāo)準(zhǔn)表示)

這意味著你拿到輸出之后,不需要再做什么后處理,直接就能用。

怎么跑?

部署很簡單:

conda create -n logics-parsing-v2 python=3.10
conda activate logics-parsing-v2
pip install -r requirements.txt

下載模型(HuggingFace 或 ModelScope 二選一):

# HuggingFace
pip install huggingface_hub
python download_model_v2.py -t huggingface


# ModelScope(國內(nèi)更快)
pip install modelscope
python download_model_v2.py -t modelscope

推理一行搞定:

python3 inference_v2.py --image_path 你的圖片路徑 --output_path 輸出目錄 --model_path 模型路徑

基于 Qwen3-VL 架構(gòu),對 GPU 有一定要求,但不算離譜。

實(shí)際效果展示

說了這么多數(shù)據(jù),看幾個(gè)實(shí)際效果:

扭曲文檔識別——拍照角度歪斜、紙張彎曲,照樣準(zhǔn)確識別:


扭曲文檔識別效果

STEM 文檔——復(fù)雜的數(shù)學(xué)公式、物理圖表,結(jié)構(gòu)完整保留:


STEM 文檔解析效果

代碼塊識別——不只是識別文字,還能保留代碼結(jié)構(gòu):


代碼塊識別效果

流程圖解析——識別流程圖并轉(zhuǎn)成 Mermaid 代碼,可以直接渲染:


流程圖解析效果

樂譜識別——這個(gè)真的是第一次在 OCR 模型里見到:


樂譜識別效果 總結(jié)

Logics-Parsing-v2 給我的感覺就是:OCR 這個(gè)賽道,終于有一個(gè)模型把"全能"兩個(gè)字做到位了。

  • 雙 Benchmark 第一:LogicsDocBench 82.16,OmniDocBench-v1.5 93.23

  • Parsing-2.0:流程圖、樂譜、代碼、化學(xué)式,傳統(tǒng) OCR 碰都不碰的東西它全能解

  • 端到端單模型:不需要復(fù)雜 pipeline,圖片進(jìn) HTML 出

  • 開源免費(fèi):代碼和模型全部開放

如果你在做文檔數(shù)字化、論文解析、知識庫構(gòu)建這類工作,這個(gè)模型真的值得試試。

  • GitHub:https://github.com/alibaba/Logics-Parsing

  • HuggingFace 模型:https://huggingface.co/Logics-MLLM/Logics-Parsing-v2

  • 在線 Demo:https://www.modelscope.cn/studios/Alibaba-DT/Logics-Parsing/summary

制作不易,如果這篇文章覺得對你有用,可否點(diǎn)個(gè)關(guān)注。給我個(gè)三連擊:點(diǎn)贊、轉(zhuǎn)發(fā)和在看。若可以再給我加個(gè),謝謝你看我的文章,我們下篇再見!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
醪糟再次被關(guān)注!醫(yī)生發(fā)現(xiàn):高血脂患者喝醪糟,不用多久4大變化

醪糟再次被關(guān)注!醫(yī)生發(fā)現(xiàn):高血脂患者喝醪糟,不用多久4大變化

芹姐說生活
2026-04-19 15:52:53
澆小麥的地下水變成血紅色,誰來守護(hù)我們的生存底線?

澆小麥的地下水變成血紅色,誰來守護(hù)我們的生存底線?

記錄劉杰
2026-04-19 21:39:47
伊朗籍中國貨輪!在公海被美軍扣押后,不到24小時(shí),中方表態(tài)

伊朗籍中國貨輪!在公海被美軍扣押后,不到24小時(shí),中方表態(tài)

離離言幾許
2026-04-20 22:15:30
19歲女孩挪用自家1700萬當(dāng)“榜一大姐” 親爹帶女兒自首:坐牢才有可能追回錢款

19歲女孩挪用自家1700萬當(dāng)“榜一大姐” 親爹帶女兒自首:坐牢才有可能追回錢款

封面新聞
2026-04-20 17:48:14
日本將地震震級調(diào)整至7.5級

日本將地震震級調(diào)整至7.5級

界面新聞
2026-04-20 16:30:33
這跟不穿有啥區(qū)別?Rose真空上陣、穿鏤空透視,卻被中國女星搶鏡

這跟不穿有啥區(qū)別?Rose真空上陣、穿鏤空透視,卻被中國女星搶鏡

天天熱點(diǎn)見聞
2026-04-18 08:09:59
將對決趙心童!39歲丁俊暉爆發(fā):10-5淘汰世界第25 連續(xù)2年進(jìn)16強(qiáng)

將對決趙心童!39歲丁俊暉爆發(fā):10-5淘汰世界第25 連續(xù)2年進(jìn)16強(qiáng)

風(fēng)過鄉(xiāng)
2026-04-20 19:41:28
伊朗萬噸大船沖向美軍封鎖線,特朗普暴怒!美官員直接點(diǎn)中國的名

伊朗萬噸大船沖向美軍封鎖線,特朗普暴怒!美官員直接點(diǎn)中國的名

二大爺觀世界
2026-04-20 20:36:50
被蘋果、華為干倒的諾基亞,又殺回來了!

被蘋果、華為干倒的諾基亞,又殺回來了!

大佬灼見
2026-04-19 10:28:53
余承東:我們成本扛不住了,希望大家早點(diǎn)購買

余承東:我們成本扛不住了,希望大家早點(diǎn)購買

映射生活的身影
2026-04-20 21:53:17
歐爾班下臺,這個(gè)歐洲國家卻可能再次擁抱一位親俄領(lǐng)導(dǎo)人

歐爾班下臺,這個(gè)歐洲國家卻可能再次擁抱一位親俄領(lǐng)導(dǎo)人

上觀新聞
2026-04-20 15:58:42
狂跌90%!造假成風(fēng),中產(chǎn)追捧的網(wǎng)紅飲品淪為“智商稅”!

狂跌90%!造假成風(fēng),中產(chǎn)追捧的網(wǎng)紅飲品淪為“智商稅”!

青眼財(cái)經(jīng)
2026-04-20 15:03:39
“按按鈕就行”:官媒的“大國工匠”是如何失誤的?

“按按鈕就行”:官媒的“大國工匠”是如何失誤的?

虔青
2026-04-20 13:25:48
人心散了!34分慘敗引發(fā)內(nèi)訌,趙繼偉發(fā)社媒表達(dá)不滿,怒噴隊(duì)友

人心散了!34分慘敗引發(fā)內(nèi)訌,趙繼偉發(fā)社媒表達(dá)不滿,怒噴隊(duì)友

南海浪花
2026-04-20 23:37:05
“愛奇藝瘋了”沖上熱搜第一,CEO獨(dú)家回應(yīng)

“愛奇藝瘋了”沖上熱搜第一,CEO獨(dú)家回應(yīng)

第一財(cái)經(jīng)資訊
2026-04-20 17:24:18
4月21日精選熱點(diǎn):光纖價(jià)格暴漲650%  這3家處于底部龍頭要起爆

4月21日精選熱點(diǎn):光纖價(jià)格暴漲650% 這3家處于底部龍頭要起爆

元芳說投資
2026-04-20 21:31:20
為什么全國人民都在拒接電話?

為什么全國人民都在拒接電話?

黯泉
2026-04-18 17:00:56
77歲的牛群:折騰半生傾家蕩產(chǎn),晚年被美國畢業(yè)的兒子悉心照料

77歲的牛群:折騰半生傾家蕩產(chǎn),晚年被美國畢業(yè)的兒子悉心照料

她時(shí)尚丫
2026-04-19 21:41:30
日本一觀光直升機(jī)墜入火山口,2名中國臺灣游客與1名日本機(jī)長失蹤已3月,日媒稱生還可能性極低,擬動(dòng)用無人機(jī)重機(jī)具進(jìn)入火口作業(yè)

日本一觀光直升機(jī)墜入火山口,2名中國臺灣游客與1名日本機(jī)長失蹤已3月,日媒稱生還可能性極低,擬動(dòng)用無人機(jī)重機(jī)具進(jìn)入火口作業(yè)

大風(fēng)新聞
2026-04-20 15:11:31
小學(xué)生拒絕借車遭毆打搜家,一名施暴者及家長上門道歉,教育局稱校園欺凌專干介入,警方:“入室搶劫案”仍在調(diào)查

小學(xué)生拒絕借車遭毆打搜家,一名施暴者及家長上門道歉,教育局稱校園欺凌專干介入,警方:“入室搶劫案”仍在調(diào)查

極目新聞
2026-04-20 16:20:59
2026-04-21 06:03:00
Ai學(xué)習(xí)的老章 incentive-icons
Ai學(xué)習(xí)的老章
Ai學(xué)習(xí)的老章
3339文章數(shù) 11138關(guān)注度
往期回顧 全部

科技要聞

HUAWEI Pura X Max發(fā)布 售價(jià)10999元起

頭條要聞

19歲女孩挪用自家1700萬當(dāng)"榜一大姐" 親爹帶女兒自首

頭條要聞

19歲女孩挪用自家1700萬當(dāng)"榜一大姐" 親爹帶女兒自首

體育要聞

阿森納已拼盡全力,但你早干嘛去了...

娛樂要聞

《八千里路云和月》田家泰暗殺

財(cái)經(jīng)要聞

利潤暴跌7成,字節(jié)到底在做什么

汽車要聞

把天門山搬進(jìn)廠?開仰望U8沖上45度坡的那刻 我腿軟了

態(tài)度原創(chuàng)

旅游
藝術(shù)
時(shí)尚
房產(chǎn)
公開課

旅游要聞

以“Fun”為名,深圳布吉將發(fā)布全域旅游品牌IP

藝術(shù)要聞

春天最適合小住三五天的地方

春天衣服不用準(zhǔn)備太多!這幾大單品提前備好,百搭實(shí)用又不過時(shí)

房產(chǎn)要聞

大規(guī)模商改?。『?谖骱0叮@波項(xiàng)目要贏麻了!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版