国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

又一個(gè) OCR 新模型開(kāi)源了

0
分享至

繼續(xù)聊 OCR,不過(guò)這次我覺(jué)得重點(diǎn)不只是“識(shí)別準(zhǔn)不準(zhǔn)”,而是另一個(gè)更容易被忽視、但更影響真實(shí)落地的問(wèn)題:結(jié)構(gòu)到底對(duì)不對(duì)。

2026 年 2 月 28 日,F(xiàn)ireRedTeam 放出了FireRed-OCR-2B權(quán)重;2026 年 3 月 2 日,團(tuán)隊(duì)又把技術(shù)報(bào)告掛到了 arXiv??赐暾撐暮湍P涂ㄖ?,我的第一感覺(jué)是:這項(xiàng)目不是在拼“再做一個(gè) OCR”,而是在認(rèn)真解決通用 VLM 做文檔解析時(shí)最煩人的老毛?。?strong>結(jié)構(gòu)幻覺(jué)。

但是說(shuō)實(shí)話,識(shí)別一些有難度的表格,它還是差點(diǎn)意思,底座2B,不能要求太高。

比如下圖是我隨手截取的招股說(shuō)明書(shū)中一張表格

其中難點(diǎn):表格無(wú)線(不連續(xù))、表頭嵌套、括號(hào)、省略號(hào)、縮進(jìn)、空白、繁體字、小字、黑色下劃線,帶換行的合并單元格等各種干擾因素。


表格后半部分的識(shí)別就完全垮掉了


還有一個(gè)我的專用測(cè)試圖(這張圖難點(diǎn)很多)


就單說(shuō)表格部分也算還行吧,跟 DeepSeek、GLM、混元、Paddle 這幾個(gè) OCR 還是有點(diǎn)差距的。


簡(jiǎn)介

一句話講清楚:FireRed-OCR 是一個(gè)把通用視覺(jué)語(yǔ)言模型,專門訓(xùn)成結(jié)構(gòu)化文檔解析專家的框架。

它的底座是Qwen/Qwen3-VL-2B-Instruct。

但它做出來(lái)的結(jié)果很夸張:

  • OmniDocBench v1.5上拿到92.94

  • 在端到端路線里排第一

  • 超過(guò)了DeepSeek-OCR 2(91.09)OCRVerse(88.56)

  • 相比原始底座Qwen3-VL-2B(81.87),直接拉開(kāi)了一個(gè)明顯身位

這里我要專門說(shuō)一句,別被標(biāo)題黨帶偏了。FireRed-OCR 不是當(dāng)前 OmniDocBench 全榜第一。論文和模型卡里給出的數(shù)據(jù)很清楚:如果把 pipeline 方案也算進(jìn)來(lái),GLM-OCR是 94.60,PaddleOCR-VL-1.5是 94.50。FireRed-OCR 真正厲害的地方,是它在end-to-end路線里做到第一,而且只用了一個(gè) 2B 級(jí)別底座。

現(xiàn)在 OCR 賽道最有意思的事,不再是“誰(shuí)能看懂文檔”,而是“誰(shuí)能在小模型、端到端、結(jié)構(gòu)穩(wěn)定這三個(gè)約束下,把結(jié)果做漂亮”。

FireRed-OCR 到底想解決什么

如果你這兩年用過(guò)通用多模態(tài)模型做 PDF 轉(zhuǎn) Markdown,大概率都有過(guò)類似體驗(yàn):

  • 文字識(shí)別得八九不離十

  • 一到表格就開(kāi)始錯(cuò)行錯(cuò)列

  • 一到公式就開(kāi)始漏括號(hào)、少花括號(hào)

  • 一到復(fù)雜排版,閱讀順序直接亂掉

這就是論文里說(shuō)的Structural Hallucination。

通俗點(diǎn)說(shuō),模型“看懂了個(gè)大概”,但它生成出來(lái)的不是一個(gè)可以直接拿去用的結(jié)構(gòu)化結(jié)果。對(duì)于聊天演示,這可能問(wèn)題不大;但對(duì) RAG、知識(shí)庫(kù)清洗、PDF 轉(zhuǎn) Markdown、財(cái)報(bào)解析、論文數(shù)據(jù)抽取這些真實(shí)場(chǎng)景來(lái)說(shuō),這問(wèn)題很致命。

FireRed-OCR 的思路我很喜歡,它不是繼續(xù)讓模型“憑感覺(jué)寫(xiě)”,而是把方向從“印象派生成”往“結(jié)構(gòu)工程”上硬拉。

下圖就是官方給出的基準(zhǔn)測(cè)試結(jié)果,F(xiàn)ireRed-OCR 在端到端方案里確實(shí)很能打:


FireRed-OCR 在 OmniDocBench v1.5 上的性能對(duì)比 它做對(duì)了哪三件事

我把論文和模型卡里的技術(shù)路線壓縮一下,最值得看的其實(shí)就三件事。

第一件事,是數(shù)據(jù)工廠不是亂采樣。

論文里提了一個(gè)很重要的設(shè)計(jì):Geometry + Semantics Data Factory。

什么意思?以前很多 OCR 數(shù)據(jù)構(gòu)建思路,更多是“多收點(diǎn)數(shù)據(jù),多做點(diǎn)增強(qiáng)”。FireRed-OCR 不是這么干的。它強(qiáng)調(diào)幾何特征聚類和多維標(biāo)簽,用來(lái)合成長(zhǎng)尾布局、稀有文檔類型,并且把數(shù)據(jù)分布盡量做平衡。

這件事特別關(guān)鍵。因?yàn)槲臋n解析真正難的,往往不是普通段落,而是那些稀奇古怪的版式:多欄、嵌套表格、公式和文本混排、圖注交錯(cuò)、掃描噪聲、非標(biāo)準(zhǔn)閱讀順序。這些東西不靠數(shù)據(jù)分布設(shè)計(jì),光靠模型參數(shù)堆,很難真解決。

第二件事,是訓(xùn)練流程分三步走。

FireRed-OCR 不是一把梭微調(diào),而是一個(gè)三階段漸進(jìn)式訓(xùn)練:

  1. Multi-task Pre-alignment:先做檢測(cè)、區(qū)域識(shí)別、layout-to-markdown 等任務(wù),讓模型建立空間 grounding

  2. Specialized SFT:再用高質(zhì)量標(biāo)準(zhǔn)化 Markdown 數(shù)據(jù)做監(jiān)督微調(diào),把“完整輸出一頁(yè)結(jié)構(gòu)化結(jié)果”的格式穩(wěn)定下來(lái)

  3. Format-Constrained GRPO:最后上強(qiáng)化學(xué)習(xí),用格式約束獎(jiǎng)勵(lì)去卡公式語(yǔ)法、表格閉合、層級(jí)閉合和文本準(zhǔn)確性

這個(gè)設(shè)計(jì)非常像一個(gè)成熟工程團(tuán)隊(duì)會(huì)做的事。先讓模型“看得準(zhǔn)”,再讓模型“寫(xiě)得穩(wěn)”,最后讓模型“別犯結(jié)構(gòu)性低級(jí)錯(cuò)誤”。

第三件事,是它真把“結(jié)構(gòu)約束”當(dāng)目標(biāo)函數(shù)來(lái)優(yōu)化了。

這一點(diǎn)我覺(jué)得是 FireRed-OCR 最值錢的地方。

很多模型在 OCR 任務(wù)上看起來(lái)文字準(zhǔn)確率不錯(cuò),但一落到 Markdown 或 LaTeX 輸出,結(jié)構(gòu)錯(cuò)一點(diǎn),后續(xù)鏈路就全廢了。FireRed-OCR 直接用Format-Constrained GRPO去獎(jiǎng)勵(lì)公式語(yǔ)法正確、表格完整、層級(jí)閉合,這就等于把“能不能被程序繼續(xù)消費(fèi)”作為訓(xùn)練目標(biāo),而不是只看表面文本像不像。

這張圖是官方給出的整體架構(gòu):


FireRed-OCR 三階段訓(xùn)練架構(gòu) 實(shí)驗(yàn)結(jié)果怎么看

論文和模型卡里最亮眼的一組數(shù)據(jù)是:

  • OmniDocBench v1.5:FireRed-OCR-2B =92.94

  • 文字編輯距離 =0.032

  • 公式分?jǐn)?shù) =91.71

  • 表格TEDS=90.31

  • 表格TEDS_s=93.81

  • 閱讀順序編輯距離 =0.041

如果只看端到端陣營(yíng),這個(gè)結(jié)果確實(shí)很強(qiáng)。

另外還有一個(gè)我很在意的點(diǎn):FireRedBench。這是更偏“野外復(fù)雜文檔”的測(cè)試集。FireRed-OCR-2B 在這里拿到74.62,同一個(gè)底座Qwen3-VL-2B-Instruct65.58,DeepSeek-OCR 261.61。

這說(shuō)明它不是只會(huì)做 benchmark 特化,至少?gòu)墓俜綌?shù)據(jù)看,它在復(fù)雜、不標(biāo)準(zhǔn)版式上也有明顯提升。

當(dāng)然,真實(shí)生產(chǎn)是否穩(wěn),還得看后續(xù)社區(qū)大規(guī)模實(shí)測(cè)。但至少?gòu)姆椒ㄔO(shè)計(jì)到指標(biāo)結(jié)果,這個(gè)項(xiàng)目是自洽的。

安裝

官方給的安裝方式很直接:

pip install transformers
pip install qwen-vl-utils
git clone https://github.com/FireRedTeam/FireRed-OCR.git
cd FireRed-OCR

模型目前托管在 Hugging Face,模型卡標(biāo)注的 license 是Apache-2.0,底座是Qwen/Qwen3-VL-2B-Instruct。

使用

官方給的是基于transformers的推理方式,輸入文檔圖像,輸出結(jié)構(gòu)化 Markdown。

from transformers import Qwen3VLForConditionalGeneration, AutoProcessor
from conv_for_infer import generate_conv

model = Qwen3VLForConditionalGeneration.from_pretrained(
"FireRedTeam/FireRed-OCR",
torch_dtype=torch.bfloat16,
device_map="auto",
)

processor = AutoProcessor.from_pretrained("FireRedTeam/FireRed-OCR")

image_path = "./examples/complex_table.png"
messages = generate_conv(image_path)

inputs = processor.apply_chat_template(
messages,
tokenize=True,
add_generation_prompt=True,
return_dict=True,
return_tensors="pt"
)
inputs = inputs.to(model.device)

generated_ids = model.generate(**inputs, max_new_tokens=8192)
generated_ids_trimmed = [
out_ids[len(in_ids):] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)
]
output_text = processor.batch_decode(
generated_ids_trimmed,
skip_special_tokens=True,
clean_up_tokenization_spaces=False
)
print(output_text)

官方還特別提到,如果場(chǎng)景里有多圖或者視頻,建議開(kāi)flash_attention_2,這樣速度和顯存表現(xiàn)會(huì)更好。

不過(guò)這里也順手提個(gè)邊界:目前公開(kāi)材料里,官方主推的還是 transformers 推理示例。如果你打算直接做大規(guī)模服務(wù)化部署,后續(xù)還得繼續(xù)看社區(qū)有沒(méi)有更成熟的 vLLM、SGLang 或 API server 方案。

我的判斷

如果你問(wèn)我,這項(xiàng)目值不值得跟,我的答案是:值得,而且值得重點(diǎn)看它的方法,不只是看它的分?jǐn)?shù)。

我比較看重它三個(gè)判斷:

  • 判斷一:通用 VLM 不是不能做 OCR,但必須專項(xiàng)訓(xùn)練。

  • 判斷二:OCR 的核心不只是識(shí)字,而是結(jié)構(gòu)完整性。

  • 判斷三:小模型也能打,前提是數(shù)據(jù)工廠和訓(xùn)練目標(biāo)設(shè)計(jì)得足夠狠。

這其實(shí)也解釋了為什么 FireRed-OCR 會(huì)讓我眼前一亮。它不是在講一個(gè)“參數(shù)更大所以更強(qiáng)”的故事,而是在講一個(gè)更靠譜的工程故事:把任務(wù)定義清楚,把數(shù)據(jù)分布做對(duì),把獎(jiǎng)勵(lì)函數(shù)卡在真正影響落地的地方。

當(dāng)然,它現(xiàn)在也不是完美答案。

  • 從榜單看,它還不是全賽道絕對(duì)第一

  • 當(dāng)前公開(kāi)版本主要是 2B 權(quán)重,生態(tài)還在早期

  • 真正上生產(chǎn),還得看社區(qū)對(duì)中文文檔、掃描件、票據(jù)、財(cái)報(bào)、超長(zhǎng) PDF 的實(shí)測(cè)反饋

但即便如此,我還是覺(jué)得這個(gè)方向非常對(duì)。

制作不易,如果這篇文章覺(jué)得對(duì)你有用,可否點(diǎn)個(gè)關(guān)注。給我個(gè)三連擊:點(diǎn)贊、轉(zhuǎn)發(fā)和在看。若可以再給我加個(gè),謝謝你看我的文章,我們下篇再見(jiàn)!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
張掖地委專員被人打死,法醫(yī)將他的腦組織保存十年,等來(lái)昭雪

張掖地委專員被人打死,法醫(yī)將他的腦組織保存十年,等來(lái)昭雪

隴史薈王文元
2026-04-20 16:28:54
日本100多年來(lái)根本沒(méi)有變,中國(guó)人要記住村田晃大這個(gè)名字

日本100多年來(lái)根本沒(méi)有變,中國(guó)人要記住村田晃大這個(gè)名字

近史閣
2026-04-21 04:16:38
貴州網(wǎng)紅曉浪哥去世,僅34歲,愛(ài)在墓地拍視頻,早給自己選好墓地

貴州網(wǎng)紅曉浪哥去世,僅34歲,愛(ài)在墓地拍視頻,早給自己選好墓地

觀察鑒娛
2026-04-20 09:24:45
許晉亨曾單方面透露生子計(jì)劃,但遭何超瓊嚴(yán)厲駁斥和否認(rèn)!

許晉亨曾單方面透露生子計(jì)劃,但遭何超瓊嚴(yán)厲駁斥和否認(rèn)!

玖宇維
2026-04-20 20:44:16
扎心但清醒|莫言:沒(méi)人閑得整天關(guān)注你,各人都有各人的雞毛蒜皮

扎心但清醒|莫言:沒(méi)人閑得整天關(guān)注你,各人都有各人的雞毛蒜皮

杏花煙雨江南的碧園
2026-04-20 14:15:03
國(guó)際觀察|美伊談判懸念叢生,局勢(shì)走向有幾種可能?

國(guó)際觀察|美伊談判懸念叢生,局勢(shì)走向有幾種可能?

新華社
2026-04-20 22:02:14
清風(fēng)北京:彭偉鵬被查

清風(fēng)北京:彭偉鵬被查

極目新聞
2026-04-20 09:48:27
斯諾克世錦賽,中國(guó)選手晉級(jí)16強(qiáng)

斯諾克世錦賽,中國(guó)選手晉級(jí)16強(qiáng)

大漢體育解說(shuō)
2026-04-21 05:03:30
別再尬演“萬(wàn)人迷”!滿臉褶子疙瘩、鼻孔朝天,這皮囊能迷倒誰(shuí)?

別再尬演“萬(wàn)人迷”!滿臉褶子疙瘩、鼻孔朝天,這皮囊能迷倒誰(shuí)?

雨月海星
2026-04-18 05:25:40
演員朱珠疑似塌房?照片流出,驚呆網(wǎng)友!

演員朱珠疑似塌房?照片流出,驚呆網(wǎng)友!

大眼妹妹
2025-12-15 10:39:19
切爾西有救了!藍(lán)軍全力挖鐵血名帥,羅塞尼爾命懸一線

切爾西有救了!藍(lán)軍全力挖鐵血名帥,羅塞尼爾命懸一線

奶蓋熊本熊
2026-04-21 05:20:47
35分不碰瓷,馬刺贏球送亞歷山大上熱門,17個(gè)罰球讓MVP成笑話!

35分不碰瓷,馬刺贏球送亞歷山大上熱門,17個(gè)罰球讓MVP成笑話!

林子說(shuō)事
2026-04-20 19:17:58
“打烊”不讀dǎ yáng,也不讀dǎ xiáng,九成人在這樣錯(cuò)讀!

“打烊”不讀dǎ yáng,也不讀dǎ xiáng,九成人在這樣錯(cuò)讀!

未央看點(diǎn)
2026-04-21 00:05:41
鄭麗文判斷準(zhǔn)確,解放軍通牒在即,賴清德將登機(jī)離臺(tái)

鄭麗文判斷準(zhǔn)確,解放軍通牒在即,賴清德將登機(jī)離臺(tái)

風(fēng)雨與陽(yáng)光
2026-04-21 03:13:01
特朗普女婿被查,61億資產(chǎn)99%來(lái)自外國(guó),特朗普:中國(guó)會(huì)感謝我

特朗普女婿被查,61億資產(chǎn)99%來(lái)自外國(guó),特朗普:中國(guó)會(huì)感謝我

阿傖說(shuō)事
2026-04-21 03:24:22
脫掉衣服才看清:女人之間真正的差距,其實(shí)藏在這3處,不是容貌

脫掉衣服才看清:女人之間真正的差距,其實(shí)藏在這3處,不是容貌

周哥一影視
2026-03-15 14:30:11
江南造船廠這艘核動(dòng)力巨輪亮相,軍迷都懂了:距離核航母還遠(yuǎn)嗎?

江南造船廠這艘核動(dòng)力巨輪亮相,軍迷都懂了:距離核航母還遠(yuǎn)嗎?

林子說(shuō)事
2026-04-21 00:55:45
贏得尊重,籃網(wǎng)隊(duì)與喬迪·費(fèi)爾南德斯及其整個(gè)教練組續(xù)約

贏得尊重,籃網(wǎng)隊(duì)與喬迪·費(fèi)爾南德斯及其整個(gè)教練組續(xù)約

好火子
2026-04-21 03:59:38
C919交付再遇阻礙:國(guó)產(chǎn)大飛機(jī)的夢(mèng)想與現(xiàn)實(shí)有多遠(yuǎn)?

C919交付再遇阻礙:國(guó)產(chǎn)大飛機(jī)的夢(mèng)想與現(xiàn)實(shí)有多遠(yuǎn)?

普陀動(dòng)物世界
2026-04-21 00:52:40
“老實(shí)人”任重甘愿成為接盤(pán)俠,迎娶內(nèi)娛第一海王,網(wǎng)友:絕配

“老實(shí)人”任重甘愿成為接盤(pán)俠,迎娶內(nèi)娛第一海王,網(wǎng)友:絕配

天天熱點(diǎn)見(jiàn)聞
2026-04-21 05:14:09
2026-04-21 06:00:49
Ai學(xué)習(xí)的老章 incentive-icons
Ai學(xué)習(xí)的老章
Ai學(xué)習(xí)的老章
3339文章數(shù) 11138關(guān)注度
往期回顧 全部

科技要聞

HUAWEI Pura X Max發(fā)布 售價(jià)10999元起

頭條要聞

19歲女孩挪用自家1700萬(wàn)當(dāng)"榜一大姐" 親爹帶女兒自首

頭條要聞

19歲女孩挪用自家1700萬(wàn)當(dāng)"榜一大姐" 親爹帶女兒自首

體育要聞

阿森納已拼盡全力,但你早干嘛去了...

娛樂(lè)要聞

《八千里路云和月》田家泰暗殺

財(cái)經(jīng)要聞

利潤(rùn)暴跌7成,字節(jié)到底在做什么

汽車要聞

把天門山搬進(jìn)廠?開(kāi)仰望U8沖上45度坡的那刻 我腿軟了

態(tài)度原創(chuàng)

親子
數(shù)碼
家居
手機(jī)
公開(kāi)課

親子要聞

居家防夾刻不容緩,多名兒童在家玩鬧時(shí)手指被夾斷

數(shù)碼要聞

REDMI 顯示器 G Pro 27U 2026輕體驗(yàn):電競(jìng)利器 桌面上的“小鋼炮”

家居要聞

自然慢調(diào) 慢享時(shí)光

手機(jī)要聞

OPPO影像旗艦高端發(fā)力 Find X9 Ultra走出國(guó)門

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版