網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

百度飛槳團(tuán)隊(duì)突破：0.9B超輕量級(jí)模型如何讓文檔識(shí)別變得又快又準(zhǔn)

2025-12-22 21:28:28　來源: 科技行者

北京舉報(bào)

分享至

這是一個(gè)來自百度飛槳團(tuán)隊(duì)的重要研究成果。由Cheng Cui、Ting Sun、Suyin Liang等多位研究者組成的團(tuán)隊(duì)，在2025年11月發(fā)表了這項(xiàng)突破性研究，論文編號(hào)為arXiv:2510.14528v4。這項(xiàng)工作發(fā)表在計(jì)算機(jī)視覺領(lǐng)域，代表了文檔解析技術(shù)的最新進(jìn)展。有興趣深入了解的讀者可以通過這個(gè)論文編號(hào)在arXiv學(xué)術(shù)論文庫中查詢完整論文。

一、為什么我們需要一個(gè)更聰明的文檔閱讀機(jī)器

想象一下，你正在一個(gè)巨大的圖書館里工作，每天要處理成千上萬份各式各樣的文件。有些是學(xué)術(shù)論文，里面充滿了復(fù)雜的公式和表格；有些是報(bào)紙，文字和圖片混在一起；有些甚至是手寫的筆記。如果要一份份手工整理這些文件，提取里面的信息，那簡(jiǎn)直是一場(chǎng)噩夢(mèng)。

這正是現(xiàn)實(shí)中很多企業(yè)和機(jī)構(gòu)每天都在面對(duì)的挑戰(zhàn)。隨著數(shù)字化進(jìn)程的加快，文檔的數(shù)量和復(fù)雜性都在爆炸式增長。這些文檔可能來自不同的國家，使用不同的語言，有著各種各樣的排版方式。對(duì)計(jì)算機(jī)來說，理解這些文檔的內(nèi)容和結(jié)構(gòu)，就像要求一個(gè)人類在完全陌生的環(huán)境中快速理解一份外文文件一樣困難。

百度飛槳團(tuán)隊(duì)認(rèn)識(shí)到這個(gè)問題的嚴(yán)重性。他們意識(shí)到，如果能開發(fā)出一個(gè)既能準(zhǔn)確理解文檔內(nèi)容，又能快速處理大量文件的智能系統(tǒng)，那將是一個(gè)巨大的突破。這個(gè)系統(tǒng)不僅要能識(shí)別文字，還要能理解表格的結(jié)構(gòu)、識(shí)別數(shù)學(xué)公式、分析圖表數(shù)據(jù)，甚至要能處理手寫文字。更關(guān)鍵的是，這個(gè)系統(tǒng)要足夠輕量，能在普通的計(jì)算機(jī)上運(yùn)行，而不是只能在超級(jí)計(jì)算機(jī)上才能使用。

二、兩條路線的碰撞：為什么選擇混合方案

在文檔處理的技術(shù)世界里，研究者們一直在兩條不同的路線之間搖擺。

第一條路線就像是一個(gè)專業(yè)的流水線工廠。工廠里有多個(gè)專門的工人，每個(gè)人負(fù)責(zé)一項(xiàng)特定的工作。有人專門負(fù)責(zé)找出文檔的布局結(jié)構(gòu)，有人專門識(shí)別文字，有人專門分析表格。這種方法的好處是每個(gè)工人都能把自己的工作做得非常精細(xì)，因?yàn)樗麄冎恍枰獙Ｗ⒂谝患隆５珕栴}在于，如果前一個(gè)工人出了錯(cuò)，后面的工人就會(huì)基于錯(cuò)誤的信息繼續(xù)工作，錯(cuò)誤會(huì)像滾雪球一樣越來越大。而且，當(dāng)你想要添加一個(gè)新的功能或處理新的文檔類型時(shí)，整條流水線都需要重新調(diào)整。

第二條路線就像是招聘一個(gè)全能的員工，給他一個(gè)任務(wù)，他就能從頭到尾完成所有工作。這種方法看起來很高效，因?yàn)樯倭撕芏嘀虚g環(huán)節(jié)。但這個(gè)全能員工通常需要很大的腦子（也就是需要很強(qiáng)的計(jì)算能力），而且當(dāng)文檔特別復(fù)雜或特別長時(shí)，他容易出現(xiàn)幻覺，就像一個(gè)人在極度疲勞時(shí)開始說胡話一樣。

百度飛槳團(tuán)隊(duì)采取了一個(gè)聰明的折中方案。他們保留了第一條路線中最有價(jià)值的部分——一個(gè)專門負(fù)責(zé)理解文檔布局和閱讀順序的模塊，但這個(gè)模塊被設(shè)計(jì)得非常輕量和高效。然后，他們開發(fā)了一個(gè)新的、更聰明的全能員工來處理具體的內(nèi)容識(shí)別工作。這個(gè)新員工的大腦雖然不是最大的，但被精心設(shè)計(jì)得特別擅長處理文檔中的各種元素。

三、聰明的大腦是如何構(gòu)造的

讓我們來看看這個(gè)新系統(tǒng)的核心——PaddleOCR-VL-0.9B模型。這個(gè)名字中的"0.9B"指的是它有9億個(gè)參數(shù)，相比之下，很多其他的文檔識(shí)別模型有幾十億甚至上百億個(gè)參數(shù)。參數(shù)就像是大腦中的神經(jīng)元連接，參數(shù)越多，模型通常就越大，需要的計(jì)算資源也就越多。所以0.9B聽起來很小，但百度團(tuán)隊(duì)讓它做出了很多大得多的模型才能做到的事情。

這個(gè)模型的構(gòu)造就像是一個(gè)精心設(shè)計(jì)的兩層樓房。底層是視覺部分，負(fù)責(zé)"看"文檔。百度團(tuán)隊(duì)使用了一種叫做NaViT的特殊視覺編碼器，它有一個(gè)獨(dú)特的能力：可以處理任意分辨率的圖像，而不需要先把圖像壓縮或扭曲成固定的尺寸。這就像是一個(gè)攝像頭，無論你拍攝的是一張小紙條還是一整面墻，它都能清晰地捕捉所有細(xì)節(jié)。這對(duì)于文檔識(shí)別特別重要，因?yàn)槲臋n中的文字可能很小，如果壓縮圖像，小文字就會(huì)變得模糊不清。

樓房的上層是語言部分，負(fù)責(zé)"理解"和"表達(dá)"。這里使用的是一個(gè)叫做ERNIE-4.5-0.3B的語言模型。這個(gè)模型雖然只有3億個(gè)參數(shù)，但它被特別優(yōu)化過，能夠快速地生成文本。在自動(dòng)回歸語言模型中，每生成一個(gè)詞都需要時(shí)間，所以用一個(gè)更小、更快的模型能顯著加快處理速度。

連接這兩層的是一個(gè)簡(jiǎn)單但有效的中間層，就像是一個(gè)翻譯官，把視覺信息轉(zhuǎn)換成語言模型能理解的形式。這個(gè)中間層只有兩層神經(jīng)網(wǎng)絡(luò)，非常輕量。

四、第一步：教會(huì)機(jī)器理解文檔的布局

在處理任何文檔之前，系統(tǒng)首先需要理解文檔的結(jié)構(gòu)。這就是PP-DocLayoutV2模塊的工作。

想象你拿到一份報(bào)紙，首先要做的是識(shí)別哪些是標(biāo)題，哪些是正文，哪些是圖片，哪些是廣告。然后你需要確定應(yīng)該按什么順序讀這些內(nèi)容。這個(gè)模塊就是在做這樣的工作。

PP-DocLayoutV2由兩個(gè)部分組成。第一部分是一個(gè)物體檢測(cè)模型，它的工作就像是一個(gè)細(xì)心的編輯，用紅筆在文檔上圈出不同的元素。它使用了一個(gè)叫做RT-DETR的最新檢測(cè)技術(shù)，能夠快速準(zhǔn)確地定位文檔中的各個(gè)元素，比如文本塊、表格、公式和圖表。

第二部分更有趣。它是一個(gè)指針網(wǎng)絡(luò)，用來確定閱讀順序。這就像是在問："這些被圈出來的元素，我應(yīng)該按什么順序讀？"這個(gè)網(wǎng)絡(luò)通過分析元素之間的幾何關(guān)系來做出判斷。它考慮的是元素的位置——哪個(gè)在左邊，哪個(gè)在上面，哪個(gè)更靠近——然后推斷出合理的閱讀順序。

這個(gè)模塊的巧妙之處在于，它不依賴長序列的自動(dòng)回歸生成過程。也就是說，它不需要像生成文本那樣一個(gè)一個(gè)地預(yù)測(cè)每個(gè)元素的順序。相反，它能夠一次性地分析所有元素之間的關(guān)系，然后確定最合理的順序。這使得它既快速又準(zhǔn)確，而且不容易出現(xiàn)那種"越往后預(yù)測(cè)越容易出錯(cuò)"的問題。

五、第二步：識(shí)別文檔中的具體內(nèi)容

一旦系統(tǒng)理解了文檔的布局和閱讀順序，就可以根據(jù)這些信息把文檔分割成不同的區(qū)域，然后讓PaddleOCR-VL-0.9B模型來處理每個(gè)區(qū)域。

這個(gè)模型需要處理四種不同的任務(wù)，就像一個(gè)多面手工人需要掌握不同的技能。

第一項(xiàng)技能是光學(xué)字符識(shí)別，也就是識(shí)別文字。這不僅僅是識(shí)別單個(gè)字符，而是理解文字是如何組織的——哪些字組成一個(gè)詞，哪些詞組成一行，哪些行組成一個(gè)段落，甚至整個(gè)頁面的文本結(jié)構(gòu)是什么樣的。這對(duì)于處理不同語言特別重要，因?yàn)椴煌Z言的文字組織方式完全不同。

第二項(xiàng)技能是表格識(shí)別。表格就像是一個(gè)精心組織的矩陣，有行有列，每個(gè)單元格里可能有文字、數(shù)字或其他內(nèi)容。識(shí)別表格需要理解這種二維結(jié)構(gòu)，知道哪些單元格是相鄰的，哪些單元格被合并了。模型需要輸出一種特殊的格式來表示這種結(jié)構(gòu)，就像是用代碼來描述一個(gè)表格的樣子。

第三項(xiàng)技能是公式識(shí)別。數(shù)學(xué)公式是特別復(fù)雜的，因?yàn)樗鼈兩婕疤厥獾姆?hào)、上標(biāo)、下標(biāo)、分?jǐn)?shù)線等等。模型需要把這些視覺元素轉(zhuǎn)換成LaTeX格式，這是數(shù)學(xué)領(lǐng)域的標(biāo)準(zhǔn)語言。這就像是要把一個(gè)手寫的數(shù)學(xué)公式翻譯成計(jì)算機(jī)能理解的數(shù)學(xué)語言。

第四項(xiàng)技能是圖表識(shí)別。圖表可能是柱狀圖、折線圖、餅圖等等。模型需要理解圖表想要表達(dá)的數(shù)據(jù)，然后把這些數(shù)據(jù)轉(zhuǎn)換成表格的形式。這就像是要把一個(gè)圖形化的故事翻譯成數(shù)字表格。

六、數(shù)據(jù)：高質(zhì)量訓(xùn)練數(shù)據(jù)的秘密配方

要讓一個(gè)AI模型變得聰明，最重要的是給它高質(zhì)量的訓(xùn)練數(shù)據(jù)。百度團(tuán)隊(duì)在這方面下了很大的功夫。

他們的數(shù)據(jù)收集策略就像是在做一道復(fù)雜的菜肴，需要從多個(gè)不同的來源采集食材。首先，他們從公開的數(shù)據(jù)集中收集了大量的基礎(chǔ)數(shù)據(jù)，就像是去超市買基本的食材。這些包括著名的手寫數(shù)據(jù)集CASIA-HWDB，還有各種數(shù)學(xué)公式數(shù)據(jù)集和圖表數(shù)據(jù)集。

但僅有這些還不夠，因?yàn)楣_數(shù)據(jù)集往往不夠平衡。某些類型的數(shù)據(jù)很多，某些類型的數(shù)據(jù)很少。所以團(tuán)隊(duì)采用了數(shù)據(jù)合成技術(shù)，就像是用烹飪技巧來補(bǔ)充不足的食材。他們使用各種工具——字體庫、CSS庫、LaTeX渲染器、網(wǎng)頁瀏覽器等——來人工生成缺少的數(shù)據(jù)類型。

此外，他們還從互聯(lián)網(wǎng)上收集了大量真實(shí)的文檔，包括學(xué)術(shù)論文、報(bào)紙、科學(xué)期刊、掃描的手寫文檔、各種考試試卷和演示文稿。這些真實(shí)數(shù)據(jù)為模型提供了多樣化的風(fēng)格和結(jié)構(gòu)。

最后，百度團(tuán)隊(duì)還使用了自己多年積累的內(nèi)部數(shù)據(jù)集。這些數(shù)據(jù)都經(jīng)過了精心的質(zhì)量控制。

數(shù)據(jù)收集只是第一步。接下來是標(biāo)注，也就是給數(shù)據(jù)添加正確答案的標(biāo)簽。對(duì)于3000多萬個(gè)樣本來說，手工標(biāo)注是不可能的。所以團(tuán)隊(duì)使用了一個(gè)聰明的自動(dòng)標(biāo)注流程。首先，他們用一個(gè)已有的專業(yè)模型PP-StructureV3來初步處理數(shù)據(jù)，生成初步的標(biāo)簽。然后，他們把這些初步標(biāo)簽和原始圖像一起送給更強(qiáng)大的大型語言模型，比如ERNIE-4.5-VL和Qwen2.5VL，讓這些模型來改進(jìn)和驗(yàn)證標(biāo)簽。最后，他們還進(jìn)行了一個(gè)特殊的過濾步驟，去除那些模型可能產(chǎn)生的錯(cuò)誤或幻覺。

但這還不是全部。團(tuán)隊(duì)還進(jìn)行了一個(gè)叫做"困難樣本挖掘"的過程。他們?cè)谝粋€(gè)精心標(biāo)注的評(píng)估數(shù)據(jù)集上測(cè)試模型，找出模型表現(xiàn)不好的地方。然后，他們針對(duì)這些困難的情況，使用各種工具來合成新的訓(xùn)練樣本，幫助模型在這些弱點(diǎn)上進(jìn)行改進(jìn)。這就像是一個(gè)學(xué)生在考試中發(fā)現(xiàn)自己在某個(gè)知識(shí)點(diǎn)上很弱，然后專門做這個(gè)知識(shí)點(diǎn)的練習(xí)題一樣。

七、訓(xùn)練的兩個(gè)階段：從基礎(chǔ)到精通

訓(xùn)練PaddleOCR-VL-0.9B分為兩個(gè)階段，就像學(xué)習(xí)一門新語言——先學(xué)基礎(chǔ)語法，再學(xué)實(shí)際應(yīng)用。

第一個(gè)階段叫做對(duì)齊預(yù)訓(xùn)練。在這個(gè)階段，模型要學(xué)習(xí)的是如何把視覺信息和語言信息聯(lián)系起來。團(tuán)隊(duì)使用了2900萬個(gè)高質(zhì)量的圖像-文本對(duì)。這些對(duì)可能來自各種來源，但都經(jīng)過了精心的選擇和清理。在這個(gè)階段，模型就像是一個(gè)初學(xué)者，在學(xué)習(xí)如何用眼睛看東西，然后用語言來描述。這個(gè)階段進(jìn)行了一個(gè)完整的循環(huán)，使用了相對(duì)較大的學(xué)習(xí)率。

第二個(gè)階段叫做指令微調(diào)。在這個(gè)階段，模型已經(jīng)學(xué)會(huì)了基礎(chǔ)的視覺-語言對(duì)齊，現(xiàn)在要學(xué)習(xí)如何在特定的任務(wù)上表現(xiàn)得很好。團(tuán)隊(duì)使用了270萬個(gè)精心設(shè)計(jì)的樣本，這些樣本都是針對(duì)四個(gè)具體任務(wù)的——OCR、表格識(shí)別、公式識(shí)別和圖表識(shí)別。在這個(gè)階段，模型要學(xué)習(xí)的是如何根據(jù)具體的指令來完成任務(wù)。這就像是一個(gè)學(xué)過基礎(chǔ)語言的人，現(xiàn)在要學(xué)習(xí)如何在不同的情境下使用這門語言。這個(gè)階段進(jìn)行了兩個(gè)循環(huán)，使用了更小的學(xué)習(xí)率，以便進(jìn)行精細(xì)的調(diào)整。

八、測(cè)試的時(shí)刻：模型表現(xiàn)如何

要知道一個(gè)模型是否真的好，最重要的是在真實(shí)的任務(wù)上測(cè)試它。百度團(tuán)隊(duì)在多個(gè)公開的基準(zhǔn)測(cè)試上評(píng)估了他們的模型。

首先是OmniDocBench v1.5，這是一個(gè)包含1355個(gè)文檔頁面的大型測(cè)試集，涵蓋了多種文檔類型和語言。在這個(gè)測(cè)試上，PaddleOCR-VL取得了92.86的總體分?jǐn)?shù)，超過了之前的最佳模型MinerU2.5的90.67分。更重要的是，在各個(gè)具體的任務(wù)上，這個(gè)模型都表現(xiàn)得很出色。在文本識(shí)別上，它的錯(cuò)誤率是0.035，這意味著平均每1000個(gè)字符中只有3.5個(gè)識(shí)別錯(cuò)誤。在公式識(shí)別上，它的CDM分?jǐn)?shù)是91.22，在表格識(shí)別上，它的TEDS分?jǐn)?shù)是90.89。

在OmniDocBench v1.0上，模型同樣表現(xiàn)優(yōu)異，在多個(gè)指標(biāo)上都達(dá)到了最先進(jìn)的水平。

還有olmOCR-Bench，這個(gè)測(cè)試集包含了1402個(gè)PDF文檔和7010個(gè)測(cè)試用例。這個(gè)測(cè)試的特點(diǎn)是使用了非常嚴(yán)格的評(píng)估標(biāo)準(zhǔn)，不允許模糊的評(píng)分，而是要求模型的輸出完全正確。在這個(gè)嚴(yán)格的測(cè)試上，PaddleOCR-VL取得了80.0的分?jǐn)?shù)，在多個(gè)類別上都領(lǐng)先其他模型。

九、具體任務(wù)的深度評(píng)估

除了整體的文檔解析能力，團(tuán)隊(duì)還在四個(gè)具體的任務(wù)上進(jìn)行了詳細(xì)的評(píng)估。

在文本識(shí)別方面，他們使用了多個(gè)測(cè)試集。在OmniDocBench-OCR-block上，這個(gè)測(cè)試集包含了從真實(shí)文檔中提取的17148個(gè)文本塊，PaddleOCR-VL在幾乎所有的文檔類型上都表現(xiàn)最好。在一個(gè)叫做In-house-OCR的內(nèi)部測(cè)試集上，這個(gè)集合包含了超過10萬個(gè)樣本，涵蓋了多種語言和文本類型，模型同樣表現(xiàn)出色。特別值得一提的是，它在處理多種語言上的表現(xiàn)——包括阿拉伯語、韓語、泰米爾語、希臘語、泰語、印地語、西里爾字母等——都達(dá)到了最先進(jìn)的水平。在處理各種文本類型上，比如手寫中文、手寫英文、印刷文本、傳統(tǒng)中文、古文、豎排文字、單個(gè)字符和藝術(shù)字體，模型都表現(xiàn)得很好。

在表格識(shí)別方面，模型在OmniDocBench-Table-block上取得了0.9195的TEDS分?jǐn)?shù)，這是一個(gè)非常高的分?jǐn)?shù)。在一個(gè)包含各種表格類型的內(nèi)部測(cè)試集上，模型同樣表現(xiàn)優(yōu)異，在各個(gè)指標(biāo)上都超過了其他模型。

在公式識(shí)別方面，模型在OmniDocBench-Formula-block上取得了0.9453的CDM分?jǐn)?shù)。在一個(gè)包含34816個(gè)公式的內(nèi)部測(cè)試集上，模型的CDM分?jǐn)?shù)達(dá)到了0.9882，這意味著它能夠正確識(shí)別98.82%的公式。

在圖表識(shí)別方面，雖然公開的測(cè)試集質(zhì)量不是很高，但在內(nèi)部的測(cè)試集上，模型取得了0.8440的RMS-F1分?jǐn)?shù)，這個(gè)分?jǐn)?shù)超過了很多更大的模型。

十、速度的較量：為什么快速很重要

一個(gè)好的模型不僅要準(zhǔn)確，還要快速。畢竟，如果一個(gè)模型需要花費(fèi)幾個(gè)小時(shí)來處理一份文檔，那它在實(shí)際應(yīng)用中就沒有什么價(jià)值。

百度團(tuán)隊(duì)通過多種優(yōu)化技術(shù)來提高推理速度。他們使用了多線程異步執(zhí)行，把推理過程分成三個(gè)階段——數(shù)據(jù)加載、布局模型處理和VLM推理——每個(gè)階段在單獨(dú)的線程中運(yùn)行。這樣，當(dāng)一個(gè)階段在處理數(shù)據(jù)時(shí)，另一個(gè)階段可以同時(shí)準(zhǔn)備下一批數(shù)據(jù)，就像是一個(gè)流水線一樣。

此外，他們還使用了高效的推理引擎，比如vLLM和FastDeploy，這些引擎經(jīng)過了特殊的優(yōu)化，能夠充分利用GPU的計(jì)算能力。他們還調(diào)整了各種參數(shù)，比如最大批處理令牌數(shù)和GPU內(nèi)存利用率，以找到速度和內(nèi)存消耗之間的最佳平衡。

在實(shí)際測(cè)試中，當(dāng)在一個(gè)NVIDIA A100 GPU上處理OmniDocBench v1.0數(shù)據(jù)集時(shí)，PaddleOCR-VL使用FastDeploy后端可以達(dá)到每秒1.6184個(gè)頁面的處理速度，這比之前最好的模型MinerU2.5快了53.1%。如果考慮生成的令牌數(shù)，PaddleOCR-VL每秒可以生成2486.4個(gè)令牌，比MinerU2.5快了50.9%。

十一、多語言支持：全球化的文檔處理

在一個(gè)全球化的世界里，文檔可能使用任何一種語言。百度團(tuán)隊(duì)的模型支持109種語言，這包括了世界上大多數(shù)主要語言。

這種廣泛的多語言支持不是偶然的。在訓(xùn)練數(shù)據(jù)的收集和處理過程中，團(tuán)隊(duì)特別注意了語言的多樣性。他們確保訓(xùn)練數(shù)據(jù)包含了各種不同的語言和文字系統(tǒng)，從拉丁字母到阿拉伯字母，從漢字到天城文。

這意味著，無論你的文檔是用英文、中文、阿拉伯文、俄文、印地文還是其他任何語言寫的，這個(gè)模型都能理解并正確處理。這對(duì)于跨國公司、國際組織和全球供應(yīng)鏈來說是非常重要的。

十二、實(shí)際應(yīng)用中的表現(xiàn)

除了在標(biāo)準(zhǔn)測(cè)試集上的表現(xiàn)，百度團(tuán)隊(duì)還展示了模型在真實(shí)世界文檔上的表現(xiàn)。這些文檔包括學(xué)術(shù)論文、報(bào)紙、教科書、考試試卷、手寫筆記等等。在所有這些真實(shí)世界的場(chǎng)景中，模型都表現(xiàn)得很好，能夠準(zhǔn)確地識(shí)別和理解各種復(fù)雜的文檔元素。

這意味著，這個(gè)模型不僅在實(shí)驗(yàn)室里表現(xiàn)好，在真實(shí)的應(yīng)用場(chǎng)景中也能可靠地工作。

十三、為什么這很重要

這項(xiàng)研究的重要性不僅僅在于技術(shù)指標(biāo)的提升，更在于它解決的實(shí)際問題。

首先，它證明了一個(gè)相對(duì)較小的模型（0.9B參數(shù)）也能達(dá)到甚至超過更大模型的性能。這對(duì)于那些計(jì)算資源有限的組織和個(gè)人來說是一個(gè)好消息。你不需要擁有超級(jí)計(jì)算機(jī)才能使用最先進(jìn)的文檔處理技術(shù)。

其次，它提供了一個(gè)完整的解決方案，不僅僅是一個(gè)模型，而是一個(gè)從數(shù)據(jù)收集、標(biāo)注、訓(xùn)練到推理的完整系統(tǒng)。這對(duì)于其他研究者和開發(fā)者來說提供了寶貴的參考。

第三，它在多個(gè)維度上都達(dá)到了最先進(jìn)的水平——準(zhǔn)確性、速度、資源效率和多語言支持。這使得它成為了一個(gè)真正可用的、實(shí)用的系統(tǒng)。

最后，它為大型語言模型在文檔理解中的應(yīng)用打開了新的可能性。通過結(jié)合專門的布局分析模型和高效的視覺-語言模型，百度團(tuán)隊(duì)展示了如何在保持高性能的同時(shí)降低計(jì)算成本。

十四、未來的展望

這項(xiàng)研究為文檔處理領(lǐng)域的未來發(fā)展奠定了基礎(chǔ)。隨著越來越多的信息被數(shù)字化，自動(dòng)化文檔處理的需求只會(huì)增加。這個(gè)模型的出現(xiàn)意味著，更多的組織可以使用先進(jìn)的AI技術(shù)來處理他們的文檔，而不需要投入巨大的資金購買昂貴的硬件。

這也為檢索增強(qiáng)生成（RAG）系統(tǒng)的改進(jìn)提供了基礎(chǔ)。RAG系統(tǒng)是現(xiàn)代AI應(yīng)用中的一個(gè)關(guān)鍵技術(shù)，它允許大型語言模型訪問外部知識(shí)庫。如果文檔處理變得更快、更準(zhǔn)確、更便宜，那么RAG系統(tǒng)就能提供更好的服務(wù)。

總的來說，百度飛槳團(tuán)隊(duì)的這項(xiàng)研究不僅是一個(gè)技術(shù)上的突破，更是一個(gè)實(shí)用性的突破。它證明了在AI時(shí)代，我們不需要盲目追求更大的模型，而是應(yīng)該追求更聰明的設(shè)計(jì)和更高效的實(shí)現(xiàn)。通過精心的架構(gòu)設(shè)計(jì)、高質(zhì)量的數(shù)據(jù)準(zhǔn)備和系統(tǒng)的優(yōu)化，一個(gè)相對(duì)較小的模型也能做出令人印象深刻的工作。

Q&A

Q1：PaddleOCR-VL是什么？它能處理哪些類型的文檔內(nèi)容？

A：PaddleOCR-VL是百度飛槳團(tuán)隊(duì)開發(fā)的文檔解析系統(tǒng)，核心是一個(gè)僅有9億參數(shù)的輕量級(jí)視覺-語言模型。它能夠識(shí)別和處理文檔中的文字、表格、數(shù)學(xué)公式和圖表，支持109種語言，包括中文、英文、阿拉伯文、俄文等。

Q2：為什么PaddleOCR-VL比其他文檔識(shí)別模型更快更準(zhǔn)確？

A：該模型采用了兩階段的混合方案：先用專門的布局分析模型理解文檔結(jié)構(gòu)，再用高效的視覺-語言模型識(shí)別具體內(nèi)容。它使用了NaViT動(dòng)態(tài)分辨率視覺編碼器和輕量級(jí)的ERNIE-4.5-0.3B語言模型，通過多線程異步執(zhí)行和高效推理引擎優(yōu)化，處理速度比前代快50%以上。

Q3：這個(gè)模型需要什么樣的硬件才能運(yùn)行？普通用戶能使用嗎？

A：PaddleOCR-VL僅需9億參數(shù)，相比其他動(dòng)輒幾十億參數(shù)的模型要輕量得多，可以在單塊NVIDIA A100 GPU上高效運(yùn)行。百度已經(jīng)開源了代碼和模型，普通用戶可以通過PaddlePaddle框架使用，或者通過在線演示體驗(yàn)其功能。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.