国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

百度飛槳團(tuán)隊(duì)突破:0.9B超輕量級(jí)模型如何讓文檔識(shí)別變得又快又準(zhǔn)

0
分享至


這是一個(gè)來自百度飛槳團(tuán)隊(duì)的重要研究成果。由Cheng Cui、Ting Sun、Suyin Liang等多位研究者組成的團(tuán)隊(duì),在2025年11月發(fā)表了這項(xiàng)突破性研究,論文編號(hào)為arXiv:2510.14528v4。這項(xiàng)工作發(fā)表在計(jì)算機(jī)視覺領(lǐng)域,代表了文檔解析技術(shù)的最新進(jìn)展。有興趣深入了解的讀者可以通過這個(gè)論文編號(hào)在arXiv學(xué)術(shù)論文庫中查詢完整論文。

一、為什么我們需要一個(gè)更聰明的文檔閱讀機(jī)器

想象一下,你正在一個(gè)巨大的圖書館里工作,每天要處理成千上萬份各式各樣的文件。有些是學(xué)術(shù)論文,里面充滿了復(fù)雜的公式和表格;有些是報(bào)紙,文字和圖片混在一起;有些甚至是手寫的筆記。如果要一份份手工整理這些文件,提取里面的信息,那簡(jiǎn)直是一場(chǎng)噩夢(mèng)。

這正是現(xiàn)實(shí)中很多企業(yè)和機(jī)構(gòu)每天都在面對(duì)的挑戰(zhàn)。隨著數(shù)字化進(jìn)程的加快,文檔的數(shù)量和復(fù)雜性都在爆炸式增長。這些文檔可能來自不同的國家,使用不同的語言,有著各種各樣的排版方式。對(duì)計(jì)算機(jī)來說,理解這些文檔的內(nèi)容和結(jié)構(gòu),就像要求一個(gè)人類在完全陌生的環(huán)境中快速理解一份外文文件一樣困難。

百度飛槳團(tuán)隊(duì)認(rèn)識(shí)到這個(gè)問題的嚴(yán)重性。他們意識(shí)到,如果能開發(fā)出一個(gè)既能準(zhǔn)確理解文檔內(nèi)容,又能快速處理大量文件的智能系統(tǒng),那將是一個(gè)巨大的突破。這個(gè)系統(tǒng)不僅要能識(shí)別文字,還要能理解表格的結(jié)構(gòu)、識(shí)別數(shù)學(xué)公式、分析圖表數(shù)據(jù),甚至要能處理手寫文字。更關(guān)鍵的是,這個(gè)系統(tǒng)要足夠輕量,能在普通的計(jì)算機(jī)上運(yùn)行,而不是只能在超級(jí)計(jì)算機(jī)上才能使用。

二、兩條路線的碰撞:為什么選擇混合方案

在文檔處理的技術(shù)世界里,研究者們一直在兩條不同的路線之間搖擺。

第一條路線就像是一個(gè)專業(yè)的流水線工廠。工廠里有多個(gè)專門的工人,每個(gè)人負(fù)責(zé)一項(xiàng)特定的工作。有人專門負(fù)責(zé)找出文檔的布局結(jié)構(gòu),有人專門識(shí)別文字,有人專門分析表格。這種方法的好處是每個(gè)工人都能把自己的工作做得非常精細(xì),因?yàn)樗麄冎恍枰獙W⒂谝患隆5珕栴}在于,如果前一個(gè)工人出了錯(cuò),后面的工人就會(huì)基于錯(cuò)誤的信息繼續(xù)工作,錯(cuò)誤會(huì)像滾雪球一樣越來越大。而且,當(dāng)你想要添加一個(gè)新的功能或處理新的文檔類型時(shí),整條流水線都需要重新調(diào)整。

第二條路線就像是招聘一個(gè)全能的員工,給他一個(gè)任務(wù),他就能從頭到尾完成所有工作。這種方法看起來很高效,因?yàn)樯倭撕芏嘀虚g環(huán)節(jié)。但這個(gè)全能員工通常需要很大的腦子(也就是需要很強(qiáng)的計(jì)算能力),而且當(dāng)文檔特別復(fù)雜或特別長時(shí),他容易出現(xiàn)幻覺,就像一個(gè)人在極度疲勞時(shí)開始說胡話一樣。

百度飛槳團(tuán)隊(duì)采取了一個(gè)聰明的折中方案。他們保留了第一條路線中最有價(jià)值的部分——一個(gè)專門負(fù)責(zé)理解文檔布局和閱讀順序的模塊,但這個(gè)模塊被設(shè)計(jì)得非常輕量和高效。然后,他們開發(fā)了一個(gè)新的、更聰明的全能員工來處理具體的內(nèi)容識(shí)別工作。這個(gè)新員工的大腦雖然不是最大的,但被精心設(shè)計(jì)得特別擅長處理文檔中的各種元素。

三、聰明的大腦是如何構(gòu)造的

讓我們來看看這個(gè)新系統(tǒng)的核心——PaddleOCR-VL-0.9B模型。這個(gè)名字中的"0.9B"指的是它有9億個(gè)參數(shù),相比之下,很多其他的文檔識(shí)別模型有幾十億甚至上百億個(gè)參數(shù)。參數(shù)就像是大腦中的神經(jīng)元連接,參數(shù)越多,模型通常就越大,需要的計(jì)算資源也就越多。所以0.9B聽起來很小,但百度團(tuán)隊(duì)讓它做出了很多大得多的模型才能做到的事情。

這個(gè)模型的構(gòu)造就像是一個(gè)精心設(shè)計(jì)的兩層樓房。底層是視覺部分,負(fù)責(zé)"看"文檔。百度團(tuán)隊(duì)使用了一種叫做NaViT的特殊視覺編碼器,它有一個(gè)獨(dú)特的能力:可以處理任意分辨率的圖像,而不需要先把圖像壓縮或扭曲成固定的尺寸。這就像是一個(gè)攝像頭,無論你拍攝的是一張小紙條還是一整面墻,它都能清晰地捕捉所有細(xì)節(jié)。這對(duì)于文檔識(shí)別特別重要,因?yàn)槲臋n中的文字可能很小,如果壓縮圖像,小文字就會(huì)變得模糊不清。

樓房的上層是語言部分,負(fù)責(zé)"理解"和"表達(dá)"。這里使用的是一個(gè)叫做ERNIE-4.5-0.3B的語言模型。這個(gè)模型雖然只有3億個(gè)參數(shù),但它被特別優(yōu)化過,能夠快速地生成文本。在自動(dòng)回歸語言模型中,每生成一個(gè)詞都需要時(shí)間,所以用一個(gè)更小、更快的模型能顯著加快處理速度。

連接這兩層的是一個(gè)簡(jiǎn)單但有效的中間層,就像是一個(gè)翻譯官,把視覺信息轉(zhuǎn)換成語言模型能理解的形式。這個(gè)中間層只有兩層神經(jīng)網(wǎng)絡(luò),非常輕量。

四、第一步:教會(huì)機(jī)器理解文檔的布局

在處理任何文檔之前,系統(tǒng)首先需要理解文檔的結(jié)構(gòu)。這就是PP-DocLayoutV2模塊的工作。

想象你拿到一份報(bào)紙,首先要做的是識(shí)別哪些是標(biāo)題,哪些是正文,哪些是圖片,哪些是廣告。然后你需要確定應(yīng)該按什么順序讀這些內(nèi)容。這個(gè)模塊就是在做這樣的工作。

PP-DocLayoutV2由兩個(gè)部分組成。第一部分是一個(gè)物體檢測(cè)模型,它的工作就像是一個(gè)細(xì)心的編輯,用紅筆在文檔上圈出不同的元素。它使用了一個(gè)叫做RT-DETR的最新檢測(cè)技術(shù),能夠快速準(zhǔn)確地定位文檔中的各個(gè)元素,比如文本塊、表格、公式和圖表。

第二部分更有趣。它是一個(gè)指針網(wǎng)絡(luò),用來確定閱讀順序。這就像是在問:"這些被圈出來的元素,我應(yīng)該按什么順序讀?"這個(gè)網(wǎng)絡(luò)通過分析元素之間的幾何關(guān)系來做出判斷。它考慮的是元素的位置——哪個(gè)在左邊,哪個(gè)在上面,哪個(gè)更靠近——然后推斷出合理的閱讀順序。

這個(gè)模塊的巧妙之處在于,它不依賴長序列的自動(dòng)回歸生成過程。也就是說,它不需要像生成文本那樣一個(gè)一個(gè)地預(yù)測(cè)每個(gè)元素的順序。相反,它能夠一次性地分析所有元素之間的關(guān)系,然后確定最合理的順序。這使得它既快速又準(zhǔn)確,而且不容易出現(xiàn)那種"越往后預(yù)測(cè)越容易出錯(cuò)"的問題。

五、第二步:識(shí)別文檔中的具體內(nèi)容

一旦系統(tǒng)理解了文檔的布局和閱讀順序,就可以根據(jù)這些信息把文檔分割成不同的區(qū)域,然后讓PaddleOCR-VL-0.9B模型來處理每個(gè)區(qū)域。

這個(gè)模型需要處理四種不同的任務(wù),就像一個(gè)多面手工人需要掌握不同的技能。

第一項(xiàng)技能是光學(xué)字符識(shí)別,也就是識(shí)別文字。這不僅僅是識(shí)別單個(gè)字符,而是理解文字是如何組織的——哪些字組成一個(gè)詞,哪些詞組成一行,哪些行組成一個(gè)段落,甚至整個(gè)頁面的文本結(jié)構(gòu)是什么樣的。這對(duì)于處理不同語言特別重要,因?yàn)椴煌Z言的文字組織方式完全不同。

第二項(xiàng)技能是表格識(shí)別。表格就像是一個(gè)精心組織的矩陣,有行有列,每個(gè)單元格里可能有文字、數(shù)字或其他內(nèi)容。識(shí)別表格需要理解這種二維結(jié)構(gòu),知道哪些單元格是相鄰的,哪些單元格被合并了。模型需要輸出一種特殊的格式來表示這種結(jié)構(gòu),就像是用代碼來描述一個(gè)表格的樣子。

第三項(xiàng)技能是公式識(shí)別。數(shù)學(xué)公式是特別復(fù)雜的,因?yàn)樗鼈兩婕疤厥獾姆?hào)、上標(biāo)、下標(biāo)、分?jǐn)?shù)線等等。模型需要把這些視覺元素轉(zhuǎn)換成LaTeX格式,這是數(shù)學(xué)領(lǐng)域的標(biāo)準(zhǔn)語言。這就像是要把一個(gè)手寫的數(shù)學(xué)公式翻譯成計(jì)算機(jī)能理解的數(shù)學(xué)語言。

第四項(xiàng)技能是圖表識(shí)別。圖表可能是柱狀圖、折線圖、餅圖等等。模型需要理解圖表想要表達(dá)的數(shù)據(jù),然后把這些數(shù)據(jù)轉(zhuǎn)換成表格的形式。這就像是要把一個(gè)圖形化的故事翻譯成數(shù)字表格。

六、數(shù)據(jù):高質(zhì)量訓(xùn)練數(shù)據(jù)的秘密配方

要讓一個(gè)AI模型變得聰明,最重要的是給它高質(zhì)量的訓(xùn)練數(shù)據(jù)。百度團(tuán)隊(duì)在這方面下了很大的功夫。

他們的數(shù)據(jù)收集策略就像是在做一道復(fù)雜的菜肴,需要從多個(gè)不同的來源采集食材。首先,他們從公開的數(shù)據(jù)集中收集了大量的基礎(chǔ)數(shù)據(jù),就像是去超市買基本的食材。這些包括著名的手寫數(shù)據(jù)集CASIA-HWDB,還有各種數(shù)學(xué)公式數(shù)據(jù)集和圖表數(shù)據(jù)集。

但僅有這些還不夠,因?yàn)楣_數(shù)據(jù)集往往不夠平衡。某些類型的數(shù)據(jù)很多,某些類型的數(shù)據(jù)很少。所以團(tuán)隊(duì)采用了數(shù)據(jù)合成技術(shù),就像是用烹飪技巧來補(bǔ)充不足的食材。他們使用各種工具——字體庫、CSS庫、LaTeX渲染器、網(wǎng)頁瀏覽器等——來人工生成缺少的數(shù)據(jù)類型。

此外,他們還從互聯(lián)網(wǎng)上收集了大量真實(shí)的文檔,包括學(xué)術(shù)論文、報(bào)紙、科學(xué)期刊、掃描的手寫文檔、各種考試試卷和演示文稿。這些真實(shí)數(shù)據(jù)為模型提供了多樣化的風(fēng)格和結(jié)構(gòu)。

最后,百度團(tuán)隊(duì)還使用了自己多年積累的內(nèi)部數(shù)據(jù)集。這些數(shù)據(jù)都經(jīng)過了精心的質(zhì)量控制。

數(shù)據(jù)收集只是第一步。接下來是標(biāo)注,也就是給數(shù)據(jù)添加正確答案的標(biāo)簽。對(duì)于3000多萬個(gè)樣本來說,手工標(biāo)注是不可能的。所以團(tuán)隊(duì)使用了一個(gè)聰明的自動(dòng)標(biāo)注流程。首先,他們用一個(gè)已有的專業(yè)模型PP-StructureV3來初步處理數(shù)據(jù),生成初步的標(biāo)簽。然后,他們把這些初步標(biāo)簽和原始圖像一起送給更強(qiáng)大的大型語言模型,比如ERNIE-4.5-VL和Qwen2.5VL,讓這些模型來改進(jìn)和驗(yàn)證標(biāo)簽。最后,他們還進(jìn)行了一個(gè)特殊的過濾步驟,去除那些模型可能產(chǎn)生的錯(cuò)誤或幻覺。

但這還不是全部。團(tuán)隊(duì)還進(jìn)行了一個(gè)叫做"困難樣本挖掘"的過程。他們?cè)谝粋(gè)精心標(biāo)注的評(píng)估數(shù)據(jù)集上測(cè)試模型,找出模型表現(xiàn)不好的地方。然后,他們針對(duì)這些困難的情況,使用各種工具來合成新的訓(xùn)練樣本,幫助模型在這些弱點(diǎn)上進(jìn)行改進(jìn)。這就像是一個(gè)學(xué)生在考試中發(fā)現(xiàn)自己在某個(gè)知識(shí)點(diǎn)上很弱,然后專門做這個(gè)知識(shí)點(diǎn)的練習(xí)題一樣。

七、訓(xùn)練的兩個(gè)階段:從基礎(chǔ)到精通

訓(xùn)練PaddleOCR-VL-0.9B分為兩個(gè)階段,就像學(xué)習(xí)一門新語言——先學(xué)基礎(chǔ)語法,再學(xué)實(shí)際應(yīng)用。

第一個(gè)階段叫做對(duì)齊預(yù)訓(xùn)練。在這個(gè)階段,模型要學(xué)習(xí)的是如何把視覺信息和語言信息聯(lián)系起來。團(tuán)隊(duì)使用了2900萬個(gè)高質(zhì)量的圖像-文本對(duì)。這些對(duì)可能來自各種來源,但都經(jīng)過了精心的選擇和清理。在這個(gè)階段,模型就像是一個(gè)初學(xué)者,在學(xué)習(xí)如何用眼睛看東西,然后用語言來描述。這個(gè)階段進(jìn)行了一個(gè)完整的循環(huán),使用了相對(duì)較大的學(xué)習(xí)率。

第二個(gè)階段叫做指令微調(diào)。在這個(gè)階段,模型已經(jīng)學(xué)會(huì)了基礎(chǔ)的視覺-語言對(duì)齊,現(xiàn)在要學(xué)習(xí)如何在特定的任務(wù)上表現(xiàn)得很好。團(tuán)隊(duì)使用了270萬個(gè)精心設(shè)計(jì)的樣本,這些樣本都是針對(duì)四個(gè)具體任務(wù)的——OCR、表格識(shí)別、公式識(shí)別和圖表識(shí)別。在這個(gè)階段,模型要學(xué)習(xí)的是如何根據(jù)具體的指令來完成任務(wù)。這就像是一個(gè)學(xué)過基礎(chǔ)語言的人,現(xiàn)在要學(xué)習(xí)如何在不同的情境下使用這門語言。這個(gè)階段進(jìn)行了兩個(gè)循環(huán),使用了更小的學(xué)習(xí)率,以便進(jìn)行精細(xì)的調(diào)整。

八、測(cè)試的時(shí)刻:模型表現(xiàn)如何

要知道一個(gè)模型是否真的好,最重要的是在真實(shí)的任務(wù)上測(cè)試它。百度團(tuán)隊(duì)在多個(gè)公開的基準(zhǔn)測(cè)試上評(píng)估了他們的模型。

首先是OmniDocBench v1.5,這是一個(gè)包含1355個(gè)文檔頁面的大型測(cè)試集,涵蓋了多種文檔類型和語言。在這個(gè)測(cè)試上,PaddleOCR-VL取得了92.86的總體分?jǐn)?shù),超過了之前的最佳模型MinerU2.5的90.67分。更重要的是,在各個(gè)具體的任務(wù)上,這個(gè)模型都表現(xiàn)得很出色。在文本識(shí)別上,它的錯(cuò)誤率是0.035,這意味著平均每1000個(gè)字符中只有3.5個(gè)識(shí)別錯(cuò)誤。在公式識(shí)別上,它的CDM分?jǐn)?shù)是91.22,在表格識(shí)別上,它的TEDS分?jǐn)?shù)是90.89。

在OmniDocBench v1.0上,模型同樣表現(xiàn)優(yōu)異,在多個(gè)指標(biāo)上都達(dá)到了最先進(jìn)的水平。

還有olmOCR-Bench,這個(gè)測(cè)試集包含了1402個(gè)PDF文檔和7010個(gè)測(cè)試用例。這個(gè)測(cè)試的特點(diǎn)是使用了非常嚴(yán)格的評(píng)估標(biāo)準(zhǔn),不允許模糊的評(píng)分,而是要求模型的輸出完全正確。在這個(gè)嚴(yán)格的測(cè)試上,PaddleOCR-VL取得了80.0的分?jǐn)?shù),在多個(gè)類別上都領(lǐng)先其他模型。

九、具體任務(wù)的深度評(píng)估

除了整體的文檔解析能力,團(tuán)隊(duì)還在四個(gè)具體的任務(wù)上進(jìn)行了詳細(xì)的評(píng)估。

在文本識(shí)別方面,他們使用了多個(gè)測(cè)試集。在OmniDocBench-OCR-block上,這個(gè)測(cè)試集包含了從真實(shí)文檔中提取的17148個(gè)文本塊,PaddleOCR-VL在幾乎所有的文檔類型上都表現(xiàn)最好。在一個(gè)叫做In-house-OCR的內(nèi)部測(cè)試集上,這個(gè)集合包含了超過10萬個(gè)樣本,涵蓋了多種語言和文本類型,模型同樣表現(xiàn)出色。特別值得一提的是,它在處理多種語言上的表現(xiàn)——包括阿拉伯語、韓語、泰米爾語、希臘語、泰語、印地語、西里爾字母等——都達(dá)到了最先進(jìn)的水平。在處理各種文本類型上,比如手寫中文、手寫英文、印刷文本、傳統(tǒng)中文、古文、豎排文字、單個(gè)字符和藝術(shù)字體,模型都表現(xiàn)得很好。

在表格識(shí)別方面,模型在OmniDocBench-Table-block上取得了0.9195的TEDS分?jǐn)?shù),這是一個(gè)非常高的分?jǐn)?shù)。在一個(gè)包含各種表格類型的內(nèi)部測(cè)試集上,模型同樣表現(xiàn)優(yōu)異,在各個(gè)指標(biāo)上都超過了其他模型。

在公式識(shí)別方面,模型在OmniDocBench-Formula-block上取得了0.9453的CDM分?jǐn)?shù)。在一個(gè)包含34816個(gè)公式的內(nèi)部測(cè)試集上,模型的CDM分?jǐn)?shù)達(dá)到了0.9882,這意味著它能夠正確識(shí)別98.82%的公式。

在圖表識(shí)別方面,雖然公開的測(cè)試集質(zhì)量不是很高,但在內(nèi)部的測(cè)試集上,模型取得了0.8440的RMS-F1分?jǐn)?shù),這個(gè)分?jǐn)?shù)超過了很多更大的模型。

十、速度的較量:為什么快速很重要

一個(gè)好的模型不僅要準(zhǔn)確,還要快速。畢竟,如果一個(gè)模型需要花費(fèi)幾個(gè)小時(shí)來處理一份文檔,那它在實(shí)際應(yīng)用中就沒有什么價(jià)值。

百度團(tuán)隊(duì)通過多種優(yōu)化技術(shù)來提高推理速度。他們使用了多線程異步執(zhí)行,把推理過程分成三個(gè)階段——數(shù)據(jù)加載、布局模型處理和VLM推理——每個(gè)階段在單獨(dú)的線程中運(yùn)行。這樣,當(dāng)一個(gè)階段在處理數(shù)據(jù)時(shí),另一個(gè)階段可以同時(shí)準(zhǔn)備下一批數(shù)據(jù),就像是一個(gè)流水線一樣。

此外,他們還使用了高效的推理引擎,比如vLLM和FastDeploy,這些引擎經(jīng)過了特殊的優(yōu)化,能夠充分利用GPU的計(jì)算能力。他們還調(diào)整了各種參數(shù),比如最大批處理令牌數(shù)和GPU內(nèi)存利用率,以找到速度和內(nèi)存消耗之間的最佳平衡。

在實(shí)際測(cè)試中,當(dāng)在一個(gè)NVIDIA A100 GPU上處理OmniDocBench v1.0數(shù)據(jù)集時(shí),PaddleOCR-VL使用FastDeploy后端可以達(dá)到每秒1.6184個(gè)頁面的處理速度,這比之前最好的模型MinerU2.5快了53.1%。如果考慮生成的令牌數(shù),PaddleOCR-VL每秒可以生成2486.4個(gè)令牌,比MinerU2.5快了50.9%。

十一、多語言支持:全球化的文檔處理

在一個(gè)全球化的世界里,文檔可能使用任何一種語言。百度團(tuán)隊(duì)的模型支持109種語言,這包括了世界上大多數(shù)主要語言。

這種廣泛的多語言支持不是偶然的。在訓(xùn)練數(shù)據(jù)的收集和處理過程中,團(tuán)隊(duì)特別注意了語言的多樣性。他們確保訓(xùn)練數(shù)據(jù)包含了各種不同的語言和文字系統(tǒng),從拉丁字母到阿拉伯字母,從漢字到天城文。

這意味著,無論你的文檔是用英文、中文、阿拉伯文、俄文、印地文還是其他任何語言寫的,這個(gè)模型都能理解并正確處理。這對(duì)于跨國公司、國際組織和全球供應(yīng)鏈來說是非常重要的。

十二、實(shí)際應(yīng)用中的表現(xiàn)

除了在標(biāo)準(zhǔn)測(cè)試集上的表現(xiàn),百度團(tuán)隊(duì)還展示了模型在真實(shí)世界文檔上的表現(xiàn)。這些文檔包括學(xué)術(shù)論文、報(bào)紙、教科書、考試試卷、手寫筆記等等。在所有這些真實(shí)世界的場(chǎng)景中,模型都表現(xiàn)得很好,能夠準(zhǔn)確地識(shí)別和理解各種復(fù)雜的文檔元素。

這意味著,這個(gè)模型不僅在實(shí)驗(yàn)室里表現(xiàn)好,在真實(shí)的應(yīng)用場(chǎng)景中也能可靠地工作。

十三、為什么這很重要

這項(xiàng)研究的重要性不僅僅在于技術(shù)指標(biāo)的提升,更在于它解決的實(shí)際問題。

首先,它證明了一個(gè)相對(duì)較小的模型(0.9B參數(shù))也能達(dá)到甚至超過更大模型的性能。這對(duì)于那些計(jì)算資源有限的組織和個(gè)人來說是一個(gè)好消息。你不需要擁有超級(jí)計(jì)算機(jī)才能使用最先進(jìn)的文檔處理技術(shù)。

其次,它提供了一個(gè)完整的解決方案,不僅僅是一個(gè)模型,而是一個(gè)從數(shù)據(jù)收集、標(biāo)注、訓(xùn)練到推理的完整系統(tǒng)。這對(duì)于其他研究者和開發(fā)者來說提供了寶貴的參考。

第三,它在多個(gè)維度上都達(dá)到了最先進(jìn)的水平——準(zhǔn)確性、速度、資源效率和多語言支持。這使得它成為了一個(gè)真正可用的、實(shí)用的系統(tǒng)。

最后,它為大型語言模型在文檔理解中的應(yīng)用打開了新的可能性。通過結(jié)合專門的布局分析模型和高效的視覺-語言模型,百度團(tuán)隊(duì)展示了如何在保持高性能的同時(shí)降低計(jì)算成本。

十四、未來的展望

這項(xiàng)研究為文檔處理領(lǐng)域的未來發(fā)展奠定了基礎(chǔ)。隨著越來越多的信息被數(shù)字化,自動(dòng)化文檔處理的需求只會(huì)增加。這個(gè)模型的出現(xiàn)意味著,更多的組織可以使用先進(jìn)的AI技術(shù)來處理他們的文檔,而不需要投入巨大的資金購買昂貴的硬件。

這也為檢索增強(qiáng)生成(RAG)系統(tǒng)的改進(jìn)提供了基礎(chǔ)。RAG系統(tǒng)是現(xiàn)代AI應(yīng)用中的一個(gè)關(guān)鍵技術(shù),它允許大型語言模型訪問外部知識(shí)庫。如果文檔處理變得更快、更準(zhǔn)確、更便宜,那么RAG系統(tǒng)就能提供更好的服務(wù)。

總的來說,百度飛槳團(tuán)隊(duì)的這項(xiàng)研究不僅是一個(gè)技術(shù)上的突破,更是一個(gè)實(shí)用性的突破。它證明了在AI時(shí)代,我們不需要盲目追求更大的模型,而是應(yīng)該追求更聰明的設(shè)計(jì)和更高效的實(shí)現(xiàn)。通過精心的架構(gòu)設(shè)計(jì)、高質(zhì)量的數(shù)據(jù)準(zhǔn)備和系統(tǒng)的優(yōu)化,一個(gè)相對(duì)較小的模型也能做出令人印象深刻的工作。

Q&A

Q1:PaddleOCR-VL是什么?它能處理哪些類型的文檔內(nèi)容?

A:PaddleOCR-VL是百度飛槳團(tuán)隊(duì)開發(fā)的文檔解析系統(tǒng),核心是一個(gè)僅有9億參數(shù)的輕量級(jí)視覺-語言模型。它能夠識(shí)別和處理文檔中的文字、表格、數(shù)學(xué)公式和圖表,支持109種語言,包括中文、英文、阿拉伯文、俄文等。

Q2:為什么PaddleOCR-VL比其他文檔識(shí)別模型更快更準(zhǔn)確?

A:該模型采用了兩階段的混合方案:先用專門的布局分析模型理解文檔結(jié)構(gòu),再用高效的視覺-語言模型識(shí)別具體內(nèi)容。它使用了NaViT動(dòng)態(tài)分辨率視覺編碼器和輕量級(jí)的ERNIE-4.5-0.3B語言模型,通過多線程異步執(zhí)行和高效推理引擎優(yōu)化,處理速度比前代快50%以上。

Q3:這個(gè)模型需要什么樣的硬件才能運(yùn)行?普通用戶能使用嗎?

A:PaddleOCR-VL僅需9億參數(shù),相比其他動(dòng)輒幾十億參數(shù)的模型要輕量得多,可以在單塊NVIDIA A100 GPU上高效運(yùn)行。百度已經(jīng)開源了代碼和模型,普通用戶可以通過PaddlePaddle框架使用,或者通過在線演示體驗(yàn)其功能。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
順德魚生是淡水生魚片,不擔(dān)心寄生蟲嗎?網(wǎng)友:大數(shù)據(jù)不會(huì)騙人!

順德魚生是淡水生魚片,不擔(dān)心寄生蟲嗎?網(wǎng)友:大數(shù)據(jù)不會(huì)騙人!

夜深愛雜談
2025-12-23 17:35:17
醫(yī)學(xué)博士:腫瘤越來越高發(fā),我們究竟被隱瞞了什么?

醫(yī)學(xué)博士:腫瘤越來越高發(fā),我們究竟被隱瞞了什么?

深度報(bào)
2025-12-21 23:01:02
從利物浦真核到安菲爾德棄將,只用了4年時(shí)間,金左腳被性格耽誤

從利物浦真核到安菲爾德棄將,只用了4年時(shí)間,金左腳被性格耽誤

足籃大世界
2025-12-28 17:47:01
1980年陳云決心復(fù)查潘漢年案,發(fā)現(xiàn)李克農(nóng)25年前報(bào)告

1980年陳云決心復(fù)查潘漢年案,發(fā)現(xiàn)李克農(nóng)25年前報(bào)告

冷峻視角下的世界
2025-12-02 18:23:26
你聽過最勁爆的瓜是啥?網(wǎng)友:被大八歲的補(bǔ)習(xí)班老師表白了

你聽過最勁爆的瓜是啥?網(wǎng)友:被大八歲的補(bǔ)習(xí)班老師表白了

帶你感受人間冷暖
2025-11-26 00:10:06
以色列“鐵光束”激光防空系統(tǒng)交付軍方

以色列“鐵光束”激光防空系統(tǒng)交付軍方

財(cái)聯(lián)社
2025-12-28 23:02:06
認(rèn)真看一下姚安娜,
你會(huì)發(fā)現(xiàn)她的長相其實(shí)挺有特點(diǎn)的。

認(rèn)真看一下姚安娜, 你會(huì)發(fā)現(xiàn)她的長相其實(shí)挺有特點(diǎn)的。

小光侃娛樂
2025-12-28 10:00:08
定了!“大灣區(qū)最快地鐵”12月29日開通

定了!“大灣區(qū)最快地鐵”12月29日開通

樓主說樓市
2025-12-28 21:22:14
上海:江寧路免稅店重開了!出境前60天可選購,“老公、弟弟、公公都想買點(diǎn)酒,茅臺(tái)價(jià)格非常合適”

上海:江寧路免稅店重開了!出境前60天可選購,“老公、弟弟、公公都想買點(diǎn)酒,茅臺(tái)價(jià)格非常合適”

縱相新聞
2025-12-28 16:41:02
楊樂樂首談和汪涵的婚姻問題,婚后全職一人帶娃,自嘲有點(diǎn)想離婚

楊樂樂首談和汪涵的婚姻問題,婚后全職一人帶娃,自嘲有點(diǎn)想離婚

粵語經(jīng)典歌單
2025-12-27 15:14:50
李連杰再回應(yīng)“換心臟”“換血”等傳言:我心臟又沒病,干嘛要換了心臟;此前關(guān)掉美顏?zhàn)宰C清白:換這換那?不如換個(gè)心態(tài)

李連杰再回應(yīng)“換心臟”“換血”等傳言:我心臟又沒病,干嘛要換了心臟;此前關(guān)掉美顏?zhàn)宰C清白:換這換那?不如換個(gè)心態(tài)

極目新聞
2025-12-28 22:15:33
為什么大航海時(shí)代不讓女人上船?全是血淚教訓(xùn)

為什么大航海時(shí)代不讓女人上船?全是血淚教訓(xùn)

超人強(qiáng)動(dòng)物俱樂部
2025-12-22 10:59:29
干啥去?上海外援洛夫頓:我將回歸路易斯安那理工大學(xué)

干啥去?上海外援洛夫頓:我將回歸路易斯安那理工大學(xué)

懂球帝
2025-12-28 11:25:12
藏不住了!李晨范冰冰領(lǐng)證曝光,落難時(shí)的幾千萬,沒敵過婆家偏見

藏不住了!李晨范冰冰領(lǐng)證曝光,落難時(shí)的幾千萬,沒敵過婆家偏見

北極熊愛看海
2025-12-27 16:00:46
“早餐這么豐盛,女兒還翻白眼”,2.2w人怒了:讓她餓肚子上學(xué)!

“早餐這么豐盛,女兒還翻白眼”,2.2w人怒了:讓她餓肚子上學(xué)!

卷史
2025-12-26 21:18:25
中國航發(fā)集團(tuán)原董事長曹建國已從中國工程院院士名單中撤下

中國航發(fā)集團(tuán)原董事長曹建國已從中國工程院院士名單中撤下

澎湃新聞
2025-12-27 09:54:26
賢妻求大佬封殺前夫?林心如送霍建華豬腳?李宏毅限高老賴?張昊唯逃稅涉黃洗白?姨太問答

賢妻求大佬封殺前夫?林心如送霍建華豬腳?李宏毅限高老賴?張昊唯逃稅涉黃洗白?姨太問答

毒舌扒姨太
2025-12-27 22:30:12
CT輻射或引發(fā)超10萬例新發(fā)癌癥?做一次CT,對(duì)人體的傷害有多大?

CT輻射或引發(fā)超10萬例新發(fā)癌癥?做一次CT,對(duì)人體的傷害有多大?

39健康網(wǎng)
2025-12-01 18:30:51
管子都留好了,管線機(jī)突然不流行了

管子都留好了,管線機(jī)突然不流行了

新住家居
2025-12-25 07:08:21
林強(qiáng)涉案989億被抓!生活奢華超過中東富豪,超5萬百姓血本無歸

林強(qiáng)涉案989億被抓!生活奢華超過中東富豪,超5萬百姓血本無歸

千言娛樂記
2025-12-27 20:07:06
2025-12-29 00:31:00
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
6680文章數(shù) 544關(guān)注度
往期回顧 全部

科技要聞

特斯拉將在華布局自動(dòng)駕駛?記者求證→

頭條要聞

澤連斯基:若要烏就領(lǐng)土問題讓步 "和平計(jì)劃"應(yīng)全民公投

頭條要聞

澤連斯基:若要烏就領(lǐng)土問題讓步 "和平計(jì)劃"應(yīng)全民公投

體育要聞

MVP概率達(dá)82.5%!約基奇連超大鳥喬丹

娛樂要聞

白敬亭現(xiàn)身冰雪大世界 拍視頻還翻車了

財(cái)經(jīng)要聞

英偉達(dá)的收購史

汽車要聞

理想的2026:L9不容有失,i9再戰(zhàn)純電?

態(tài)度原創(chuàng)

教育
家居
時(shí)尚
數(shù)碼
本地

教育要聞

地理干貨|高中地理易錯(cuò)知識(shí)點(diǎn)期末整理

家居要聞

格調(diào)時(shí)尚 智慧品質(zhì)居所

“這頂帽子”太火了,今年流行的風(fēng)格都離不開它

數(shù)碼要聞

曝光的AirPods原型機(jī)顯示,蘋果曾計(jì)劃推出多彩配色方案!

本地新聞

云游安徽|踏訪池州,讀懂山水間的萬年史書

無障礙瀏覽 進(jìn)入關(guān)懷版