網易首頁 > 網易號 > 正文申請入駐

當AI"認字"遇上冷門文字：慕尼黑工業(yè)大學揭示OCR模型的致命盲區(qū)

2026-04-23 21:24:36　來源: 科技行者

北京舉報

分享至

這項由慕尼黑大學（LMU Munich）、慕尼黑工業(yè)大學（TU Munich）及慕尼黑計算與機器學習中心（MCML）聯合主導，并與法國索邦大學暨法國國家科研中心（CNRS）合作完成的研究，于2026年4月14日作為預印本發(fā)布，論文編號為arXiv:2604.12978。感興趣的讀者可以通過該編號在arXiv平臺上查閱完整原文。

你肯定見過那種手機掃一掃就能把照片里的文字"讀"出來的功能——無論是拍下一張菜單、掃描一份合同，還是拍下路標讓它自動翻譯，背后都有一種叫做"OCR"的技術在工作。OCR，全稱Optical Character Recognition，中文叫做光學字符識別，說白了就是讓計算機"認字"。近年來隨著AI技術的爆炸式發(fā)展，這類識字能力已經進化到了令人嘆為觀止的水平——至少，在英文、中文這些"大語言"上是這樣。

然而，這支跨國研究團隊決定做一件讓人有點不安的事：他們想知道，當這些AI遇到世界上那些"冷門文字"時，會發(fā)生什么？畢竟，地球上現在通用的Unicode標準收錄了172種書寫系統，從古埃及象形文字到埃塞俄比亞的吉茲字母，從緬甸文到線形文字B，每一種都承載著真實的人類文化與歷史。這些文字的使用者加起來多達數以億計，但它們在AI眼中，可能根本就是"天書"。

為了把這個問題說清楚，研究團隊建立了一個叫做GlotOCR Bench的評測基準，覆蓋158種Unicode書寫系統，用來系統性地考察當前最先進的AI識字模型，到底能認得幾種字。結果令人警醒：幾乎所有模型在英文上表現優(yōu)秀，但遇到阿拉伯文、梵文等中等資源文字已經明顯吃力，而面對剩下148種"小眾"書寫系統時，識別準確率直接塌方——最好的模型也只能正確讀出不到8%的句子。更糟糕的是，這些AI并不會老老實實承認"我不認識"，而是繼續(xù)生成看起來像模像樣、實則完全不對的文字輸出，仿佛一個不懂日語卻對著日文菜單信口開河的外國游客。

一、從"認字神器"到"文字盲點"：為什么要做這個測試

在討論這項研究的具體發(fā)現之前，有必要理解一個背景：目前AI領域主流的OCR評測基準，比如OCRBench、OCRBench v2、CC-OCR、OmniDocBench等，關注的重點幾乎清一色是拉丁字母（也就是英語等西歐語言用的那套字母）和中日韓文字，再加上屈指可數的幾種其他文字。就連那些號稱"多語言OCR"的研究，實際上也是在說"多種語言"，而不是"多種書寫系統"，底層的文字種類依然十分有限。

這就好比你測試一位廚師能不能做各地美食，結果只考了他做意大利面、炒飯和漢堡，然后說他"全球廚藝一流"。世界上還有數百種風味獨特的菜系，從來沒進過這位廚師的廚房，但他的"全球廚藝"證書已經掛在墻上了。

研究團隊指出，Unicode標準目前編碼了172種書寫系統，代表著幾千年來人類在地球上每一個有人居住的大陸上發(fā)展出來的文字形式。其中許多書寫系統至今仍被數百萬人日常使用，另一些則對歷史語言學、考古學和文化保護具有不可替代的價值。當一個族群的歷史文獻、宗教典籍或民間故事以某種小眾文字書寫，卻因為OCR技術無法識別而無法被數字化時，這不僅是技術問題，更是一種文化上的遮蔽。

此外，從實用角度看，大量書籍和掃描文件代表著訓練低資源語言AI模型的潛在數據寶庫，而要把這些資料轉化為可用數據，可靠的跨文字OCR技術是不可或缺的第一步。正是帶著這樣的關切，研究團隊啟動了這項覆蓋面空前廣泛的評測工作。

二、打造一把精密的"文字標尺"：GlotOCR Bench是怎么做的

要評測AI認字的能力，首先得準備好考卷。GlotOCR Bench的構建過程本身就是一項極為細致的工程，因為要覆蓋158種書寫系統，每一個環(huán)節(jié)都必須針對每種文字的獨特特性進行處理。

研究團隊將這158種書寫系統按照在網絡內容中的普及程度分為三個等級。第一級是"高資源"，只有一種書寫系統入圍，那就是拉丁字母。第二級是"中資源"，共有九種：阿拉伯文、西里爾文（俄語等斯拉夫語言使用）、天城文（梵文/印地語使用）、漢字、日文（平假名/片假名/漢字混用）、韓文（諺文）、希臘文、希伯來文和泰文。第三級是"低資源"，包含剩余的148種書寫系統，占全部收錄書寫系統的94%。

文本素材來源非常廣泛，主要數據集是GlotLID v3，這是一個涵蓋超過2102種語言-文字組合的多語言數據庫。對于GlotLID覆蓋不足的書寫系統，團隊還額外從維基詞典、維基文庫、全球文字網站Omniglot、谷歌字體語言數據庫等多處補充材料，甚至對一些缺乏原生數字文本的書寫系統，借助文字轉換工具將其他語言的內容轉寫過來。每條句子都經過GlotScript工具驗證，確保所用文字確實是該語言的慣用書寫系統，而非隨機生成的字符序列。

在每種書寫系統下，研究團隊最多采集100個句子，但拉丁字母采集了4000個，部分中資源書寫系統采集了400個以便進行更細化的語言分析。整個數據集共包含16375個句子。

把文本變成圖片的過程同樣大有講究，因為OCR考的是識別圖片中的文字，而不是直接處理文本。圖片渲染使用了HarfBuzz負責文字成形（確保字母按照該書寫系統的規(guī)則正確拼合）以及FreeType負責字形光柵化（把矢量字形轉成像素圖像）。字體全部來自谷歌字體庫，并按照三步篩選流程逐一核驗：先篩出聲稱支持該書寫系統的字體，再從中篩出能覆蓋句子中所有Unicode碼點的字體，最后只保留真正能成功渲染所有字形的字體。這三步都不可省略，因為實際檢查發(fā)現，有些字體聲稱支持某種文字，但到了實際渲染時仍會出錯。最終，每種書寫系統下隨機選取一種通過所有篩選的字體來渲染圖片。

每個句子會生成兩種版本的圖片。"干凈版"在白色背景上以48像素字號渲染，加上輕微的隨機旋轉（最多正負1度），模擬輕微的頁面傾斜。"做舊版"則經過一系列模擬陳舊文件的處理流程：疊加隨機裁剪的掃描紙張紋理背景，加上最多正負2度旋轉；施加彈性變形和高斯噪聲；添加10至30個白色矩形斑塊模擬墨水脫落，并將像素亮度縮放到50%至85%模擬墨水褪色；將圖片降采樣到原始分辨率的40%至70%再放大回來，并以30至80的質量進行JPEG壓縮；最后對四個角點進行最多10%圖像尺寸的透視變形。在字形級別，字符間距也會隨機擾動，每個字形有40%概率被膨脹處理、25%概率被腐蝕處理，每行文字會有上下3像素的隨機抖動，字形還會以拋物線曲率縱向位移，模擬紙張卷曲。

所有渲染結果都經過人工抽檢，每種書寫系統隨機抽查10張圖片跨不同尺寸驗證視覺正確性。對于常見書寫系統，與外部編輯器對比驗證；對于稀有書寫系統，則逐字符與Unicode字符圖表比對。

三、請來14位"考生"：被評測的AI模型

研究團隊共評測了14個OCR模型，覆蓋開源和商業(yè)API兩類。開源模型包括：dots.ocr（專注多語言文檔版面解析的視覺-語言模型）、dots.mocr（dots.ocr的1.5版本升級）、olmOCR-2（專為PDF文檔解析設計的開源模型）、RolmOCR（更輕量的開源OCR模型）、LightOnOCR-2（10億參數的端到端多語言視覺-語言OCR模型）、Nanonets-OCR2（將文檔轉換為結構化Markdown的模型）、PaddleOCR-VL-1.5（百度飛槳團隊的多任務文檔解析模型）、FireRed-OCR、GLM-OCR、DeepSeek-OCR-2、HunyuanOCR（騰訊混元視覺團隊的模型）和Qwen3-VL-8B（阿里巴巴通義千問視覺語言模型的8B參數版本）。商業(yè)API模型則包括谷歌的Gemini 3.1 Flash-Lite和OpenAI的GPT-4.1。

所有模型都以"零樣本"方式進行測試，也就是說，測試時不給模型任何額外示例或提示，只是簡單要求它把圖片里的文字抄錄下來，不做任何額外解釋。這樣的測試方式最能反映模型的真實能力，而非經過刻意調整后的表現。

評測使用三個核心指標。CER（字符錯誤率）是最基礎的指標，通過計算模型輸出與正確答案之間的字符級編輯距離（增刪改的最少操作次數）來量化錯誤程度，數值越低越好，0表示完全正確。為了公平起見，評測時還會對比原始輸出、反向輸出、小寫輸出以及去除Unicode附加符號后的輸出，取四種情況中最好的那個CER，避免因大小寫或書寫變體差異而不公平地懲罰模型。Acc@0（字符零錯誤率）指的是模型輸出與正確答案完全一致的比例，而Acc@5（5%以內錯誤率）則是研究團隊最核心的精度指標，指模型輸出的CER不超過5%的句子比例——換言之，就是"幾乎完全正確"的比例，自然是越高越好。ScriptAcc（書寫系統準確率）則不在乎文字是否完全正確，只問模型是否至少識別對了這是哪種書寫系統——比如看到泰文，回答是不是泰文字符，而非梵文或阿拉伯文。這個指標能揭示一種獨特的失敗模式：模型是真的在嘗試識別目標文字，還是根本就在"說另一種語言"。

四、考試結果出爐：三個等級，三種命運

測試結果以一種幾乎可以用"戲劇性"來形容的方式呈現了三檔之間的鴻溝。

在高資源等級（拉丁字母），所有14個模型的Acc@5都超過了75%，表現最好的幾個模型超過90%。Gemini 3.1 Flash-Lite以95.3%的Acc@5領跑，dots.mocr以93.1%緊隨其后，olmOCR-2達到90.5%。不過值得注意的是，即便在這個"擅長領域"，也沒有任何模型達到接近完美的水平——大多數模型的CER仍在2%以上，也就是說每100個字符里平均有兩個錯誤。這部分誤差主要來自拉丁字母本身在不同語言中的變體，比如冰島語中的"?"經常被誤認為是視覺上相近的"p"，而這種錯誤在那些以英文為主要訓練語言的模型中尤為明顯。

中資源等級（阿拉伯文、西里爾文等9種書寫系統）的成績明顯下滑。平均Acc@5從高資源的87.6%下降到60.0%，跌幅約28個百分點。Gemini 3.1 Flash-Lite依然以82.7%位居首位，dots.ocr以78.3%排名第二。但在這一等級，不同模型之間的差距開始拉大——Qwen3-VL-8B和olmOCR-2比頂部模型落后約15至19個百分點，而GLM-OCR和DeepSeek-OCR-2則比Gemini 3.1 Flash-Lite低了40個百分點以上，顯示出在中資源書寫系統上的泛化能力相當有限。

低資源等級（剩余148種書寫系統）則是真正的災難現場。平均Acc@5從中資源的60.0%直接崩塌至2.3%，跌幅近58個百分點，且這個下滑并非漸進式的，而是一個陡峭的懸崖式斷層。即便是表現最好的Gemini 3.1 Flash-Lite、dots.ocr和dots.mocr，Acc@5也只達到7.7%。換句話說，在這148種書寫系統的測試句子中，超過92%對于這些最強模型來說依然無法正確讀出。對于其余11個模型，Acc@5低于5%，其中8個甚至低于1%，幾乎接近于完全失敗。

研究團隊把這個現象總結為"閾值效應"：模型的表現并不隨著書寫系統資源的減少而平滑降低，而是存在一個明顯的臨界點——一旦某種書寫系統在訓練數據中的覆蓋程度低于某個門檻，模型就幾乎完全無法識別，表現從"有用"直接跳躍到"無用"，中間幾乎沒有過渡地帶。

五、同一種字母，也分三六九等：阿拉伯文的特殊困境

研究團隊進一步分析了拉丁文、梵文/天城文、阿拉伯文和西里爾文這四種書寫系統內部、跨語言的表現差異，結果揭示了另一層不均勻性。

即便在高資源的拉丁字母等級，不同語言之間的模型表現也存在相當大的波動?？傮w中位數固然很高（通常超過90%），但一些使用非英文拉丁字母變體的語言，比如冰島語、波蘭語、越南語等，其準確率明顯低于以英語為主要訓練語言的模型所能達到的水平。

天城文（用于書寫印地語、梵語等）的整體表現比拉丁文低，但多數模型仍能維持中等水平。此書寫系統中的誤差主要來自"疊合字符"——多個字母在書寫時合并成一個復雜字形，類似漢字里的合體字。不過由于疊合字符是天城文的核心特征，大多數模型已經對此有所適應。

西里爾文（用于俄語、保加利亞語等斯拉夫語言）的表現相對不錯，多個模型的中位數接近拉丁文，但各語言間的差異仍然顯著。

阿拉伯文的表現則最為慘烈，不僅總體中位數低，而且各語言之間的差異極大，且整體分布向低分端嚴重傾斜。研究團隊認為，這反映了阿拉伯文字本身的復雜性：同一個字母在詞首、詞中、詞尾會有不同的寫法；可選的元音符號（短元音標記）可有可無；阿拉伯文還是多種語言（阿拉伯語、波斯語、烏爾都語、普什圖語等）的共同書寫系統，每種語言有其獨特的用字習慣和變體，使得泛化極為困難。

六、認出"它是什么字"和"念出它寫了什么"：兩個完全不同的難題

研究團隊還專門分析了ScriptAcc（能否認出這是什么書寫系統）和Acc@5（能否正確讀出內容）之間的關系，發(fā)現兩者雖然強相關，但存在一些非常有啟發(fā)性的例外。

總體趨勢符合直覺：高資源和中資源書寫系統（拉丁文、日文、希臘文、漢字等）聚集在右上角，既能認出書寫系統，也能讀出內容；低資源書寫系統散布在左下方，兩項都很低。

但有幾個例外值得關注。阿拉伯文的ScriptAcc很高，說明模型能認出這是阿拉伯文字，但Acc@5卻相對較低，說明問題出在識別具體內容上，而非書寫系統層面——模型知道這是阿拉伯文，就是讀不準。希伯來文則相反，它的ScriptAcc出人意料地低，因為模型頻繁把希伯來文誤認為泰文（從附錄的混淆矩陣可以看出），拉低了其整體OCR表現。日文則是一個令人驚喜的正向異常值：盡管日文混合了平假名、片假名和漢字三套書寫系統，其Acc@5卻高于純粹的拉丁字母，表明那些有足夠訓練數據的模型完全有能力處理多書寫系統混排的復雜情況。

七、給AI一個"提示"有用嗎？揭秘"作弊測試"的結果

研究團隊做了一個有趣的對照實驗：給GPT-4.1一個"超級提示"，明確告訴它"這張圖片里的文字使用的是某種書寫系統，屬于某種語言，而且圖中出現的所有字符按Unicode碼點排序后是這個集合"，然后再讓它轉錄。這相當于考試時給學生一張參考卡，上面列出了所有可能出現的考點字符。

結果卻出人意料地平淡。在149種被測試的書寫系統中，125種完全沒有改善，只有21種出現了提升，3種甚至略有下降，平均提升僅0.7個百分點。

不過在那21種有所改善的書寫系統中，改善幅度有明顯差異。漢字的提升最為顯著，超過20個百分點，這是有道理的：漢字的字符庫極為龐大，單是常用漢字就有數千個，給定候選字符集合相當于大幅縮小了搜索空間，模型因此能避免用常見字替換視覺相似的生僻字。西里爾文和泰文也有明顯提升，說明對這些書寫系統來說，字符歧義是一個不可忽視的錯誤來源。

然而，對于低資源書寫系統，即便給出了"作弊提示"，改善仍然微乎其微，大部分停留在個位數。這說明知道"應該認哪些字"并不能解決根本問題：模型缺乏的是對這些字形的視覺識別能力和對應的預訓練知識，而不僅僅是候選集太大。

八、舊紙張的挑戰(zhàn)：圖像質量如何影響識別率

研究團隊還專門比較了在干凈圖片和"做舊文件"圖片兩種條件下，六個表現最好的模型（dots.mocr、dots.ocr、HunyuanOCR、olmOCR-2、GPT-4.1、GLM-OCR）的表現差異。

在所有等級和所有模型上，圖像做舊處理都會導致Acc@5下降，但下降幅度因資源等級而異。對于高資源的拉丁字母，GPT-4.1的相對下降幅度約為13.8%，表現出相對較強的魯棒性，而olmOCR-2的相對下降則達到19.7%。對于中資源書寫系統，下降幅度更大，絕對值超過高資源等級，說明模型在熟悉程度較低的書寫系統上，受圖像質量干擾的影響更為顯著。對于低資源書寫系統，由于基礎準確率本來就已接近零，絕對下降幅度看起來很小，但相對而言意味著所剩無幾的那點"偶爾答對"的機會也幾乎消失殆盡。

這告訴我們一個樸素的道理：干凈圖片代表著OCR性能的上限，現實中的文件往往比測試用的干凈圖片質量更差，真實場景中的識別困難只會比基準測試顯示的更嚴峻。

九、"答不出來"和"亂答一通"的區(qū)別：幻覺輸出的解剖

研究中最令人印象深刻的發(fā)現之一，是對模型失敗模式的詳細分類。當模型無法正確識別某種書寫系統時，它們的行為并不是沉默地"放棄"，而是分成了三種截然不同的失敗方式。

第一種是"跨書寫系統幻覺"，即模型輸出的是另一種可識別的書寫系統中的字符，看起來像真正的文字，只是寫錯了語言。第二種是"沉默"，即模型返回空白或只有空格的回應。第三種是"亂碼/偽文本"，即輸出包含GlotScript工具無法歸類為任何真實書寫系統的內容，通常是重復的數字串、標點符號循環(huán)，或模型自己生成的格式控制標記。

統計結果令人瞠目結舌。在所有模型的平均水平上，只有12.5%的輸出被正確歸類為目標書寫系統?？鐣鴮懴到y幻覺占到了平均68.4%，亂碼偽文本占13.1%，沉默只占6%。換句話說，模型面對陌生文字時，壓倒性的選擇是"裝作自己認識、用其他語言瞎寫一通"，而不是老實承認"這個我不認識"。

不同模型在"沉默"和"亂碼"比例上差異很大，反映了不同的訓練策略。dots.ocr的沉默率高達42.1%，說明這個模型在無法識別時傾向于不輸出任何內容；而DeepSeek-OCR2的亂碼率高達26.2%，表明它被訓練成了"必須輸出點什么"，即便是面對空白圖片也要生成內容。從用戶體驗角度看，沉默雖然令人沮喪，但至少是誠實的；亂碼輸出則可能造成誤導，讓用戶誤以為得到了有意義的信息。

幻覺的目標書寫系統并非隨機分布，而是高度集中在幾種高資源和中資源書寫系統上，其中拉丁字母、阿拉伯文和天城文合計占據了絕大多數幻覺輸出的份額。一些替換關系反映了書寫系統之間真實的視覺相似性，比如敘利亞文被寫成阿拉伯文、格蘭他文被寫成泰米爾文、科普特文被寫成希臘文、內瓦爾文被寫成天城文、西夏文被寫成漢字、傈僳文被寫成拉丁字母——每種情況都是把一種小眾書寫系統替換為其在視覺上最相近的高資源"近親"。另一些替換則純粹是由訓練數據的統計分布驅動的：古維吾爾文和蒙古文在測試中被水平排列（因為基準測試不支持傳統的豎排書寫），而其水平書寫形態(tài)在視覺上可能與阿拉伯文的連寫筆畫有表面相似之處，導致被頻繁誤識別為阿拉伯文。Ogham文（一種古愛爾蘭文字，由一系列在直線兩側的刻劃組成）幾乎被所有模型輸出為拉丁字母，盡管兩者在視覺上幾乎沒有共同點——這說明模型并非真的在做視覺匹配，而是在做統計猜測，輸出訓練數據中最常見的那種文字。

十、哪些文字是"絕對認不出來"的：零識別書寫系統大盤點

研究附錄中列出的數據更為直觀地展示了這場測試中的"全線失守"有多徹底。有多達92種書寫系統被所有模型在ScriptAcc上得零分，也就是說，沒有任何一個模型能正確識別這些書寫系統的輸出。

這些書寫系統并不都是遠古文明的遺跡，其中包括至今仍有人日常使用的文字，比如N'Ko（西非曼德語族語言使用，有數百萬使用者）、Adlam（西非富拉尼語使用，有數千萬使用者）、Thaana（馬爾代夫迪維希語使用）、Meitei Mayek（印度曼尼普爾邦官方書寫系統）、Pahawh Hmong（苗族書寫系統）等。這些書寫系統中許多都有數以百萬計的使用者，但對當今最先進的AI來說，它們完全透明不可見，仿佛根本不存在一樣。

從模型的幻覺輸出方向可以看出更多規(guī)律。面對Lepcha文（錫金地區(qū)使用），模型最常輸出拉丁字母或阿拉伯文；面對Modi文（印度歷史書寫系統），最常輸出天城文或泰文；面對N'Ko，最常輸出阿拉伯文或拉丁字母。這種系統性的"認錯父母"現象，清楚地揭示了AI識字系統的內在邏輯：它們對文字的認識高度依賴訓練數據的覆蓋范圍，而不是基于對視覺形態(tài)的真正理解，更不是基于對人類書寫系統多樣性的廣泛認知。

說到底，這項研究講了一個關于"已知"與"未知"之間巨大鴻溝的故事。AI在識字這件事上已經取得了令人矚目的成就，但這些成就高度集中在一小撮資源豐富的書寫系統上。對于地球上絕大多數的書寫傳統，當前最強大的AI模型實際上處于一種"不知道自己不知道"的狀態(tài)——它們不會承認自己不認識，而是自信地用自己熟悉的文字替代陌生的文字，制造出一種"能用"的假象。

研究團隊用數據揭示的這個現實，對于所有關心數字包容性、文化多樣性和語言技術公平性的人來說，都是一個值得認真對待的警示。AI識字技術的發(fā)展軌跡，如果不加以主動干預，可能會不斷強化現有的資源差距：大語言的數字化越來越容易，小語言的數字化則因為缺乏可用的OCR工具而愈發(fā)困難，形成一個自我強化的惡性循環(huán)。

當然，這份數據本身也具有一定的局限性。對于那些樣本量不足100個句子的書寫系統，評測結論的統計可靠性相對較低，研究團隊也坦誠地指出了這一點。此外，基準測試中的句子來自多種來源，質量和代表性參差不齊，對于某些書寫系統，所謂的"真實語料"實際上是通過文字轉換工具生成的，而非原生文本，這在一定程度上影響了測試的語言真實性。

但這些局限不足以否定研究的核心意義。GlotOCR Bench作為一個公開發(fā)布的基準測試，不僅提供了目前最全面的跨書寫系統OCR評測數據，也為未來的研究者指明了方向：訓練數據的覆蓋范圍，而非模型架構的復雜程度，才是制約低資源書寫系統識別能力的根本瓶頸。這意味著要真正解決這個問題，需要的不僅是更聰明的算法，更是更廣泛的數據收集、更多元的社區(qū)參與，以及對"哪些書寫系統值得被數字化"這個問題的更公平回答。

有興趣深入研究這個課題的讀者，可以通過arXiv編號2604.12978查閱完整論文，或者訪問論文中公開發(fā)布的評測基準數據集（Hugging Face數據集：cis-lmu/glotocr-bench）以及渲染流程代碼（GitHub：cisnlp/glotocr-bench），親自檢驗這些AI模型在你感興趣的某種書寫系統上的真實表現。

Q&A

Q1：OCR模型在低資源書寫系統上的識別率有多低？

A：根據GlotOCR Bench的評測結果，即便是表現最好的Gemini 3.1 Flash-Lite，在148種低資源書寫系統上的Acc@5（幾乎完全正確轉錄的句子比例）也只有7.7%，其他大多數模型低于1%。這意味著對于這148種書寫系統，模型在超過92%的句子上都無法正確識別。

Q2：OCR模型認不出某種文字時會怎么做？

A：OCR模型在無法識別某種書寫系統時，絕大多數情況下不會沉默，而是會直接用它熟悉的其他語言文字"頂替"輸出，這種現象被稱為跨書寫系統幻覺。統計顯示，約68.4%的失敗案例都是這種幻覺輸出，模型最常用拉丁字母、阿拉伯文或天城文替代它認不出的書寫系統，看起來像真實文字，實則完全錯誤。

Q3：給OCR模型提示"這張圖片里有哪些字符"能幫它識別冷門文字嗎？

A：幫助非常有限。研究團隊專門對GPT-4.1做了"提示輔助"測試，在告知模型當前圖片的書寫系統和所有出現字符之后，149種書寫系統中有125種完全沒有改善，整體平均提升僅0.7個百分點。這說明對低資源書寫系統而言，瓶頸不在于候選字符集太大，而在于模型從未真正學習過這些字形的視覺特征，僅憑提示無法彌補訓練數據缺失這一根本性短板。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.