Google DeepMind PaliGemma 2：視覺理解模型實現(xiàn)重大升級

2026-03-09 16:30:18　來源: 科技行者

北京舉報

分享至

這項由Google DeepMind團(tuán)隊在2024年12月發(fā)布的研究論文（論文編號：arXiv:2412.03555v1），展現(xiàn)了人工智能視覺理解領(lǐng)域的又一次重要進(jìn)展。研究團(tuán)隊基于成功的PaliGemma模型，推出了全新的PaliGemma 2模型家族，這就像是給一個已經(jīng)很聰明的助手配備了更強(qiáng)大的大腦和更敏銳的眼睛。

想象一下，如果你有一個助手，它不僅能看懂圖片，還能回答關(guān)于圖片的各種問題，甚至能幫你識別文檔中的文字、理解表格結(jié)構(gòu)，甚至讀懂音樂樂譜。這就是PaliGemma 2想要實現(xiàn)的目標(biāo)。這個模型家族就像是一套完整的視覺理解工具箱，里面有大中小三個版本的"助手"，分別是3B、10B和28B參數(shù)的模型，就好比有三個不同能力等級的專家在為你服務(wù)。

研究團(tuán)隊在原有PaliGemma模型的基礎(chǔ)上，用更先進(jìn)的Gemma 2語言模型替換了原來的語言理解核心，這就像是給汽車換了一個更強(qiáng)勁的發(fā)動機(jī)。同時，他們還讓模型能夠處理三種不同精細(xì)度的圖片：224像素、448像素和896像素，就像給眼鏡配了三種不同倍率的鏡片，能夠適應(yīng)不同的觀察需求。

這項研究的突破性在于，它不僅提升了模型在傳統(tǒng)視覺問答任務(wù)上的表現(xiàn)，更重要的是拓展了應(yīng)用場景的邊界。PaliGemma 2現(xiàn)在能夠處理文字檢測識別、表格結(jié)構(gòu)分析、分子結(jié)構(gòu)識別、音樂樂譜識別，甚至能夠生成詳細(xì)的圖片描述和醫(yī)學(xué)影像報告。這就像是培養(yǎng)了一個博學(xué)多才的全科專家，既能看病理片，又能讀化學(xué)分子式，還能識別五線譜。

更令人興奮的是，研究團(tuán)隊將這些模型以開放權(quán)重的形式發(fā)布，這意味著全世界的開發(fā)者和研究者都可以免費(fèi)使用和改進(jìn)這些模型。這就像是把一套昂貴的專業(yè)工具免費(fèi)分享給了整個社區(qū)，讓更多人能夠在此基礎(chǔ)上創(chuàng)造出更多有用的應(yīng)用。

通過大量的實驗和對比，研究團(tuán)隊發(fā)現(xiàn)了一個有趣的規(guī)律：對于需要看清細(xì)節(jié)的任務(wù)（比如讀文檔），提高圖片分辨率比使用更大的模型更有效；而對于需要推理和理解的任務(wù)（比如回答復(fù)雜問題），使用更大的模型往往效果更好。這就像是在不同的工作場景下，有時候需要更好的眼鏡，有時候需要更聰明的大腦。

一、模型架構(gòu)：像組裝精密儀器一樣構(gòu)建智能系統(tǒng)

PaliGemma 2的工作原理就像是將一臺高精度相機(jī)與一個博學(xué)的語言專家完美結(jié)合。想象你有一個朋友，他不僅有著異常敏銳的視覺觀察力，還擁有豐富的知識儲備和出色的表達(dá)能力。當(dāng)你向他展示一張圖片時，他首先會仔細(xì)觀察圖片的每個細(xì)節(jié)，然后運(yùn)用自己的知識庫來理解和解釋所看到的內(nèi)容，最后用清晰準(zhǔn)確的語言告訴你他的理解。

整個系統(tǒng)的核心架構(gòu)包含兩個主要部分：視覺編碼器和語言模型。視覺編碼器就像是一雙超級眼睛，負(fù)責(zé)將圖片轉(zhuǎn)換成計算機(jī)能夠理解的數(shù)字形式。研究團(tuán)隊使用了SigLIP-So400m作為視覺編碼器，這個組件已經(jīng)在PaliGemma中證明了自己的能力。它能夠處理不同尺寸的圖片，從224像素的小圖到896像素的高清圖，就像是配備了可調(diào)節(jié)焦距的專業(yè)鏡頭。

語言模型部分則是整個系統(tǒng)的"大腦"，負(fù)責(zé)理解和生成文字。這次升級的關(guān)鍵就在于用全新的Gemma 2系列模型替換了原來的語言核心。Gemma 2就像是經(jīng)過更好教育、掌握更多知識的新一代專家。研究團(tuán)隊提供了三個不同規(guī)模的版本：2B、9B和27B參數(shù)，分別對應(yīng)3B、10B和28B的完整模型。這就好比有三個不同經(jīng)驗水平的專家：新手、熟手和大師級專家，他們在處理復(fù)雜問題時的能力各不相同。

當(dāng)一張圖片輸入到系統(tǒng)中時，整個處理過程就像接力賽一樣展開。首先，視覺編碼器會將圖片分解成許多小塊，每個小塊都被轉(zhuǎn)換成一串?dāng)?shù)字，這個過程就像是把一幅畫分成許多小拼圖塊，然后為每個拼圖塊寫下詳細(xì)的描述。接下來，這些數(shù)字化的圖片信息會通過一個線性投影層，就像是翻譯員一樣，將視覺信息翻譯成語言模型能夠理解的格式。

最后，經(jīng)過翻譯的圖片信息會與用戶的文字問題合并在一起，一同輸入到Gemma 2語言模型中。語言模型會綜合考慮圖片內(nèi)容和問題要求，然后逐字逐句地生成回答。這個過程就像是一個博學(xué)的教授在看過你展示的材料后，認(rèn)真思考并組織語言來回答你的問題。

特別值得注意的是，PaliGemma 2支持三種不同的圖片分辨率處理。224像素版本適合處理一般的圖片理解任務(wù)，就像是用普通眼鏡看書；448像素版本在需要更多細(xì)節(jié)的任務(wù)中表現(xiàn)更好，就像是戴上了老花鏡；而896像素版本則專門用于需要極高精度的任務(wù)，比如識別文檔中的小字或復(fù)雜圖表，就像是使用了放大鏡進(jìn)行精密觀察。

整個模型的訓(xùn)練過程分為三個階段，就像是培養(yǎng)一個專家需要經(jīng)歷學(xué)習(xí)基礎(chǔ)知識、專業(yè)訓(xùn)練和實踐應(yīng)用三個階段。第一階段是基礎(chǔ)預(yù)訓(xùn)練，讓模型學(xué)會基本的視覺和語言理解能力。第二階段是高分辨率適應(yīng)，讓模型學(xué)會處理更精細(xì)的圖片。第三階段是任務(wù)特化訓(xùn)練，針對具體應(yīng)用場景進(jìn)行精調(diào)。

這種多階段的訓(xùn)練方式確保了模型既有扎實的基礎(chǔ)能力，又能在特定任務(wù)上發(fā)揮出色的表現(xiàn)。就像是先讓學(xué)生掌握基本的讀寫能力，然后學(xué)習(xí)專業(yè)知識，最后在實際工作中積累經(jīng)驗，逐步成長為真正的專家。

二、訓(xùn)練策略：像培養(yǎng)全能專家一樣訓(xùn)練模型

PaliGemma 2的訓(xùn)練過程就像是培養(yǎng)一個全能型專家的完整教育方案。整個訓(xùn)練分為三個遞進(jìn)的階段，每個階段都有明確的目標(biāo)和專門設(shè)計的學(xué)習(xí)內(nèi)容，確保模型能夠逐步掌握從基礎(chǔ)到高級的各種視覺理解技能。

第一階段可以比作是"通識教育"階段。在這個階段，研究團(tuán)隊將預(yù)訓(xùn)練好的SigLIP視覺編碼器和Gemma 2語言模型組合在一起，就像是讓一個有著敏銳觀察力的學(xué)生與一個博學(xué)的導(dǎo)師結(jié)成學(xué)習(xí)搭檔。訓(xùn)練數(shù)據(jù)包含了10億個精心挑選的多模態(tài)樣本，涵蓋了圖片描述、視覺問答、文字識別、目標(biāo)檢測和實例分割等各種基礎(chǔ)任務(wù)。這就像是給學(xué)生提供了一個包含各種類型題目的超大習(xí)題集，讓他們在反復(fù)練習(xí)中掌握基本技能。

在這個階段，所有的圖片都被調(diào)整為224像素的標(biāo)準(zhǔn)尺寸，就像是統(tǒng)一使用標(biāo)準(zhǔn)教材進(jìn)行學(xué)習(xí)。更重要的是，整個模型的所有參數(shù)都參與訓(xùn)練，沒有任何部分被凍結(jié)，這意味著視覺理解和語言理解兩個部分能夠相互配合，共同學(xué)習(xí)如何更好地處理視覺語言任務(wù)。這種聯(lián)合訓(xùn)練的方式就像是讓學(xué)生的眼、腦、手同時協(xié)調(diào)發(fā)展，而不是各自為政。

第二階段是"專業(yè)化提升"階段，專門針對需要高精度視覺處理的任務(wù)進(jìn)行強(qiáng)化訓(xùn)練。這個階段又分為兩個子階段：首先用5000萬個樣本在448像素分辨率下訓(xùn)練，然后用1000萬個樣本在896像素分辨率下訓(xùn)練。這就像是先讓學(xué)生適應(yīng)中等難度的精密作業(yè)，再逐步挑戰(zhàn)最高難度的超精密任務(wù)。

在高分辨率訓(xùn)練階段，研究團(tuán)隊特別調(diào)整了任務(wù)配比，增加了OCR（光學(xué)字符識別）等需要精確視覺處理的任務(wù)權(quán)重，同時延長了輸出序列的長度。這種做法就像是在專業(yè)課階段，根據(jù)不同專業(yè)的需求調(diào)整課程設(shè)置，讓學(xué)生在自己的專業(yè)領(lǐng)域得到更深入的訓(xùn)練。

第三階段是"實戰(zhàn)應(yīng)用"階段，這是整個訓(xùn)練過程的關(guān)鍵環(huán)節(jié)。在這個階段，研究團(tuán)隊會根據(jù)具體的應(yīng)用場景，從前面訓(xùn)練好的通用模型出發(fā)，進(jìn)行針對性的微調(diào)。這就像是讓已經(jīng)完成基礎(chǔ)教育的學(xué)生進(jìn)入不同的工作崗位，在實際工作中學(xué)習(xí)和掌握具體的職業(yè)技能。

值得特別提到的是，研究團(tuán)隊在訓(xùn)練過程中應(yīng)用了一種叫做"logits軟截斷"的技術(shù)。這個技術(shù)就像是給模型的思考過程加了一個"理性約束器"，防止模型在處理復(fù)雜問題時產(chǎn)生過于極端或不穩(wěn)定的判斷。不過，在第三階段的任務(wù)特化訓(xùn)練中，研究團(tuán)隊發(fā)現(xiàn)取消這個約束能夠獲得更好的效果，這說明在具體應(yīng)用中，有時候需要給模型更多的"思考自由度"。

整個訓(xùn)練過程使用了Google Cloud的TPUv5e集群，就像是在超級計算中心里進(jìn)行大規(guī)模的"集體學(xué)習(xí)"。不同規(guī)模的模型需要不同的計算資源：3B模型的訓(xùn)練相對較快，大約需要3天時間；而更大的模型則需要更多的計算資源和時間。研究團(tuán)隊還發(fā)現(xiàn)，提高圖片分辨率所需要的額外計算成本，竟然與增加語言模型規(guī)模的成本相當(dāng)，這為后續(xù)的模型優(yōu)化提供了重要的參考依據(jù)。

在學(xué)習(xí)率的設(shè)置上，研究團(tuán)隊發(fā)現(xiàn)了一個有趣的規(guī)律：更大的模型需要更低的學(xué)習(xí)率才能達(dá)到最佳效果。這就像是經(jīng)驗豐富的專家在學(xué)習(xí)新知識時需要更謹(jǐn)慎、更細(xì)致的方法，而初學(xué)者則可以采用更激進(jìn)的學(xué)習(xí)策略。具體來說，PaliGemma 2 3B使用的學(xué)習(xí)率是原始學(xué)習(xí)率的一半，而10B和28B模型則使用四分之一的學(xué)習(xí)率。

三、全面性能提升：新一代模型的能力展現(xiàn)

PaliGemma 2在各種視覺理解任務(wù)上的表現(xiàn)提升，就像是一個學(xué)生經(jīng)過系統(tǒng)訓(xùn)練后在各門考試中都取得了顯著進(jìn)步。研究團(tuán)隊在30多個不同的學(xué)術(shù)基準(zhǔn)測試上評估了新模型的能力，這些測試涵蓋了從基礎(chǔ)的圖片描述到復(fù)雜的視覺推理等各個方面。

首先讓我們看看模型規(guī)模和圖片分辨率對性能的影響。研究團(tuán)隊發(fā)現(xiàn)了一個很有意思的現(xiàn)象：不同類型的任務(wù)從不同的改進(jìn)中獲益最大。對于那些需要識別圖片中細(xì)小文字或復(fù)雜圖表的任務(wù)，提高圖片分辨率的效果往往比使用更大的模型更明顯。這就像是在看書時，如果字印得很小，戴上更強(qiáng)的老花鏡比找一個更聰明的人幫忙讀效果更好。

相反，對于那些需要復(fù)雜推理或涉及多語言理解的任務(wù)，使用更大的語言模型往往能帶來更顯著的提升。這些任務(wù)包括需要外部知識的視覺問答、多語言圖片理解，以及需要邏輯推理的復(fù)合問題。這就像是解決復(fù)雜數(shù)學(xué)題時，一個更有經(jīng)驗的老師比一個更好的計算器更有用。

在與原版PaliGemma的對比中，PaliGemma 2在相同模型規(guī)模和分辨率下普遍取得了更好的表現(xiàn)。在224像素分辨率下，平均性能提升了0.65個百分點；在448像素分辨率下，提升幅度達(dá)到了0.85個百分點。雖然這些數(shù)字看起來不大，但在人工智能領(lǐng)域，這樣的提升是相當(dāng)顯著的，就像是奧運(yùn)會上百米賽跑成績提升0.1秒一樣珍貴。

特別值得關(guān)注的是，研究團(tuán)隊發(fā)現(xiàn)了模型規(guī)模對最佳學(xué)習(xí)率的影響。通過大量的實驗，他們發(fā)現(xiàn)較大的模型在進(jìn)行任務(wù)特化訓(xùn)練時，需要使用更低的學(xué)習(xí)率才能達(dá)到最佳效果。這個發(fā)現(xiàn)就像是發(fā)現(xiàn)了一個駕駛規(guī)律：越是高性能的跑車，在彎道上就越需要更謹(jǐn)慎的操控，而不能像開普通汽車那樣大大咧咧。

從錯誤減少的角度來看，PaliGemma 2的提升更加顯著。對于一些已經(jīng)達(dá)到較高準(zhǔn)確率的基準(zhǔn)測試，即使相對提升看起來不大，但實際的錯誤減少率卻非常可觀。比如在ScienceQA任務(wù)上，雖然相對提升只有2.2個百分點，但錯誤減少率達(dá)到了53.8%，這意味著模型在科學(xué)問題理解方面有了質(zhì)的飛躍。

在處理不同類型視覺內(nèi)容時，PaliGemma 2也展現(xiàn)出了很好的適應(yīng)性。無論是自然場景圖片、文檔圖像、圖表數(shù)據(jù)還是屏幕截圖，模型都能夠準(zhǔn)確理解內(nèi)容并給出合適的回答。這種多樣化的處理能力就像是培養(yǎng)了一個既能欣賞藝術(shù)品、又能閱讀技術(shù)文檔、還能分析商業(yè)報表的全才。

值得一提的是，雖然從3B到10B的性能提升比較明顯，但從10B到28B的提升相對較小，有時甚至沒有改善。這個現(xiàn)象提醒我們，在實際應(yīng)用中需要在模型性能和計算成本之間找到平衡點。對于大多數(shù)應(yīng)用場景來說，10B版本可能是性價比最高的選擇，除非對性能有極致要求且不考慮計算成本。

四、文字檢測與識別：讓機(jī)器擁有讀書識字的能力

PaliGemma 2在文字檢測和識別方面的能力提升，就像是給機(jī)器配備了一副超級眼鏡，不僅能看到圖片中的文字在哪里，還能準(zhǔn)確讀出這些文字的內(nèi)容。這項能力對于處理現(xiàn)實世界中的各種文檔、標(biāo)牌、海報等包含文字信息的圖像具有重要意義。

傳統(tǒng)的文字識別系統(tǒng)通常需要專門的架構(gòu)設(shè)計，就像是為特定任務(wù)定制的專用工具。但PaliGemma 2作為一個通用的視覺語言模型，僅僅通過調(diào)整訓(xùn)練數(shù)據(jù)和參數(shù)，就能在文字檢測識別任務(wù)上達(dá)到甚至超越專業(yè)系統(tǒng)的表現(xiàn)。這就像是一個多才多藝的學(xué)生，不需要專門的文字識別訓(xùn)練，僅憑通用的視覺理解能力就能準(zhǔn)確讀出圖片中的文字。

研究團(tuán)隊選擇了業(yè)界最具挑戰(zhàn)性的兩個數(shù)據(jù)集來測試模型能力：ICDAR'15 Incidental和Total-Text。這兩個數(shù)據(jù)集包含了各種復(fù)雜場景下的文字圖像，比如彎曲的文字、模糊的拍照、復(fù)雜背景下的標(biāo)牌等。這就像是讓學(xué)生在各種困難條件下進(jìn)行閱讀測試：有時是在昏暗燈光下讀書，有時是讀彎曲變形的文字，有時是在嘈雜背景中識別重要信息。

在文字檢測識別的評估中，系統(tǒng)需要同時完成兩項任務(wù)：首先要準(zhǔn)確找出文字在圖片中的位置（檢測），然后要正確識別出這些文字的具體內(nèi)容（識別）。評估標(biāo)準(zhǔn)非常嚴(yán)格：只有當(dāng)識別出的文字內(nèi)容完全正確，且定位邊框與真實位置的重疊度超過50%時，才算作一次成功的識別。這就像是考試時不僅要寫對答案，還要寫在正確的位置上。

測試結(jié)果令人印象深刻。PaliGemma 2 3B在896像素分辨率下的表現(xiàn)超越了當(dāng)前最先進(jìn)的專業(yè)文字識別系統(tǒng)HTS。在ICDAR'15數(shù)據(jù)集上，PaliGemma 2達(dá)到了75.9%的F1分?jǐn)?shù)，而專業(yè)系統(tǒng)HTS只有74.5%；在Total-Text數(shù)據(jù)集上，PaliGemma 2獲得了74.2%的分?jǐn)?shù)，與HTS的72.4%相比有明顯提升。

這個結(jié)果特別令人興奮，因為PaliGemma 2并不是專門為文字識別任務(wù)設(shè)計的。它就像是一個通才學(xué)生在參加專業(yè)考試時擊敗了專業(yè)選手，證明了通用智能方法的巨大潛力。更重要的是，PaliGemma 2的這種能力來自于它在預(yù)訓(xùn)練階段學(xué)習(xí)的大量OCR相關(guān)任務(wù)，這些經(jīng)驗積累讓它在面對新的文字識別挑戰(zhàn)時能夠游刃有余。

研究團(tuán)隊還發(fā)現(xiàn)，圖像分辨率對文字識別任務(wù)的影響非常顯著。當(dāng)他們嘗試使用較低分辨率的圖像時，模型的識別能力大幅下降，這說明文字識別確實需要足夠的圖像細(xì)節(jié)支持。相比之下，增加模型規(guī)模（從3B增加到更大版本）對文字識別任務(wù)的幫助并不明顯，這進(jìn)一步驗證了前面提到的規(guī)律：對于需要視覺細(xì)節(jié)的任務(wù)，提高圖像清晰度比增加模型復(fù)雜度更有效。

這項成果的實際應(yīng)用價值巨大。在日常生活中，我們經(jīng)常需要從照片中提取文字信息，比如拍照翻譯、文檔數(shù)字化、路牌識別等。PaliGemma 2的文字識別能力意味著，一個通用的視覺理解系統(tǒng)就能處理這些原本需要專門軟件才能完成的任務(wù)，大大簡化了技術(shù)棧和應(yīng)用部署的復(fù)雜度。

五、表格結(jié)構(gòu)識別：讓機(jī)器理解復(fù)雜數(shù)據(jù)的組織方式

表格結(jié)構(gòu)識別是一項極具挑戰(zhàn)性的任務(wù)，就像是讓機(jī)器學(xué)會理解人類如何用行和列來組織復(fù)雜信息。想象你面前放著一份復(fù)雜的財務(wù)報表或科學(xué)數(shù)據(jù)表，你不僅要能識別出其中的數(shù)字和文字，還要理解這些信息是如何通過表格的結(jié)構(gòu)來表達(dá)含義的。這正是PaliGemma 2在表格結(jié)構(gòu)識別任務(wù)上要解決的核心問題。

在這個任務(wù)中，模型需要完成三項復(fù)雜的工作：首先識別表格中每個單元格的文字內(nèi)容，然后確定每個單元格在圖像中的精確位置，最后理解整個表格的結(jié)構(gòu)并用HTML格式表示出來。這就像是既要當(dāng)翻譯員讀出表格內(nèi)容，又要當(dāng)測量員標(biāo)記位置，還要當(dāng)建筑師繪制結(jié)構(gòu)圖。

研究團(tuán)隊選擇了兩個代表性的數(shù)據(jù)集來測試模型能力：PubTabNet和FinTabNet。PubTabNet包含了51.6萬張來自PubMed Central開放獲取數(shù)據(jù)庫的學(xué)術(shù)論文表格圖像，主要是科學(xué)研究中的各種數(shù)據(jù)表；FinTabNet則包含了11.3萬張來自標(biāo)準(zhǔn)普爾500強(qiáng)公司年報的財務(wù)表格，代表了商業(yè)世界中復(fù)雜的財務(wù)數(shù)據(jù)組織方式。這兩個數(shù)據(jù)集就像是讓學(xué)生同時掌握科學(xué)研究和商業(yè)分析兩個領(lǐng)域的表格理解能力。

為了確保訓(xùn)練數(shù)據(jù)的質(zhì)量，研究團(tuán)隊進(jìn)行了仔細(xì)的數(shù)據(jù)清理工作。他們移除了那些明顯有問題的樣本，比如邊界框超出圖像范圍的錯誤標(biāo)注，還應(yīng)用了專門的改進(jìn)方法來修正FinTabNet數(shù)據(jù)集中的一些標(biāo)注問題。這種細(xì)致的數(shù)據(jù)預(yù)處理工作就像是在教學(xué)前先確保教材沒有錯誤，為后續(xù)的學(xué)習(xí)效果打下良好基礎(chǔ)。

在圖像預(yù)處理方面，研究團(tuán)隊采用了巧妙的策略：將表格圖像裁剪后填充為正方形，然后調(diào)整到目標(biāo)分辨率。這種做法既保持了表格的原始比例關(guān)系，又確保了輸入格式的一致性。表格中每個單元格的位置信息使用特殊的位置標(biāo)記來編碼，這些標(biāo)記就像是給表格畫上了精確的坐標(biāo)系，讓模型能夠準(zhǔn)確理解每個信息單元的空間關(guān)系。

評估表格結(jié)構(gòu)識別效果使用了兩套專業(yè)的指標(biāo)體系：TEDS（樹編輯距離相似度）和GriTS（網(wǎng)格表格相似度）。這些指標(biāo)不僅考慮單元格文字內(nèi)容的準(zhǔn)確性，還評估表格結(jié)構(gòu)的正確性和位置標(biāo)注的精確度。就像是從多個角度對學(xué)生的表格理解能力進(jìn)行全面考核。

測試結(jié)果顯示，PaliGemma 2在大多數(shù)評估指標(biāo)上都創(chuàng)造了新的最佳紀(jì)錄。在FinTabNet數(shù)據(jù)集上，模型在結(jié)構(gòu)化TEDS指標(biāo)上達(dá)到了99.2%，在完整TEDS指標(biāo)上達(dá)到了98.9%，在GriTS相關(guān)指標(biāo)上也分別達(dá)到了99.4%和99.2%。在PubTabNet數(shù)據(jù)集上，雖然在某些指標(biāo)上略低于之前的最佳結(jié)果，但整體表現(xiàn)仍然非常出色，TEDS指標(biāo)達(dá)到了97.3%。

這些成績的取得更加難能可貴的是，PaliGemma 2同樣不是專門為表格識別任務(wù)設(shè)計的專用模型。它通過通用的視覺語言理解能力，就能在這個高度專業(yè)化的任務(wù)上達(dá)到最先進(jìn)的性能水平。這就像是一個全科醫(yī)生在專科考試中擊敗了?？漆t(yī)生，展現(xiàn)了通用智能方法的強(qiáng)大潛力。

研究團(tuán)隊還嘗試了進(jìn)一步增大模型規(guī)模，但發(fā)現(xiàn)這并沒有帶來額外的性能提升，同時使用更低的圖像分辨率則會導(dǎo)致輕微的性能下降。這個發(fā)現(xiàn)再次驗證了任務(wù)特性對優(yōu)化策略選擇的重要影響：對于表格結(jié)構(gòu)識別這類需要精確視覺處理的任務(wù)，圖像質(zhì)量是關(guān)鍵因素，而模型規(guī)模的收益相對有限。

六、分子結(jié)構(gòu)識別：讓機(jī)器讀懂化學(xué)世界的密碼

分子結(jié)構(gòu)識別可能是PaliGemma 2展現(xiàn)能力的最令人驚嘆的領(lǐng)域之一。想象一下，你需要教會一個從未學(xué)過化學(xué)的人，僅僅通過觀看分子結(jié)構(gòu)圖就能準(zhǔn)確說出這個分子的化學(xué)式。這個任務(wù)的復(fù)雜程度就像是讓人通過觀看建筑設(shè)計圖就能準(zhǔn)確描述出建筑的詳細(xì)規(guī)格一樣困難。

在化學(xué)領(lǐng)域，SMILES（Simplified Molecular-Input Line-Entry System）是一種用文本字符串表示分子結(jié)構(gòu)的標(biāo)準(zhǔn)方法，就像是分子世界的"身份證號碼"。每個分子，無論多么復(fù)雜，都可以用一個獨特的SMILES字符串來精確表示。PaliGemma 2的任務(wù)就是看著分子結(jié)構(gòu)圖像，然后寫出對應(yīng)的SMILES字符串，這需要對化學(xué)鍵的類型、原子的連接方式、分子的三維結(jié)構(gòu)等信息有準(zhǔn)確的理解。

為了訓(xùn)練模型掌握這種能力，研究團(tuán)隊使用了來自PubChem數(shù)據(jù)庫的100萬個分子樣本。PubChem是世界上最大的化學(xué)信息數(shù)據(jù)庫之一，包含了數(shù)千萬種化合物的詳細(xì)信息。訓(xùn)練過程就像是讓學(xué)生反復(fù)練習(xí)看圖識分子，從簡單的小分子開始，逐步學(xué)習(xí)識別越來越復(fù)雜的化合物結(jié)構(gòu)。

在數(shù)據(jù)準(zhǔn)備階段，研究團(tuán)隊使用了Indigo化學(xué)工具包來渲染分子圖像，并且特意加入了多樣化的繪圖風(fēng)格和隨機(jī)擾動。這種做法就像是讓學(xué)生適應(yīng)不同老師的板書風(fēng)格和不同質(zhì)量的教材插圖，確保模型在面對各種實際情況下的分子圖像時都能保持良好的識別能力。

評估標(biāo)準(zhǔn)采用了最嚴(yán)格的完全匹配標(biāo)準(zhǔn)，只有當(dāng)生成的SMILES字符串與標(biāo)準(zhǔn)答案完全一致時才算正確。這就像是化學(xué)考試中不允許任何細(xì)微錯誤，因為哪怕是一個化學(xué)鍵的位置標(biāo)錯，都可能代表完全不同的化合物。這種嚴(yán)格的標(biāo)準(zhǔn)使得任務(wù)極具挑戰(zhàn)性，同時也確保了結(jié)果的可靠性。

測試使用了與MolScribe（當(dāng)前最先進(jìn)的分子結(jié)構(gòu)識別系統(tǒng)）相同的評估數(shù)據(jù)集，該數(shù)據(jù)集包含了5700個由ChemDraw軟件渲染的合成分子圖像。結(jié)果顯示，PaliGemma 2 10B在448像素分辨率下達(dá)到了94.8%的完全匹配準(zhǔn)確率，超越了專業(yè)系統(tǒng)MolScribe的93.8%。

這個結(jié)果特別令人興奮，因為MolScribe是專門為分子結(jié)構(gòu)識別任務(wù)開發(fā)的系統(tǒng)，而PaliGemma 2是一個通用的視覺語言模型。這就像是一個博學(xué)的通才在專業(yè)化學(xué)考試中擊敗了化學(xué)專業(yè)的學(xué)生，展現(xiàn)了通用人工智能方法在特定專業(yè)領(lǐng)域的應(yīng)用潛力。

研究團(tuán)隊發(fā)現(xiàn)，448像素的分辨率對于分子結(jié)構(gòu)識別任務(wù)來說已經(jīng)足夠，進(jìn)一步提高到896像素并沒有帶來額外的性能提升。這個發(fā)現(xiàn)說明分子結(jié)構(gòu)圖的復(fù)雜度相對適中，不需要極高的圖像分辨率就能捕捉到足夠的細(xì)節(jié)信息。

這項能力的應(yīng)用前景非常廣闊。在藥物研發(fā)領(lǐng)域，研究人員經(jīng)常需要從文獻(xiàn)中的分子結(jié)構(gòu)圖提取化合物信息；在化學(xué)教育中，這樣的系統(tǒng)可以幫助學(xué)生練習(xí)分子結(jié)構(gòu)識別；在專利分析中，可以自動提取和分析大量化學(xué)專利中的分子結(jié)構(gòu)信息。PaliGemma 2的成功表明，通用的視覺理解技術(shù)正在逐步具備處理高度專業(yè)化任務(wù)的能力。

七、音樂樂譜識別：讓機(jī)器學(xué)會讀譜

光學(xué)音樂識別（Optical Music Recognition）是一個極其精細(xì)和復(fù)雜的任務(wù)，就像是教會機(jī)器理解音樂家?guī)装倌陙碛糜谟涗浺魳返膹?fù)雜符號系統(tǒng)。想象你面前擺著一頁鋼琴樂譜，上面密密麻麻地布滿了各種符號：音符、休止符、升降號、連線、表情記號等等。對于音樂家來說，這些符號能夠精確地傳達(dá)音樂的節(jié)奏、音高、表情和結(jié)構(gòu)信息。而PaliGemma 2的任務(wù)就是像一個初學(xué)音樂的學(xué)生一樣，學(xué)會從這些視覺符號中"讀出"音樂。

研究團(tuán)隊選擇了**kern格式作為目標(biāo)輸出格式，這是數(shù)字音樂學(xué)領(lǐng)域的一種標(biāo)準(zhǔn)表示方法。**kern格式就像是音樂的"源代碼"，用文本字符串精確記錄每個音符的音高、時值、以及各種音樂表達(dá)標(biāo)記。這種格式不僅能夠表示基本的音符信息，還能編碼復(fù)雜的音樂結(jié)構(gòu)，如小節(jié)線、連音、裝飾音等。

訓(xùn)練數(shù)據(jù)來自GrandStaff數(shù)據(jù)集，這個數(shù)據(jù)集包含了53700張鋼琴譜圖像及其對應(yīng)的**kern編碼。每張圖像都是單行的鋼琴譜，包含了大譜表（高音譜表和低音譜表的組合），這是鋼琴音樂最常見的記譜方式。為了增強(qiáng)模型的魯棒性，研究團(tuán)隊在訓(xùn)練時使用了原始圖像和人工添加了各種視覺干擾的增強(qiáng)版圖像，這就像是讓學(xué)生適應(yīng)不同印刷質(zhì)量、不同光照條件下的樂譜。

評估過程使用了三個不同層次的錯誤率指標(biāo)，這些指標(biāo)就像是從不同精細(xì)度來檢查學(xué)生的讀譜準(zhǔn)確性。字符錯誤率（CER）關(guān)注的是最基本的字符級別準(zhǔn)確性，就像是檢查學(xué)生有沒有把音符認(rèn)錯；符號錯誤率（SER）評估的是音樂符號級別的準(zhǔn)確性，關(guān)注的是完整的音樂元素識別；行錯誤率（LER）則評估整行樂譜的理解準(zhǔn)確性，這是最嚴(yán)格的標(biāo)準(zhǔn)，要求整行音樂必須完全正確。

測試結(jié)果令人印象深刻。PaliGemma 2 3B在896像素分辨率下將當(dāng)前最先進(jìn)系統(tǒng)的錯誤率大幅降低了一半以上。具體來說，字符錯誤率從3.9%降低到1.6%，符號錯誤率從5.1%降低到2.3%，行錯誤率更是從13.1%降低到6.7%。這種程度的改進(jìn)就像是把一個偶爾會讀錯音符的學(xué)生培養(yǎng)成了幾乎不會犯錯的優(yōu)秀讀譜者。

特別值得注意的是，錯誤率隨著圖像分辨率的提高而顯著降低，這說明音樂符號的精確識別確實需要足夠的視覺細(xì)節(jié)支持。音樂記譜中的很多信息都蘊(yùn)含在細(xì)微的視覺差異中，比如音符的確切位置決定了音高，符頭的形狀決定了時值，各種小的裝飾記號則攜帶著重要的表達(dá)信息。

研究團(tuán)隊還發(fā)現(xiàn)，將模型規(guī)模從3B增加到10B并沒有帶來進(jìn)一步的性能提升，這再次驗證了前面觀察到的模式：對于主要依賴精確視覺處理的任務(wù)，圖像質(zhì)量比模型復(fù)雜度更重要。這個發(fā)現(xiàn)對于實際應(yīng)用具有重要意義，因為它表明在音樂識別應(yīng)用中，投資于更高質(zhì)量的圖像采集設(shè)備可能比使用更大的模型更有效。

這項技術(shù)的應(yīng)用前景非常廣闊。在音樂教育領(lǐng)域，它可以幫助自動化地將紙質(zhì)樂譜轉(zhuǎn)換為數(shù)字格式，便于存儲、檢索和分析。在音樂學(xué)研究中，研究者可以使用這樣的系統(tǒng)來快速數(shù)字化和分析大量的歷史音樂文獻(xiàn)。對于音樂創(chuàng)作軟件來說，這樣的識別能力可以讓用戶通過拍照的方式快速輸入樂譜，大大提高工作效率。

八、長篇精細(xì)描述：讓機(jī)器成為觀察入微的敘述者

生成長篇精細(xì)的圖像描述是測試視覺理解模型綜合能力的重要指標(biāo)，就像是考察一個學(xué)生能否不僅看懂圖片，還能像專業(yè)解說員一樣詳細(xì)生動地描述所看到的內(nèi)容。這項任務(wù)要求模型不僅要準(zhǔn)確識別圖像中的各種對象，還要理解它們之間的空間關(guān)系、描述顏色質(zhì)地等細(xì)節(jié)特征，甚至要具備一定的常識推理能力。

研究團(tuán)隊選擇了DOCCI（Descriptions of Connected and Contrasting Images）數(shù)據(jù)集來訓(xùn)練和評估這項能力。DOCCI數(shù)據(jù)集包含了15000張圖像，每張圖像都配有人工標(biāo)注的詳細(xì)英語描述，這些描述平均長度達(dá)到7.1個句子，包含639個字符和136個單詞。這些描述不僅涵蓋了基本的對象識別，還包括了復(fù)雜的空間關(guān)系描述、對象計數(shù)、文字內(nèi)容識別，以及需要背景知識的推理等高難度內(nèi)容。

訓(xùn)練過程分為兩個階段，就像是先讓學(xué)生掌握基本的描述技能，然后再通過實踐不斷完善。第一階段使用DOCCI的訓(xùn)練集進(jìn)行基礎(chǔ)訓(xùn)練，研究團(tuán)隊嘗試了多種超參數(shù)組合，并通過驗證集的困惑度（perplexity）來選擇最佳模型。困惑度就像是衡量模型"詞匯量豐富度"的指標(biāo)，困惑度越低表示模型在描述時用詞越準(zhǔn)確、表達(dá)越流暢。

評估過程采用了嚴(yán)格的人工評估方法，這是因為自動評估指標(biāo)往往無法準(zhǔn)確衡量描述的事實準(zhǔn)確性。研究團(tuán)隊招募了專業(yè)評估人員，讓他們逐句判斷生成的描述是否與圖像內(nèi)容一致。評估人員需要從四個選項中選擇：蘊(yùn)含（描述內(nèi)容完全正確）、中性（描述內(nèi)容無法確定）、矛盾（描述內(nèi)容明顯錯誤）、無法評估。每個句子都由五個不同的評估人員獨立評估，然后采用多數(shù)投票的方式確定最終結(jié)果。

這種人工評估方法就像是讓多個老師同時批改同一份作文，確保評估結(jié)果的客觀性和可靠性。評估人員之間的一致性達(dá)到了84%，這表明評估標(biāo)準(zhǔn)是相對明確和可靠的。研究團(tuán)隊特別關(guān)注"非蘊(yùn)含句子"的比例，也就是那些事實上不準(zhǔn)確或有爭議的描述句子，這個指標(biāo)直接反映了模型生成內(nèi)容的可信度。

測試結(jié)果顯示，PaliGemma 2的表現(xiàn)超越了許多知名的視覺語言模型。PaliGemma 2 3B（448像素版本）的非蘊(yùn)含句子比例為28.4%，而PaliGemma 2 10B更是降低到了20.3%。作為對比，一些在10-100倍更大高質(zhì)量數(shù)據(jù)集上訓(xùn)練的指令調(diào)優(yōu)模型，如MiniGPT-4的非蘊(yùn)含比例為52.3%，mPLUG-Owl2為48.4%。

這個結(jié)果特別有意義，因為那些對比模型都經(jīng)過了大規(guī)模的指令調(diào)優(yōu)訓(xùn)練，專門針對用戶友好的對話場景進(jìn)行了優(yōu)化，理論上在生成流暢描述方面應(yīng)該有優(yōu)勢。但PaliGemma 2憑借扎實的視覺理解基礎(chǔ)和準(zhǔn)確的事實描述能力，在生成可信度方面取得了更好的表現(xiàn)。

研究團(tuán)隊還觀察到，隨著模型規(guī)模和圖像分辨率的提升，生成描述的事實準(zhǔn)確性都有明顯改善。這說明更強(qiáng)的視覺理解能力和更豐富的語言知識都對提高描述質(zhì)量有積極作用。PaliGemma 2 10B不僅錯誤率更低，生成的描述也更加詳細(xì)和豐富，平均句子數(shù)量和字符數(shù)量都有所增加。

這項能力在實際應(yīng)用中有著廣泛的價值。在內(nèi)容創(chuàng)作領(lǐng)域，它可以幫助自動生成圖像的詳細(xì)描述，用于網(wǎng)站的可訪問性改進(jìn)或者搜索引擎優(yōu)化。在教育領(lǐng)域，它可以為視覺學(xué)習(xí)材料自動生成詳細(xì)的文字說明。在新聞媒體行業(yè)，它可以幫助記者快速生成圖片的詳細(xì)描述，提高工作效率。更重要的是，這樣的系統(tǒng)可以為視覺障礙人士提供更好的圖像內(nèi)容獲取體驗，讓他們能夠通過詳細(xì)的語音描述"看到"圖像內(nèi)容。

九、空間推理能力：讓機(jī)器理解位置關(guān)系的奧秘

空間推理是人類視覺智能的一個重要組成部分，也是測試機(jī)器視覺理解能力的重要指標(biāo)。想象你需要判斷"桌子上的蘋果在花瓶的左邊"這樣的陳述是否正確，這不僅需要識別出蘋果、花瓶和桌子這些物體，還要準(zhǔn)確理解它們之間的空間位置關(guān)系。對于人類來說這似乎毫不費(fèi)力，但對于機(jī)器來說卻是一個相當(dāng)復(fù)雜的推理任務(wù)。

研究團(tuán)隊選擇了視覺空間推理（VSR）基準(zhǔn)測試來評估PaliGemma 2的空間理解能力。VSR測試的設(shè)計初衷是克服傳統(tǒng)基準(zhǔn)測試的局限性，特別是那些依賴機(jī)器生成標(biāo)注、對復(fù)雜失敗模式（如否定句理解）不夠敏感的問題。VSR測試就像是專門設(shè)計的"空間智商測試"，要求模型對圖像中物體的空間關(guān)系做出準(zhǔn)確的判斷。

VSR測試的題目形式是判斷題，模型需要對關(guān)于圖像中物體空間關(guān)系的陳述給出"正確"或"錯誤"的判斷。為了適應(yīng)PaliGemma 2的文本生成特性，研究團(tuán)隊將其改編為問答形式，要求模型回答"True"（正確）或"False"（錯誤）。這種改編就像是把選擇題改成問答題，但本質(zhì)的推理要求沒有改變。

測試分為兩個版本：零樣本分割（zeroshot split）和隨機(jī)分割（random split）。零樣本分割更具挑戰(zhàn)性，因為測試中的物體類別在訓(xùn)練時沒有出現(xiàn)過，這要求模型具備良好的泛化能力。隨機(jī)分割則允許訓(xùn)練和測試中出現(xiàn)相同的物體類別，主要測試模型在熟悉場景下的空間推理能力。

結(jié)果顯示，PaliGemma 2的表現(xiàn)顯著超越了之前的模型。在零樣本分割上，PaliGemma 2 3B達(dá)到了74.8%的準(zhǔn)確率，而之前最好的零樣本模型InstructBLIP只有65.6%。更令人印象深刻的是，在隨機(jī)分割上，PaliGemma 2 3B達(dá)到了81.6%的準(zhǔn)確率，10B版本更是達(dá)到了86.8%，相比之下經(jīng)過專門訓(xùn)練的LXMERT模型只有61.2%。

這個結(jié)果特別有意義，因為它表明PaliGemma 2不僅在視覺識別方面表現(xiàn)出色，在需要推理能力的任務(wù)上也有很強(qiáng)的表現(xiàn)?？臻g推理涉及到對視覺信息的抽象理解和邏輯判斷，這是真正智能系統(tǒng)應(yīng)該具備的能力。

研究團(tuán)隊觀察到，模型規(guī)模對空間推理任務(wù)的影響非常顯著。從3B到10B的性能提升幅度遠(yuǎn)大于在單純視覺識別任務(wù)上的提升，這說明復(fù)雜推理任務(wù)確實受益于更強(qiáng)大的語言理解和推理能力。相比之下，提高圖像分辨率到448像素并沒有帶來進(jìn)一步的改善，這符合空間推理任務(wù)的特點：重要的是理解物體之間的相對位置關(guān)系，而不需要過于精細(xì)的視覺細(xì)節(jié)。

這種空間推理能力在實際應(yīng)用中具有重要價值。在機(jī)器人導(dǎo)航和操作任務(wù)中，準(zhǔn)確理解物體的空間關(guān)系是完成復(fù)雜任務(wù)的基礎(chǔ)。在智能家居系統(tǒng)中，理解"把遙控器放在沙發(fā)左邊的茶幾上"這樣的指令需要精確的空間推理能力。在地圖和導(dǎo)航應(yīng)用中，理解和描述位置關(guān)系也是核心功能之一。

VSR測試的成功還表明，PaliGemma 2具備了處理更復(fù)雜視覺推理任務(wù)的基礎(chǔ)能力。這為未來在更高級的視覺問答、場景理解、甚至是視覺常識推理等任務(wù)上的應(yīng)用奠定了良好基礎(chǔ)。

十、醫(yī)學(xué)影像分析：讓機(jī)器學(xué)會讀懂X光片

將PaliGemma 2應(yīng)用于醫(yī)學(xué)影像分析，特別是胸部X光片的報告生成，展現(xiàn)了通用視覺語言模型在專業(yè)醫(yī)學(xué)領(lǐng)域的應(yīng)用潛力。這個任務(wù)就像是訓(xùn)練一個人工智能"放射科醫(yī)生"，不僅要能看懂X光片上的各種影像特征，還要能像經(jīng)驗豐富的醫(yī)生一樣撰寫專業(yè)的診斷報告。

研究團(tuán)隊選擇了MIMIC-CXR數(shù)據(jù)集進(jìn)行實驗，這是一個大規(guī)模的胸部X光影像數(shù)據(jù)集，包含了來自波士頓貝斯以色列女執(zhí)事醫(yī)療中心的377000張X光圖像，涵蓋了228000個放射學(xué)檢查研究。每張圖像都配有專業(yè)放射科醫(yī)生撰寫的自由文本診斷報告，這些報告遵循標(biāo)準(zhǔn)的醫(yī)學(xué)報告格式，包括檢查指征（INDICATIONS）、影像所見（FINDINGS）和印象結(jié)論（IMPRESSIONS）三個部分。

醫(yī)學(xué)報告的格式就像是醫(yī)生思考過程的標(biāo)準(zhǔn)化表達(dá)：檢查指征解釋了為什么要進(jìn)行這次X光檢查，為放射科醫(yī)生提供臨床背景；影像所見詳細(xì)描述了在X光片上觀察到的各種征象；印象結(jié)論則是醫(yī)生對影像所見的專業(yè)解讀和診斷建議。PaliGemma 2的任務(wù)是在給定檢查指征的情況下，自動生成影像所見和印象結(jié)論部分。

為了提高訓(xùn)練數(shù)據(jù)的質(zhì)量，研究團(tuán)隊使用了Gemini 1.5 Pro大語言模型來清理報告文本，主要是刪除那些提到"既往X光片"的內(nèi)容，因為模型無法訪問歷史影像資料。這種數(shù)據(jù)清理工作就像是為學(xué)生準(zhǔn)備教材時，去除那些需要額外背景知識才能理解的內(nèi)容，確保學(xué)習(xí)過程的有效性。

訓(xùn)練策略模擬了實際的臨床工作流程。在實際醫(yī)療場景中，放射科醫(yī)生在閱讀X光片時會參考臨床醫(yī)生提供的檢查指征，這些背景信息幫助醫(yī)生更準(zhǔn)確地解讀影像。因此，PaliGemma 2在訓(xùn)練時使用完整的報告作為學(xué)習(xí)材料，但在預(yù)測時只提供檢查指征作為輸入提示，然后生成相應(yīng)的影像所見和印象結(jié)論。

評估使用了多個指標(biāo)來全面衡量生成報告的質(zhì)量。除了常見的文本生成指標(biāo)如CIDEr、BLEU-4和ROUGE-L外，研究團(tuán)隊還特別使用了RadGraph F1分?jǐn)?shù)，這是專門為醫(yī)學(xué)報告評估設(shè)計的指標(biāo)。RadGraph能夠從報告中提取醫(yī)學(xué)實體和它們之間的關(guān)系，然后計算生成報告與參考報告在醫(yī)學(xué)概念層面的匹配度。這種評估方法更關(guān)注報告的醫(yī)學(xué)準(zhǔn)確性，而不僅僅是文字表達(dá)的相似性。

測試結(jié)果令人鼓舞。PaliGemma 2 3B在896像素分辨率下的RadGraph F1分?jǐn)?shù)達(dá)到了28.8%，10B版本更是達(dá)到了29.5%，這個成績超越了之前的最先進(jìn)系統(tǒng)。作為對比，專門為醫(yī)學(xué)影像報告生成設(shè)計的Flamingo-CXR模型的F1分?jǐn)?shù)為20.5%，而最近的Med-Gemini-2D模型為24.4%。

這個結(jié)果特別令人興奮，因為PaliGemma 2并不是專門為醫(yī)學(xué)應(yīng)用設(shè)計的模型，它通過通用的視覺語言理解能力就能在這個高度專業(yè)化的醫(yī)學(xué)任務(wù)上取得最佳表現(xiàn)。這就像是一個通科醫(yī)生在放射科專業(yè)考試中取得了優(yōu)異成績，展現(xiàn)了通用人工智能方法在專業(yè)領(lǐng)域的巨大潛力。

研究團(tuán)隊還觀察到，提高圖像分辨率和增加模型規(guī)模都對性能有積極影響，但效果相對溫和。這說明醫(yī)學(xué)影像分析既需要足夠的視覺細(xì)節(jié)捕捉能力，也需要強(qiáng)大的醫(yī)學(xué)知識理解和推理能力。在實際應(yīng)用中，可能需要在性能要求和計算成本之間找到合適的平衡點。

這項技術(shù)的應(yīng)用前景非常廣闊。在醫(yī)療資源緊張的地區(qū)，這樣的系統(tǒng)可以作為放射科醫(yī)生的輔助工具，幫助進(jìn)行初步篩查和報告草稿生成。在醫(yī)學(xué)教育中，它可以幫助學(xué)生學(xué)習(xí)如何撰寫標(biāo)準(zhǔn)的放射學(xué)報告。在大規(guī)模醫(yī)學(xué)研究中，它可以自動化地處理大量的影像數(shù)據(jù)，提高研究效率。當(dāng)然，在實際醫(yī)療應(yīng)用中，這樣的系統(tǒng)應(yīng)該作為醫(yī)生的輔助工具，而不是替代專業(yè)醫(yī)生的診斷。

十一、設(shè)備部署優(yōu)化：讓強(qiáng)大的模型走進(jìn)日常生活

在某些應(yīng)用場景中，我們希望能在普通的個人電腦或移動設(shè)備上運(yùn)行PaliGemma 2，而不依賴于強(qiáng)大的專用計算硬件。這就像是把原本需要在專業(yè)實驗室才能使用的精密儀器，改造成可以在家庭或辦公室使用的便攜版本。為了實現(xiàn)這個目標(biāo)，研究團(tuán)隊探索了CPU推理和量化技術(shù)，讓模型在保持良好性能的同時大幅減少計算資源需求。

研究團(tuán)隊選擇了gemma.cpp框架來實現(xiàn)CPU推理。這個框架就像是專門為在普通計算機(jī)上運(yùn)行大型AI模型而設(shè)計的"輕量化引擎"，它是用C++編寫的輕量級、便攜式推理引擎，支持8位混合浮點量化等多種優(yōu)化技術(shù)。相比于原始的32位浮點數(shù)表示，8位量化就像是用更簡潔的方式來存儲和計算數(shù)字，雖然精度略有損失，但大大減少了內(nèi)存占用和計算量。

為了測試CPU推理的實際性能，研究團(tuán)隊在四種不同的處理器架構(gòu)上進(jìn)行了推理速度測試。測試使用了PaliGemma 2 3B（224像素版本）在COCOcap任務(wù)上微調(diào)后的模型，輸入是一張示例圖像和"描述這張圖像"的提示文本。輸入包含了256個圖像標(biāo)記加4個文字標(biāo)記，總共260個標(biāo)記，而輸出是"一座有兩座塔樓的大建筑在水邊"，包含11個標(biāo)記。

測試結(jié)果展現(xiàn)了不同硬件平臺的性能差異。Apple M1 Max處理器在預(yù)填充階段（處理輸入）用時8.2秒，在生成階段每秒能產(chǎn)生12個標(biāo)記；Apple M3 Pro的預(yù)填充更快，只需4.4秒，生成速度達(dá)到每秒22個標(biāo)記；AMD的服務(wù)器級處理器表現(xiàn)更好，Genoa架構(gòu)在使用32個線程時預(yù)填充只需0.8秒，生成速度達(dá)到每秒41個標(biāo)記。

這些數(shù)字可能看起來有些抽象，但換個角度理解就很清楚了：在最好的硬件配置下，系統(tǒng)能在不到1秒的時間內(nèi)理解一張圖像和問題，然后以接近人類閱讀速度的速度生成回答。這樣的性能已經(jīng)足以支持很多實際應(yīng)用場景，比如輔助閱讀、內(nèi)容描述、簡單的視覺問答等。

更重要的是質(zhì)量評估。研究團(tuán)隊比較了原始32位浮點數(shù)版本和量化后版本在五個不同任務(wù)上的性能表現(xiàn)。結(jié)果顯示，量化幾乎沒有造成性能損失：在所有測試任務(wù)上，量化版本的相對性能都保持在99.9%到100.2%之間。這意味著用戶可以享受到顯著減少的存儲和計算需求（從12.1GB減少到4.0GB），而幾乎不用擔(dān)心性能下降。

這種"幾乎無損"的壓縮效果就像是找到了一種神奇的打包方法，能把行李箱的體積縮小到原來的三分之一，重量也大幅減輕，但里面的東西一件不少，質(zhì)量也沒有任何損傷。這對于實際部署具有重要意義，因為它讓普通用戶能夠在自己的設(shè)備上運(yùn)行原本需要專業(yè)硬件才能支持的強(qiáng)大AI模型。

CPU推理和模型量化的成功為PaliGemma 2的普及應(yīng)用奠定了基礎(chǔ)。這意味著開發(fā)者可以將這樣的視覺理解能力集成到移動應(yīng)用、桌面軟件、甚至是嵌入式設(shè)備中，而不需要依賴云服務(wù)或?qū)Ｓ玫腁I加速硬件。對于隱私敏感的應(yīng)用場景，本地推理還提供了額外的數(shù)據(jù)安全保障。

這項技術(shù)進(jìn)步的意義就像是把原本只有大型醫(yī)院才能提供的高端醫(yī)療設(shè)備小型化，讓社區(qū)診所也能提供類似的服務(wù)。它降低了使用門檻，擴(kuò)大了應(yīng)用范圍，讓更多的開發(fā)者和用戶能夠受益于先進(jìn)的視覺理解技術(shù)。

說到底，PaliGemma 2代表了人工智能視覺理解領(lǐng)域的一次重要進(jìn)展。這個模型家族就像是培養(yǎng)了一批既有敏銳觀察力又有豐富知識儲備的多面手專家，他們不僅能夠處理傳統(tǒng)的圖像理解任務(wù)，還能夠在文字識別、表格分析、分子結(jié)構(gòu)識別、音樂樂譜識別等高度專業(yè)化的領(lǐng)域發(fā)揮作用。

更重要的是，研究團(tuán)隊通過開放權(quán)重的方式分享了這些模型，就像是把一套昂貴的專業(yè)工具免費(fèi)提供給了整個社區(qū)。這種開放的做法不僅推動了學(xué)術(shù)研究的發(fā)展，也為實際應(yīng)用的創(chuàng)新提供了強(qiáng)大的基礎(chǔ)工具。

從技術(shù)角度來看，PaliGemma 2的成功驗證了通用視覺語言模型的巨大潛力。與其為每個專業(yè)任務(wù)開發(fā)專門的系統(tǒng)，不如訓(xùn)練一個足夠強(qiáng)大和靈活的通用模型，然后通過微調(diào)來適應(yīng)不同的應(yīng)用場景。這種方法不僅提高了開發(fā)效率，也降低了維護(hù)成本。

研究團(tuán)隊在模型規(guī)模、圖像分辨率和任務(wù)性能之間發(fā)現(xiàn)的規(guī)律也為未來的模型優(yōu)化提供了重要指導(dǎo)。對于需要精細(xì)視覺處理的任務(wù)，投資于更高的圖像質(zhì)量比增加模型復(fù)雜度更有效；而對于需要復(fù)雜推理的任務(wù)，更大的語言模型則能帶來顯著的性能提升。這種針對性的優(yōu)化策略有助于在有限的計算資源下獲得最佳的性能表現(xiàn)。

CPU推理和模型量化技術(shù)的成功則為AI技術(shù)的民主化做出了貢獻(xiàn)。它讓原本需要專業(yè)硬件才能運(yùn)行的先進(jìn)模型，能夠在普通的個人設(shè)備上順暢運(yùn)行，大大降低了使用門檻。這種技術(shù)進(jìn)步就像是讓高端技術(shù)走出象牙塔，真正服務(wù)于普通用戶的日常需求。

展望未來，PaliGemma 2的成功為視覺語言模型的發(fā)展指明了方向。隨著訓(xùn)練數(shù)據(jù)的不斷豐富、訓(xùn)練方法的持續(xù)優(yōu)化，以及計算硬件的不斷進(jìn)步，我們有理由期待更加強(qiáng)大和實用的視覺理解系統(tǒng)的出現(xiàn)。這些系統(tǒng)不僅會在更多專業(yè)領(lǐng)域發(fā)揮作用，還會以更加便捷和經(jīng)濟(jì)的方式服務(wù)于我們的日常生活。

這項由Google DeepMind團(tuán)隊完成的研究，為整個人工智能社區(qū)貢獻(xiàn)了寶貴的技術(shù)成果和實踐經(jīng)驗。有興趣深入了解技術(shù)細(xì)節(jié)的讀者可以通過arXiv:2412.03555v1查詢完整論文。這項工作不僅推動了學(xué)術(shù)研究的邊界，也為實際應(yīng)用開辟了新的可能性，是人工智能技術(shù)發(fā)展過程中值得關(guān)注的重要里程碑。

Q&A

Q1：PaliGemma 2相比原版PaliGemma有什么主要改進(jìn)？

A：PaliGemma 2的主要改進(jìn)包括：用更先進(jìn)的Gemma 2語言模型替換了原來的語言核心，提供3B、10B、28B三個不同規(guī)模版本；支持224px、448px、896px三種圖像分辨率；新增了文字檢測識別、表格結(jié)構(gòu)分析、分子結(jié)構(gòu)識別、音樂樂譜識別等多項新能力；在30多個基準(zhǔn)測試上都有性能提升，平均提升0.65-0.85個百分點。

Q2：PaliGemma 2在哪些專業(yè)領(lǐng)域表現(xiàn)突出？

A：PaliGemma 2在多個專業(yè)領(lǐng)域都達(dá)到了最先進(jìn)水平：文字識別方面超越了專業(yè)系統(tǒng)HTS；表格結(jié)構(gòu)識別在多項指標(biāo)上創(chuàng)造新紀(jì)錄；分子結(jié)構(gòu)識別準(zhǔn)確率達(dá)到94.8%，超越專業(yè)系統(tǒng)MolScribe；音樂樂譜識別將錯誤率降低一半以上；醫(yī)學(xué)影像報告生成的RadGraph F1分?jǐn)?shù)達(dá)到29.5%，超越所有對比模型。這些成果證明了通用模型在專業(yè)任務(wù)上的巨大潛力。

Q3：普通用戶如何使用PaliGemma 2？

A：PaliGemma 2以開放權(quán)重形式發(fā)布，開發(fā)者可以免費(fèi)使用。研究團(tuán)隊還提供了CPU推理版本，經(jīng)過量化優(yōu)化后，模型大小從12.1GB減少到4.0GB，可以在普通電腦上運(yùn)行，性能幾乎無損失。用戶可以通過gemma.cpp框架在個人設(shè)備上部署，也可以集成到移動應(yīng)用或桌面軟件中，無需依賴云服務(wù)或?qū)Ｓ糜布?/p>

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.