Google與約翰霍普金斯大學(xué)聯(lián)手打造AI"審計官"

2025-12-22 21:42:58　來源: 科技行者

北京舉報

分享至

這項(xiàng)研究由Google和約翰霍普金斯大學(xué)的研究團(tuán)隊共同完成，第一作者劉啟豪在Google實(shí)習(xí)期間主導(dǎo)了這項(xiàng)工作，其他核心成員包括Google的毛承志、劉耀杰、朱文勝，以及約翰霍普金斯大學(xué)的Alan Yuille教授。這項(xiàng)突破性研究發(fā)表在2025年12月的計算機(jī)視覺頂級會議上，論文編號為arXiv:2512.16921v1，為多模態(tài)大語言模型的評估和改進(jìn)開辟了全新路徑。

在人工智能飛速發(fā)展的今天，各種AI模型層出不窮，每個都聲稱自己比前輩更強(qiáng)大。然而現(xiàn)實(shí)中，我們該如何真正了解這些AI的優(yōu)缺點(diǎn)呢？傳統(tǒng)的評估方法就像是讓學(xué)生參加標(biāo)準(zhǔn)化考試，雖然能得到一個分?jǐn)?shù)，但很難告訴我們學(xué)生具體哪里薄弱，更別說如何針對性地改進(jìn)了。研究團(tuán)隊面臨的正是這樣一個挑戰(zhàn)：如何為AI模型建立一個真正有效的"體檢系統(tǒng)"。

現(xiàn)有的AI評估就像是醫(yī)生只看體溫和血壓就給病人下診斷一樣粗糙。雖然我們能知道某個AI在圖像識別測試中得了85分，另一個得了90分，但這并不能告訴我們第一個AI具體在什么地方表現(xiàn)不佳，也不知道如何幫它改進(jìn)。更令人困擾的是，有時候一個看起來更大更強(qiáng)的AI模型在某些特定情況下反而不如小模型表現(xiàn)好，這就像是讓奧運(yùn)冠軍和業(yè)余選手比賽，結(jié)果冠軍在某些項(xiàng)目上居然敗北了。

為了解決這個問題，研究團(tuán)隊開發(fā)了一套名為AuditDM的創(chuàng)新系統(tǒng)。這套系統(tǒng)的核心思路就像是培養(yǎng)一位專業(yè)的"AI審計師"，它的工作就是專門挖掘目標(biāo)AI的各種弱點(diǎn)和盲區(qū)。這個審計師不是簡單地給AI出幾道題目，而是會精心設(shè)計各種刁鉆的問題和圖片，專門找那些能讓目標(biāo)AI出錯的場景。

具體來說，這個審計系統(tǒng)的工作方式頗有些像一個經(jīng)驗(yàn)豐富的老師在給學(xué)生出考試題。這位老師不會隨機(jī)出題，而是會仔細(xì)觀察學(xué)生以往的錯誤模式，然后專門設(shè)計一些能暴露學(xué)生知識盲點(diǎn)的題目。同樣地，AuditDM會分析目標(biāo)AI模型的行為模式，然后生成專門的問題和圖片來測試這個AI的薄弱環(huán)節(jié)。

這個審計師的獨(dú)特之處在于它能夠從三個方面來"刁難"目標(biāo)AI。首先，它會針對原始圖片提出一些特別挑戰(zhàn)性的問題，這些問題往往涉及圖片中的細(xì)節(jié)或者需要復(fù)雜推理的內(nèi)容。其次，它會指導(dǎo)圖像生成模型創(chuàng)造一些經(jīng)過精心設(shè)計的新圖片，這些圖片看起來很正常，但包含了容易讓AI出錯的元素。最后，它還能對現(xiàn)有圖片進(jìn)行微妙的編輯，比如改變一些看似無關(guān)緊要的細(xì)節(jié)，然后觀察這些變化是否會讓AI給出完全不同的答案。

研究團(tuán)隊在訓(xùn)練這個審計師時采用了一種叫做強(qiáng)化學(xué)習(xí)的方法，這就像是訓(xùn)練一只專門找茬的狗。每當(dāng)審計師成功找到了能讓目標(biāo)AI出錯的例子時，就會得到獎勵，這樣它就會越來越善于發(fā)現(xiàn)AI的弱點(diǎn)。為了確保審計師找到的確實(shí)是真正的問題而不是無意義的錯誤，研究團(tuán)隊還設(shè)置了一個由多個AI組成的"評判團(tuán)"來驗(yàn)證每個發(fā)現(xiàn)的失敗案例是否合理。

當(dāng)研究團(tuán)隊把這套系統(tǒng)應(yīng)用到最新的AI模型上時，發(fā)現(xiàn)了許多令人意外的結(jié)果。比如說，他們測試了Google的PaliGemma2家族模型，發(fā)現(xiàn)了超過20種不同類型的失敗模式。更有趣的是，他們發(fā)現(xiàn)在某些特定任務(wù)上，較大的28B參數(shù)模型竟然表現(xiàn)得不如小巧的3B模型。

這些發(fā)現(xiàn)就像是醫(yī)生通過全面體檢發(fā)現(xiàn)了一些之前被忽視的健康問題。比如，研究發(fā)現(xiàn)大模型在避免幻覺、顏色識別和數(shù)數(shù)方面反而更容易出錯，而小模型在理解物體關(guān)系和情感識別方面存在明顯不足。這種發(fā)現(xiàn)對于AI開發(fā)者來說極其寶貴，因?yàn)樗屗麄冎缿?yīng)該在哪些方面重點(diǎn)改進(jìn)自己的模型。

更令人興奮的是，這個審計系統(tǒng)不僅能發(fā)現(xiàn)問題，還能幫助解決問題。一旦審計師找到了AI的弱點(diǎn)，研究團(tuán)隊就可以利用這些發(fā)現(xiàn)來生成大量針對性的訓(xùn)練數(shù)據(jù)。這就像是一個私人教練不僅告訴你哪里做得不好，還為你制定了專門的訓(xùn)練計劃。

實(shí)驗(yàn)結(jié)果證明了這種方法的有效性。當(dāng)研究團(tuán)隊用審計師發(fā)現(xiàn)的弱點(diǎn)數(shù)據(jù)來重新訓(xùn)練AI模型時，幾乎在所有測試中都看到了顯著的改進(jìn)。在某些情況下，經(jīng)過這種針對性訓(xùn)練的小模型甚至能超越原本更大的模型。這就像是一個經(jīng)過針對性訓(xùn)練的業(yè)余選手在特定項(xiàng)目上戰(zhàn)勝了職業(yè)選手。

這項(xiàng)研究的重要意義不僅在于提供了一種新的AI評估方法，更在于它為AI的持續(xù)改進(jìn)開辟了一條新路徑。在傳統(tǒng)的AI開發(fā)中，研究人員主要依靠增加數(shù)據(jù)量和模型規(guī)模來提升性能，但隨著數(shù)據(jù)資源越來越稀缺，這種粗放式的改進(jìn)方法正在遇到瓶頸。而AuditDM提供的精準(zhǔn)診斷和針對性改進(jìn)方法，就像是從"大水漫灌"轉(zhuǎn)向"精準(zhǔn)滴灌"的農(nóng)業(yè)革命。

從技術(shù)實(shí)現(xiàn)的角度來看，整個系統(tǒng)的核心在于如何讓審計師學(xué)會生成那些能夠最大化暴露目標(biāo)AI弱點(diǎn)的內(nèi)容。研究團(tuán)隊采用的方法是讓審計師不斷嘗試生成各種問題和圖片，然后觀察這些內(nèi)容是否能讓目標(biāo)AI與參考模型產(chǎn)生分歧。當(dāng)分歧越大時，審計師就獲得越多的獎勵，從而學(xué)會專門尋找那些容易引起爭議的"邊界案例"。

這種方法的巧妙之處在于它不需要人工標(biāo)注大量的訓(xùn)練數(shù)據(jù)。傳統(tǒng)的AI訓(xùn)練往往需要海量的人工標(biāo)注數(shù)據(jù)，這既昂貴又耗時。而AuditDM通過讓不同AI模型之間相互"對話"來自動發(fā)現(xiàn)問題，大大降低了對人工標(biāo)注的依賴。這就像是讓一群醫(yī)生互相討論病例，通過他們的分歧來發(fā)現(xiàn)診斷中的疑難問題。

在具體的實(shí)驗(yàn)中，研究團(tuán)隊發(fā)現(xiàn)了許多有趣的現(xiàn)象。例如，當(dāng)審計師對圖片進(jìn)行微妙的編輯后，比如將一個人的領(lǐng)帶換成圍巾，或者把滑雪板換成徒步靴，AI模型的回答就會發(fā)生意想不到的變化。這些發(fā)現(xiàn)揭示了AI模型在處理視覺信息時的脆弱性，它們往往會被一些與任務(wù)無關(guān)的細(xì)節(jié)所誤導(dǎo)。

更深層次的發(fā)現(xiàn)是，不同規(guī)模的AI模型似乎有著不同的"性格特點(diǎn)"。大模型雖然在很多任務(wù)上表現(xiàn)出色，但在某些特定情況下會表現(xiàn)出過度自信的傾向，容易產(chǎn)生幻覺或者過度解讀圖像中的信息。而小模型雖然整體能力有限，但在某些簡單任務(wù)上反而更加穩(wěn)定可靠。這種發(fā)現(xiàn)對于在實(shí)際應(yīng)用中選擇合適的AI模型具有重要的指導(dǎo)意義。

研究團(tuán)隊還發(fā)現(xiàn)，通過這種審計方法發(fā)現(xiàn)的問題具有很好的可解釋性。與傳統(tǒng)的黑箱測試不同，AuditDM能夠生成具體的失敗案例，每個案例都清楚地展示了AI在什么情況下會出錯，以及出錯的具體表現(xiàn)。這就像是給AI做了一次全面的"體檢報告"，不僅告訴你哪里有問題，還清楚地說明了問題的具體表現(xiàn)和嚴(yán)重程度。

從實(shí)際應(yīng)用的角度來看，這項(xiàng)技術(shù)對于AI系統(tǒng)的部署和維護(hù)具有重要價值。在實(shí)際應(yīng)用中，AI系統(tǒng)往往會遇到各種意想不到的情況，而傳統(tǒng)的測試方法很難提前發(fā)現(xiàn)所有潛在問題。而AuditDM提供的主動式問題發(fā)現(xiàn)機(jī)制，就像是為AI系統(tǒng)配備了一個專業(yè)的"壓力測試員"，能夠在部署前就發(fā)現(xiàn)和解決潛在的問題。

值得注意的是，這種審計方法還具有很好的通用性。研究團(tuán)隊在不同類型的AI模型上都驗(yàn)證了這種方法的有效性，包括PaliGemma2和Gemma3等多個主流模型家族。這表明AuditDM不是針對特定模型的定制化解決方案，而是一種可以廣泛應(yīng)用的通用方法。

當(dāng)然，這項(xiàng)技術(shù)也面臨一些挑戰(zhàn)和限制。首先是計算成本的問題，因?yàn)檎麄€審計過程需要大量的模型推理和圖像生成，在大規(guī)模應(yīng)用時可能會遇到資源瓶頸。其次是在某些特殊任務(wù)上，比如需要精確標(biāo)注的目標(biāo)檢測任務(wù)，自動生成的訓(xùn)練數(shù)據(jù)可能存在標(biāo)注不準(zhǔn)確的問題。

盡管存在這些挑戰(zhàn)，但AuditDM所代表的"AI審計AI"的思路無疑為人工智能的發(fā)展開辟了新的方向。隨著AI系統(tǒng)變得越來越復(fù)雜，傳統(tǒng)的人工測試和評估方法已經(jīng)難以跟上技術(shù)發(fā)展的步伐。而利用AI系統(tǒng)本身的能力來發(fā)現(xiàn)和改進(jìn)AI的不足，不僅提高了效率，還能發(fā)現(xiàn)人類可能忽視的細(xì)微問題。

這項(xiàng)研究的意義還體現(xiàn)在它為AI安全和可靠性研究提供了新的工具。在AI系統(tǒng)越來越多地應(yīng)用于關(guān)鍵領(lǐng)域的今天，如何確保這些系統(tǒng)的安全可靠變得至關(guān)重要。AuditDM提供的主動式風(fēng)險發(fā)現(xiàn)機(jī)制，就像是為AI系統(tǒng)裝上了"安全監(jiān)控器"，能夠持續(xù)監(jiān)測和改進(jìn)系統(tǒng)的可靠性。

展望未來，這種AI審計技術(shù)可能會成為AI開發(fā)流程中的標(biāo)準(zhǔn)環(huán)節(jié)，就像軟件開發(fā)中的單元測試和集成測試一樣不可缺少。每當(dāng)開發(fā)出新的AI模型時，都可能需要經(jīng)過這樣的審計過程，確保模型在各種情況下都能穩(wěn)定可靠地工作。

說到底，AuditDM的核心價值在于它改變了我們對AI評估的認(rèn)知。從被動的標(biāo)準(zhǔn)化測試轉(zhuǎn)向主動的弱點(diǎn)挖掘，從簡單的分?jǐn)?shù)比較轉(zhuǎn)向深入的行為分析，這種轉(zhuǎn)變不僅提高了AI評估的準(zhǔn)確性和實(shí)用性，更為AI的持續(xù)改進(jìn)提供了科學(xué)的方法論。在AI技術(shù)日新月異的今天，這樣的"AI醫(yī)生"無疑將成為推動技術(shù)進(jìn)步的重要力量。對于普通用戶來說，這意味著我們未來使用的AI產(chǎn)品將更加智能、更加可靠，也更加值得信任。

Q&A

Q1：AuditDM系統(tǒng)是什么，它是如何工作的？

A：AuditDM是Google和約翰霍普金斯大學(xué)開發(fā)的AI審計系統(tǒng)，專門用來發(fā)現(xiàn)其他AI模型的弱點(diǎn)。它就像一個專業(yè)的"AI審計師"，會精心設(shè)計各種挑戰(zhàn)性的問題和圖片來測試目標(biāo)AI，通過觀察AI在什么情況下會出錯來找出它的盲點(diǎn)和薄弱環(huán)節(jié)。

Q2：這個審計系統(tǒng)發(fā)現(xiàn)了哪些有趣的AI缺陷？

A：研究發(fā)現(xiàn)了很多意外的現(xiàn)象，比如大的AI模型在避免幻覺、顏色識別和數(shù)數(shù)方面反而比小模型更容易出錯。同時發(fā)現(xiàn)AI模型很容易被圖片中無關(guān)的細(xì)節(jié)誤導(dǎo)，比如僅僅把一個人的領(lǐng)帶換成圍巾就可能讓AI給出完全不同的答案。

Q3：這項(xiàng)技術(shù)對普通用戶有什么實(shí)際意義？

A：這項(xiàng)技術(shù)意味著未來的AI產(chǎn)品會更加可靠和智能。通過這種審計方法，AI開發(fā)者可以提前發(fā)現(xiàn)和修復(fù)各種潛在問題，讓AI在實(shí)際應(yīng)用中表現(xiàn)更穩(wěn)定。對用戶來說，這就像給AI裝上了"質(zhì)檢系統(tǒng)"，確保我們使用的AI產(chǎn)品更值得信任。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.