北大與騰訊聯(lián)合研究破解AI創(chuàng)作難題：讓機器既能理解又能生成

2026-02-26 20:23:03　來源: 至頂AI實驗室

北京舉報

分享至

這項由北京大學通用人工智能國家重點實驗室與騰訊公司聯(lián)合開展的研究發(fā)表于2026年的國際學習表征會議（ICLR 2026），研究編號為arXiv:2602.15772v1。有興趣深入了解的讀者可以通過該編號查詢完整論文。

在人工智能的世界里，有一個讓科學家們頭疼不已的問題，就像是讓一個人既要當畫家又要當評論家一樣困難。當我們訓練AI模型畫出美麗圖片時，它往往就忘記了如何理解和分析圖片；而當我們教它理解和分析時，它的繪畫能力又會大打折扣。這就好比你專心練習鋼琴時，唱歌技能就會退步，反之亦然。

這種現(xiàn)象在AI界被稱為"優(yōu)化困境"。研究團隊發(fā)現(xiàn)，問題的根源在于傳統(tǒng)的訓練方法把理解和生成當作兩個完全獨立的任務(wù)來處理，就像兩個人在爭奪同一塊蛋糕，你多吃一口，我就少一口。

為了解決這個難題，研究團隊提出了一個巧妙的解決方案，他們稱之為"推理-反思-優(yōu)化"框架，簡稱R3框架。這個框架的核心思想是讓AI像一個真正的藝術(shù)家一樣工作：先構(gòu)思（推理），再檢查作品是否符合要求（反思），最后根據(jù)檢查結(jié)果進行修改（優(yōu)化）。

一、傳統(tǒng)方法的局限：為什么AI不能既懂畫又會看

傳統(tǒng)的AI訓練方式就像是在培養(yǎng)專業(yè)運動員。當我們想讓AI學會畫畫時，就專門訓練它的繪畫技能；想讓它學會看圖識物時，就專門訓練它的理解能力。這種方法看起來很合理，但問題是AI的"大腦容量"是有限的，就像一個人的精力有限一樣。

研究團隊通過大量實驗發(fā)現(xiàn)了一個令人驚訝的現(xiàn)象：當他們用生成任務(wù)訓練模型BAGEL時，模型的理解能力從79.3分降到了47.5分；而當他們專門訓練理解能力時，生成能力又會大幅下降。這就像蹺蹺板效應(yīng)，一邊上升，另一邊必然下降。

更有趣的是，即使研究團隊嘗試同時訓練兩種能力，效果也微乎其微。這說明傳統(tǒng)方法存在根本性的缺陷：它把理解和生成看作是兩個互相競爭的任務(wù)，而不是相互協(xié)作的伙伴。

這個發(fā)現(xiàn)讓研究團隊意識到，問題不在于訓練數(shù)據(jù)或模型結(jié)構(gòu)，而在于訓練思路本身。他們開始思考：能否讓理解和生成不再互相競爭，而是相互促進呢？

二、靈感來源：畫家的創(chuàng)作過程給出答案

研究團隊從一個意想不到的地方找到了靈感：觀察真正的畫家是如何創(chuàng)作的。一個優(yōu)秀的畫家在創(chuàng)作時，絕不是一蹴而就的。他們會先仔細觀察和思考要畫什么（推理階段），然后開始作畫，畫完后會退后幾步審視自己的作品（反思階段），發(fā)現(xiàn)不足后再進行修改（優(yōu)化階段）。這個過程可能會重復(fù)多次，直到滿意為止。

這個觀察給了研究團隊重要啟示：真正的創(chuàng)作過程本身就包含了理解能力。畫家需要理解自己想要表達什么，理解當前作品的優(yōu)缺點，理解如何改進。理解和創(chuàng)作并不是兩個獨立的能力，而是創(chuàng)作過程中不可分割的部分。

基于這個洞察，研究團隊設(shè)計了R3框架，讓AI也能像畫家一樣工作。這個框架把原本簡單的"輸入指令-輸出圖片"過程，改造成了"理解指令-構(gòu)思創(chuàng)作-檢查作品-改進作品"的多步驟過程。

關(guān)鍵在于，這個過程中的每一步都需要理解能力。AI需要理解用戶的指令，理解自己生成的圖片是否符合要求，理解如何改進。這樣一來，理解能力就不再是生成能力的競爭對手，而是生成過程中必不可少的工具。

三、R3框架的三個核心階段

R3框架的工作過程可以比作一個專業(yè)攝影師的工作流程。當客戶提出拍攝需求時，攝影師不會立即按下快門，而是會經(jīng)歷三個階段。

第一個階段是推理階段，就像攝影師接到拍攝任務(wù)后的構(gòu)思過程。當用戶說"我想要一張四只貓的照片"時，AI不會立即開始生成圖片，而是會像經(jīng)驗豐富的攝影師一樣先進行思考："用戶想要的是什么樣的場景？四只貓應(yīng)該怎么擺放？用什么光線和背景比較合適？"這個思考過程會產(chǎn)生一個詳細的創(chuàng)作計劃，然后AI根據(jù)這個計劃生成第一版圖片。

第二個階段是反思階段，就像攝影師拍完照片后查看相機屏幕檢查效果。AI會像批評家一樣審視自己剛剛生成的圖片："這張圖片真的有四只貓嗎？它們的位置合理嗎？整體效果符合用戶要求嗎？"如果AI認為圖片已經(jīng)完美，就會輸出"無需進一步編輯"；如果發(fā)現(xiàn)問題，就會詳細描述需要改進的地方。

第三個階段是優(yōu)化階段，相當于攝影師根據(jù)檢查結(jié)果進行后期處理或重新拍攝。AI會根據(jù)反思階段的分析，對圖片進行具體的修改。比如如果發(fā)現(xiàn)只有三只貓，就會添加第四只；如果發(fā)現(xiàn)貓的顏色不對，就會調(diào)整顏色。

這三個階段會循環(huán)進行，直到AI認為圖片完全符合要求為止。整個過程完全由AI自主控制，它自己決定何時停止優(yōu)化。

四、訓練方法的創(chuàng)新：樹狀強化學習策略

要讓AI學會這套復(fù)雜的工作流程，研究團隊面臨著一個新的挑戰(zhàn)：如何訓練這樣一個多階段的系統(tǒng)？傳統(tǒng)的訓練方法就像教學生做一道長長的數(shù)學題，如果只在最后告訴學生答案對錯，學生很難知道是哪一步出了問題。

研究團隊創(chuàng)新性地提出了"樹狀強化學習策略"。這個方法就像是把一個復(fù)雜的項目分解成多個小任務(wù)，每個小任務(wù)都有明確的評估標準。

在這個系統(tǒng)中，推理階段有自己的評分標準：生成的計劃是否詳細？最終的圖片質(zhì)量如何？文本格式是否正確？反思和優(yōu)化階段也有各自的評分標準：是否準確識別了問題？改進是否有效？是否正確判斷了何時停止？

更巧妙的是，研究團隊還設(shè)計了一個"重要性采樣"策略。就像一個老師會特別關(guān)注學生容易出錯的題型一樣，這個策略會讓AI多練習那些容易失敗的案例，從而更快地學會處理困難情況。

為了避免訓練過程中的不穩(wěn)定性，研究團隊還采用了混合采樣策略，在訓練的不同階段使用不同的采樣方法，就像運動員在訓練時會根據(jù)不同訓練目標調(diào)整訓練強度一樣。

五、實驗結(jié)果：理解與生成能力的雙重提升

研究團隊在多個權(quán)威測試平臺上驗證了R3框架的效果，結(jié)果令人驚喜。在GenEval++測試中，這是一個專門用來測試AI繪畫能力的標準化測試，原始的BAGEL模型總分只有37.1分，而使用R3框架后，分數(shù)躍升至68.9分，提升了近32個百分點。

更令人興奮的是理解能力的變化。傳統(tǒng)觀念認為，提升生成能力必然會損害理解能力，但R3框架打破了這個鐵律。在圖文對齊測試中，模型的理解能力從60.60分提升到73.37分，增長了12.77個百分點。在視覺問答測試中，準確率從86.48%提升到89.63%。

這些數(shù)字背后的意義比表面看起來更加重要。研究團隊發(fā)現(xiàn)，提升最顯著的領(lǐng)域恰恰是那些與生成任務(wù)相關(guān)的理解能力。比如，在計數(shù)任務(wù)中（數(shù)圖片中有幾個物體），準確率從79.30%提升到84.63%。這說明通過生成訓練，AI不僅學會了畫出正確數(shù)量的物體，還學會了更準確地數(shù)數(shù)。

研究團隊還測試了不同迭代次數(shù)的效果。有趣的是，大部分情況下，AI在經(jīng)過一到兩輪反思-優(yōu)化后就能達到滿意的效果。45%的任務(wù)在第一輪就完成了，只有15%的任務(wù)需要三輪以上的優(yōu)化。這說明R3框架不僅效果好，效率也很高。

六、深入分析：為什么R3框架如此有效

R3框架成功的秘密在于它重新定義了理解和生成的關(guān)系。傳統(tǒng)方法把它們看作兩個獨立的技能，而R3框架讓理解成為生成過程中的必需品。

就像一個專業(yè)廚師在做菜時，需要不斷品嘗調(diào)味，味覺（理解）和烹飪（生成）是相互促進的。廚師通過品嘗來指導下一步的調(diào)味，而調(diào)味的過程也在鍛煉味覺的敏感度。R3框架就是讓AI具備了這種"邊做邊嘗"的能力。

研究團隊通過詳細的訓練過程分析發(fā)現(xiàn)了一個有趣現(xiàn)象：在訓練的前150步中，R3框架和傳統(tǒng)方法的效果差不多；但從150步開始，R3框架的理解能力開始顯著提升，隨后帶動生成能力的進一步改善。這說明AI需要一定時間來學會如何整合反思能力到生成過程中。

更深層的原因是，R3框架改變了AI的學習目標。傳統(tǒng)方法的目標很簡單：給定輸入，產(chǎn)生正確輸出。而R3框架的目標更加復(fù)雜：不僅要產(chǎn)生正確輸出，還要能評估輸出質(zhì)量，能識別問題，能制定改進方案，能決定何時停止。這些額外的要求迫使AI發(fā)展出更強的理解能力。

七、局限性與挑戰(zhàn)：現(xiàn)實世界的復(fù)雜性

盡管R3框架取得了顯著成功，研究團隊也誠實地指出了當前方法的局限性。最主要的限制是，目前的理解能力提升主要集中在與訓練任務(wù)直接相關(guān)的領(lǐng)域。

比如，如果AI主要在"數(shù)物體"的任務(wù)上訓練，它在計數(shù)方面的理解能力會顯著提升，但在其他方面的理解能力改善有限。這就像一個專門練習投籃的籃球運動員，投籃技術(shù)會大幅提升，但運球或防守技能的改善可能很有限。

另一個挑戰(zhàn)是計算成本。由于R3框架需要多輪迭代，每輪都要生成圖片和文本，計算時間比傳統(tǒng)方法長。研究團隊測試發(fā)現(xiàn)，推理階段需要20-25秒，每輪反思-優(yōu)化需要25-35秒。雖然AI能夠智能地決定何時停止（45%的任務(wù)一輪就完成），但對于需要多輪優(yōu)化的任務(wù)，時間成本確實更高。

此外，R3框架對文本生成的要求也更高。AI不僅要會畫圖，還要能用文字準確描述問題和改進方案。這對模型的語言能力提出了更高要求。

八、擴展應(yīng)用：從圖像生成到迷宮導航

為了驗證R3框架的通用性，研究團隊還將其應(yīng)用到了一個完全不同的任務(wù)：迷宮導航。這個實驗就像是測試一個演員能否從演戲跨界到唱歌一樣。

在迷宮導航任務(wù)中，AI需要找到從入口到出口的路徑。傳統(tǒng)方法會嘗試一次性規(guī)劃出完整路徑，但復(fù)雜迷宮中這樣做往往會失敗。R3框架則讓AI采用了更像人類的策略：先選擇一個方向走幾步（推理），然后檢查當前位置和周圍環(huán)境（反思），再決定下一步怎么走（優(yōu)化）。

實驗結(jié)果顯示，R3框架在12×10的迷宮中表現(xiàn)出色，能夠有效處理死胡同和復(fù)雜路徑。當遇到死路時，AI會自動回頭尋找其他路線；當?shù)竭_終點時，會自動停止搜索。這個成功的跨領(lǐng)域應(yīng)用證明了R3框架的基本原理具有廣泛適用性。

這個擴展實驗的意義在于，它暗示R3框架可能適用于許多需要"試錯-調(diào)整"過程的復(fù)雜任務(wù)。未來可能在機器人控制、游戲策略、甚至科學實驗設(shè)計等領(lǐng)域都有應(yīng)用潛力。

九、未來展望：通用人工智能的新路徑

R3框架的成功為人工智能的發(fā)展提供了一個新的思路。長期以來，研究者們一直在爭論是否應(yīng)該開發(fā)專門化的AI（每種任務(wù)用不同的模型）還是通用化的AI（一個模型處理多種任務(wù)）。R3框架提供了第三種可能：讓AI像人類專家一樣，把理解能力融入到執(zhí)行過程中。

這種方法的哲學含義很深刻。它表明真正的智能可能不是簡單的輸入-輸出映射，而是一個包含自我監(jiān)督、自我改進的循環(huán)過程。就像人類在解決復(fù)雜問題時，會不斷地思考、嘗試、反思、改進一樣。

從技術(shù)角度看，R3框架也開啟了新的研究方向。如何讓AI的自我評估更準確？如何在更多領(lǐng)域?qū)崿F(xiàn)理解和生成的協(xié)同？如何減少多輪迭代的計算成本？這些問題都值得進一步探索。

更重要的是，R3框架證明了一個重要觀點：在AI發(fā)展中，我們不應(yīng)該把不同能力看作互相競爭的資源，而應(yīng)該尋找讓它們相互促進的方法。這種思維方式的轉(zhuǎn)變，可能會影響整個AI研究領(lǐng)域的方向。

說到底，這項研究最大的價值可能不在于具體的技術(shù)細節(jié)，而在于它展示了一種新的思考方式：真正的智能是各種能力的有機整合，而不是各種技能的簡單疊加。對于關(guān)心AI發(fā)展的普通人來說，這意味著未來的AI助手可能會更像一個真正的合作伙伴，能夠理解、思考、創(chuàng)造，并且在這個過程中不斷完善自己。這樣的AI不僅能幫我們完成任務(wù)，還能在完成任務(wù)的過程中變得更聰明，這可能是我們向真正的通用人工智能邁出的重要一步。

Q&A

Q1：R3框架是什么？

A：R3框架是"推理-反思-優(yōu)化"框架的簡稱，它讓AI像畫家創(chuàng)作一樣工作：先構(gòu)思計劃（推理），再檢查作品質(zhì)量（反思），最后根據(jù)檢查結(jié)果進行修改（優(yōu)化）。這個過程會循環(huán)進行直到AI滿意為止，讓理解和生成能力相互促進而不是相互競爭。

Q2：為什么傳統(tǒng)AI訓練方法會讓理解和生成能力相互沖突？

A：傳統(tǒng)方法把理解和生成當作兩個獨立任務(wù)訓練，就像兩個人爭奪同一塊蛋糕。由于AI的"大腦容量"有限，專門訓練生成能力時理解能力會下降，反之亦然。研究發(fā)現(xiàn)這種蹺蹺板效應(yīng)是根本性問題，需要改變訓練思路。

Q3：R3框架的實際效果如何？

A：在標準測試中，使用R3框架后，AI的生成能力從37.1分提升到68.9分，理解能力也從60.60分提升到73.37分，打破了傳統(tǒng)觀念中兩種能力必然沖突的鐵律。45%的任務(wù)在一輪優(yōu)化后就能完成，說明方法既有效又高效。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.