国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

北大與騰訊聯(lián)合研究破解AI創(chuàng)作難題:讓機器既能理解又能生成

0
分享至


這項由北京大學通用人工智能國家重點實驗室與騰訊公司聯(lián)合開展的研究發(fā)表于2026年的國際學習表征會議(ICLR 2026),研究編號為arXiv:2602.15772v1。有興趣深入了解的讀者可以通過該編號查詢完整論文。

在人工智能的世界里,有一個讓科學家們頭疼不已的問題,就像是讓一個人既要當畫家又要當評論家一樣困難。當我們訓練AI模型畫出美麗圖片時,它往往就忘記了如何理解和分析圖片;而當我們教它理解和分析時,它的繪畫能力又會大打折扣。這就好比你專心練習鋼琴時,唱歌技能就會退步,反之亦然。

這種現(xiàn)象在AI界被稱為"優(yōu)化困境"。研究團隊發(fā)現(xiàn),問題的根源在于傳統(tǒng)的訓練方法把理解和生成當作兩個完全獨立的任務(wù)來處理,就像兩個人在爭奪同一塊蛋糕,你多吃一口,我就少一口。

為了解決這個難題,研究團隊提出了一個巧妙的解決方案,他們稱之為"推理-反思-優(yōu)化"框架,簡稱R3框架。這個框架的核心思想是讓AI像一個真正的藝術(shù)家一樣工作:先構(gòu)思(推理),再檢查作品是否符合要求(反思),最后根據(jù)檢查結(jié)果進行修改(優(yōu)化)。

一、傳統(tǒng)方法的局限:為什么AI不能既懂畫又會看

傳統(tǒng)的AI訓練方式就像是在培養(yǎng)專業(yè)運動員。當我們想讓AI學會畫畫時,就專門訓練它的繪畫技能;想讓它學會看圖識物時,就專門訓練它的理解能力。這種方法看起來很合理,但問題是AI的"大腦容量"是有限的,就像一個人的精力有限一樣。

研究團隊通過大量實驗發(fā)現(xiàn)了一個令人驚訝的現(xiàn)象:當他們用生成任務(wù)訓練模型BAGEL時,模型的理解能力從79.3分降到了47.5分;而當他們專門訓練理解能力時,生成能力又會大幅下降。這就像蹺蹺板效應(yīng),一邊上升,另一邊必然下降。

更有趣的是,即使研究團隊嘗試同時訓練兩種能力,效果也微乎其微。這說明傳統(tǒng)方法存在根本性的缺陷:它把理解和生成看作是兩個互相競爭的任務(wù),而不是相互協(xié)作的伙伴。

這個發(fā)現(xiàn)讓研究團隊意識到,問題不在于訓練數(shù)據(jù)或模型結(jié)構(gòu),而在于訓練思路本身。他們開始思考:能否讓理解和生成不再互相競爭,而是相互促進呢?

二、靈感來源:畫家的創(chuàng)作過程給出答案

研究團隊從一個意想不到的地方找到了靈感:觀察真正的畫家是如何創(chuàng)作的。一個優(yōu)秀的畫家在創(chuàng)作時,絕不是一蹴而就的。他們會先仔細觀察和思考要畫什么(推理階段),然后開始作畫,畫完后會退后幾步審視自己的作品(反思階段),發(fā)現(xiàn)不足后再進行修改(優(yōu)化階段)。這個過程可能會重復(fù)多次,直到滿意為止。

這個觀察給了研究團隊重要啟示:真正的創(chuàng)作過程本身就包含了理解能力。畫家需要理解自己想要表達什么,理解當前作品的優(yōu)缺點,理解如何改進。理解和創(chuàng)作并不是兩個獨立的能力,而是創(chuàng)作過程中不可分割的部分。

基于這個洞察,研究團隊設(shè)計了R3框架,讓AI也能像畫家一樣工作。這個框架把原本簡單的"輸入指令-輸出圖片"過程,改造成了"理解指令-構(gòu)思創(chuàng)作-檢查作品-改進作品"的多步驟過程。

關(guān)鍵在于,這個過程中的每一步都需要理解能力。AI需要理解用戶的指令,理解自己生成的圖片是否符合要求,理解如何改進。這樣一來,理解能力就不再是生成能力的競爭對手,而是生成過程中必不可少的工具。

三、R3框架的三個核心階段

R3框架的工作過程可以比作一個專業(yè)攝影師的工作流程。當客戶提出拍攝需求時,攝影師不會立即按下快門,而是會經(jīng)歷三個階段。

第一個階段是推理階段,就像攝影師接到拍攝任務(wù)后的構(gòu)思過程。當用戶說"我想要一張四只貓的照片"時,AI不會立即開始生成圖片,而是會像經(jīng)驗豐富的攝影師一樣先進行思考:"用戶想要的是什么樣的場景?四只貓應(yīng)該怎么擺放?用什么光線和背景比較合適?"這個思考過程會產(chǎn)生一個詳細的創(chuàng)作計劃,然后AI根據(jù)這個計劃生成第一版圖片。

第二個階段是反思階段,就像攝影師拍完照片后查看相機屏幕檢查效果。AI會像批評家一樣審視自己剛剛生成的圖片:"這張圖片真的有四只貓嗎?它們的位置合理嗎?整體效果符合用戶要求嗎?"如果AI認為圖片已經(jīng)完美,就會輸出"無需進一步編輯";如果發(fā)現(xiàn)問題,就會詳細描述需要改進的地方。

第三個階段是優(yōu)化階段,相當于攝影師根據(jù)檢查結(jié)果進行后期處理或重新拍攝。AI會根據(jù)反思階段的分析,對圖片進行具體的修改。比如如果發(fā)現(xiàn)只有三只貓,就會添加第四只;如果發(fā)現(xiàn)貓的顏色不對,就會調(diào)整顏色。

這三個階段會循環(huán)進行,直到AI認為圖片完全符合要求為止。整個過程完全由AI自主控制,它自己決定何時停止優(yōu)化。

四、訓練方法的創(chuàng)新:樹狀強化學習策略

要讓AI學會這套復(fù)雜的工作流程,研究團隊面臨著一個新的挑戰(zhàn):如何訓練這樣一個多階段的系統(tǒng)?傳統(tǒng)的訓練方法就像教學生做一道長長的數(shù)學題,如果只在最后告訴學生答案對錯,學生很難知道是哪一步出了問題。

研究團隊創(chuàng)新性地提出了"樹狀強化學習策略"。這個方法就像是把一個復(fù)雜的項目分解成多個小任務(wù),每個小任務(wù)都有明確的評估標準。

在這個系統(tǒng)中,推理階段有自己的評分標準:生成的計劃是否詳細?最終的圖片質(zhì)量如何?文本格式是否正確?反思和優(yōu)化階段也有各自的評分標準:是否準確識別了問題?改進是否有效?是否正確判斷了何時停止?

更巧妙的是,研究團隊還設(shè)計了一個"重要性采樣"策略。就像一個老師會特別關(guān)注學生容易出錯的題型一樣,這個策略會讓AI多練習那些容易失敗的案例,從而更快地學會處理困難情況。

為了避免訓練過程中的不穩(wěn)定性,研究團隊還采用了混合采樣策略,在訓練的不同階段使用不同的采樣方法,就像運動員在訓練時會根據(jù)不同訓練目標調(diào)整訓練強度一樣。

五、實驗結(jié)果:理解與生成能力的雙重提升

研究團隊在多個權(quán)威測試平臺上驗證了R3框架的效果,結(jié)果令人驚喜。在GenEval++測試中,這是一個專門用來測試AI繪畫能力的標準化測試,原始的BAGEL模型總分只有37.1分,而使用R3框架后,分數(shù)躍升至68.9分,提升了近32個百分點。

更令人興奮的是理解能力的變化。傳統(tǒng)觀念認為,提升生成能力必然會損害理解能力,但R3框架打破了這個鐵律。在圖文對齊測試中,模型的理解能力從60.60分提升到73.37分,增長了12.77個百分點。在視覺問答測試中,準確率從86.48%提升到89.63%。

這些數(shù)字背后的意義比表面看起來更加重要。研究團隊發(fā)現(xiàn),提升最顯著的領(lǐng)域恰恰是那些與生成任務(wù)相關(guān)的理解能力。比如,在計數(shù)任務(wù)中(數(shù)圖片中有幾個物體),準確率從79.30%提升到84.63%。這說明通過生成訓練,AI不僅學會了畫出正確數(shù)量的物體,還學會了更準確地數(shù)數(shù)。

研究團隊還測試了不同迭代次數(shù)的效果。有趣的是,大部分情況下,AI在經(jīng)過一到兩輪反思-優(yōu)化后就能達到滿意的效果。45%的任務(wù)在第一輪就完成了,只有15%的任務(wù)需要三輪以上的優(yōu)化。這說明R3框架不僅效果好,效率也很高。

六、深入分析:為什么R3框架如此有效

R3框架成功的秘密在于它重新定義了理解和生成的關(guān)系。傳統(tǒng)方法把它們看作兩個獨立的技能,而R3框架讓理解成為生成過程中的必需品。

就像一個專業(yè)廚師在做菜時,需要不斷品嘗調(diào)味,味覺(理解)和烹飪(生成)是相互促進的。廚師通過品嘗來指導下一步的調(diào)味,而調(diào)味的過程也在鍛煉味覺的敏感度。R3框架就是讓AI具備了這種"邊做邊嘗"的能力。

研究團隊通過詳細的訓練過程分析發(fā)現(xiàn)了一個有趣現(xiàn)象:在訓練的前150步中,R3框架和傳統(tǒng)方法的效果差不多;但從150步開始,R3框架的理解能力開始顯著提升,隨后帶動生成能力的進一步改善。這說明AI需要一定時間來學會如何整合反思能力到生成過程中。

更深層的原因是,R3框架改變了AI的學習目標。傳統(tǒng)方法的目標很簡單:給定輸入,產(chǎn)生正確輸出。而R3框架的目標更加復(fù)雜:不僅要產(chǎn)生正確輸出,還要能評估輸出質(zhì)量,能識別問題,能制定改進方案,能決定何時停止。這些額外的要求迫使AI發(fā)展出更強的理解能力。

七、局限性與挑戰(zhàn):現(xiàn)實世界的復(fù)雜性

盡管R3框架取得了顯著成功,研究團隊也誠實地指出了當前方法的局限性。最主要的限制是,目前的理解能力提升主要集中在與訓練任務(wù)直接相關(guān)的領(lǐng)域。

比如,如果AI主要在"數(shù)物體"的任務(wù)上訓練,它在計數(shù)方面的理解能力會顯著提升,但在其他方面的理解能力改善有限。這就像一個專門練習投籃的籃球運動員,投籃技術(shù)會大幅提升,但運球或防守技能的改善可能很有限。

另一個挑戰(zhàn)是計算成本。由于R3框架需要多輪迭代,每輪都要生成圖片和文本,計算時間比傳統(tǒng)方法長。研究團隊測試發(fā)現(xiàn),推理階段需要20-25秒,每輪反思-優(yōu)化需要25-35秒。雖然AI能夠智能地決定何時停止(45%的任務(wù)一輪就完成),但對于需要多輪優(yōu)化的任務(wù),時間成本確實更高。

此外,R3框架對文本生成的要求也更高。AI不僅要會畫圖,還要能用文字準確描述問題和改進方案。這對模型的語言能力提出了更高要求。

八、擴展應(yīng)用:從圖像生成到迷宮導航

為了驗證R3框架的通用性,研究團隊還將其應(yīng)用到了一個完全不同的任務(wù):迷宮導航。這個實驗就像是測試一個演員能否從演戲跨界到唱歌一樣。

在迷宮導航任務(wù)中,AI需要找到從入口到出口的路徑。傳統(tǒng)方法會嘗試一次性規(guī)劃出完整路徑,但復(fù)雜迷宮中這樣做往往會失敗。R3框架則讓AI采用了更像人類的策略:先選擇一個方向走幾步(推理),然后檢查當前位置和周圍環(huán)境(反思),再決定下一步怎么走(優(yōu)化)。

實驗結(jié)果顯示,R3框架在12×10的迷宮中表現(xiàn)出色,能夠有效處理死胡同和復(fù)雜路徑。當遇到死路時,AI會自動回頭尋找其他路線;當?shù)竭_終點時,會自動停止搜索。這個成功的跨領(lǐng)域應(yīng)用證明了R3框架的基本原理具有廣泛適用性。

這個擴展實驗的意義在于,它暗示R3框架可能適用于許多需要"試錯-調(diào)整"過程的復(fù)雜任務(wù)。未來可能在機器人控制、游戲策略、甚至科學實驗設(shè)計等領(lǐng)域都有應(yīng)用潛力。

九、未來展望:通用人工智能的新路徑

R3框架的成功為人工智能的發(fā)展提供了一個新的思路。長期以來,研究者們一直在爭論是否應(yīng)該開發(fā)專門化的AI(每種任務(wù)用不同的模型)還是通用化的AI(一個模型處理多種任務(wù))。R3框架提供了第三種可能:讓AI像人類專家一樣,把理解能力融入到執(zhí)行過程中。

這種方法的哲學含義很深刻。它表明真正的智能可能不是簡單的輸入-輸出映射,而是一個包含自我監(jiān)督、自我改進的循環(huán)過程。就像人類在解決復(fù)雜問題時,會不斷地思考、嘗試、反思、改進一樣。

從技術(shù)角度看,R3框架也開啟了新的研究方向。如何讓AI的自我評估更準確?如何在更多領(lǐng)域?qū)崿F(xiàn)理解和生成的協(xié)同?如何減少多輪迭代的計算成本?這些問題都值得進一步探索。

更重要的是,R3框架證明了一個重要觀點:在AI發(fā)展中,我們不應(yīng)該把不同能力看作互相競爭的資源,而應(yīng)該尋找讓它們相互促進的方法。這種思維方式的轉(zhuǎn)變,可能會影響整個AI研究領(lǐng)域的方向。

說到底,這項研究最大的價值可能不在于具體的技術(shù)細節(jié),而在于它展示了一種新的思考方式:真正的智能是各種能力的有機整合,而不是各種技能的簡單疊加。對于關(guān)心AI發(fā)展的普通人來說,這意味著未來的AI助手可能會更像一個真正的合作伙伴,能夠理解、思考、創(chuàng)造,并且在這個過程中不斷完善自己。這樣的AI不僅能幫我們完成任務(wù),還能在完成任務(wù)的過程中變得更聰明,這可能是我們向真正的通用人工智能邁出的重要一步。

Q&A

Q1:R3框架是什么?

A:R3框架是"推理-反思-優(yōu)化"框架的簡稱,它讓AI像畫家創(chuàng)作一樣工作:先構(gòu)思計劃(推理),再檢查作品質(zhì)量(反思),最后根據(jù)檢查結(jié)果進行修改(優(yōu)化)。這個過程會循環(huán)進行直到AI滿意為止,讓理解和生成能力相互促進而不是相互競爭。

Q2:為什么傳統(tǒng)AI訓練方法會讓理解和生成能力相互沖突?

A:傳統(tǒng)方法把理解和生成當作兩個獨立任務(wù)訓練,就像兩個人爭奪同一塊蛋糕。由于AI的"大腦容量"有限,專門訓練生成能力時理解能力會下降,反之亦然。研究發(fā)現(xiàn)這種蹺蹺板效應(yīng)是根本性問題,需要改變訓練思路。

Q3:R3框架的實際效果如何?

A:在標準測試中,使用R3框架后,AI的生成能力從37.1分提升到68.9分,理解能力也從60.60分提升到73.37分,打破了傳統(tǒng)觀念中兩種能力必然沖突的鐵律。45%的任務(wù)在一輪優(yōu)化后就能完成,說明方法既有效又高效。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
開國上將去世后竟無一人吊唁,戰(zhàn)友得知后:“這是他應(yīng)得的!”

開國上將去世后竟無一人吊唁,戰(zhàn)友得知后:“這是他應(yīng)得的!”

近史談
2026-02-27 14:16:54
突發(fā)“黑天鵝”!直線暴跌,超15萬人爆倉

突發(fā)“黑天鵝”!直線暴跌,超15萬人爆倉

中國基金報
2026-02-28 16:11:19
廣西高速發(fā)生重大事故 導致道路長時間擁堵

廣西高速發(fā)生重大事故 導致道路長時間擁堵

七彩云南簡南俊
2026-02-28 15:48:17
高市早苗管的寬又作了,她管上日本王室繼承人,還訓下屬挨批評

高市早苗管的寬又作了,她管上日本王室繼承人,還訓下屬挨批評

縱擁千千晚星
2026-02-28 20:00:19
美荷兩國曾同時發(fā)聲,對中國獨立研發(fā)的光刻機技術(shù)給予了強烈批評

美荷兩國曾同時發(fā)聲,對中國獨立研發(fā)的光刻機技術(shù)給予了強烈批評

來科點譜
2026-02-27 07:32:59
32萬彩禮不讓碰后續(xù):彩禮已花完,女方全村社死,自曝另有隱情

32萬彩禮不讓碰后續(xù):彩禮已花完,女方全村社死,自曝另有隱情

離離言幾許
2026-02-28 18:06:09
還要什么歸化,這才是男籃2028奧運周期最強陣容

還要什么歸化,這才是男籃2028奧運周期最強陣容

男足的小球童
2026-02-28 18:17:21
50歲以后,別心疼錢,少吃花生,多吃8種“堿性食物”,氣色好

50歲以后,別心疼錢,少吃花生,多吃8種“堿性食物”,氣色好

美食店主
2026-02-12 00:08:26
WTT新加坡大滿貫女單1/4決賽:王曼昱4-2手撕日乒一姐張本美和

WTT新加坡大滿貫女單1/4決賽:王曼昱4-2手撕日乒一姐張本美和

生活新鮮市
2026-02-28 19:37:25
前線首次拍到烏克蘭幻影2000,“鐵錘”數(shù)量大漲!俄軍又炸水壩

前線首次拍到烏克蘭幻影2000,“鐵錘”數(shù)量大漲!俄軍又炸水壩

鷹眼Defence
2026-02-28 17:01:01
辟謠了,山東泰山隊沒有取消登泰山祈?;顒樱皇钦麄€活動瘦身了

辟謠了,山東泰山隊沒有取消登泰山祈?;顒樱皇钦麄€活動瘦身了

足球分析員
2026-02-28 11:00:03
恐怖準度!凱爾特人單場有效命中率創(chuàng)歷史紀錄

恐怖準度!凱爾特人單場有效命中率創(chuàng)歷史紀錄

北青網(wǎng)-北京青年報
2026-02-28 14:25:04
江蘇一男子野外意外發(fā)現(xiàn)“比薩斜樓”,進去后瞬間感到眩暈,直呼“根本站不穩(wěn)”,網(wǎng)友表示:可能是給消防員訓練使用的

江蘇一男子野外意外發(fā)現(xiàn)“比薩斜樓”,進去后瞬間感到眩暈,直呼“根本站不穩(wěn)”,網(wǎng)友表示:可能是給消防員訓練使用的

瀟湘晨報
2026-02-28 12:34:41
這一次,和羅康瑞一起露面的霍家兄弟,徹底撕下了父親的“體面”

這一次,和羅康瑞一起露面的霍家兄弟,徹底撕下了父親的“體面”

不似少年游
2026-02-05 09:31:14
葡體再造鋒霸!6690萬歐賣約克雷斯 2220萬歐簽西乙金靴 29球6助

葡體再造鋒霸!6690萬歐賣約克雷斯 2220萬歐簽西乙金靴 29球6助

智道足球
2026-02-28 17:16:28
李亞鵬突然提到十年前最難時給黃曉明發(fā)短信,不到一分鐘收到回復(fù)

李亞鵬突然提到十年前最難時給黃曉明發(fā)短信,不到一分鐘收到回復(fù)

百態(tài)人間
2026-02-10 15:25:10
2-0!英超爆大冷,墊底隊掀翻第3,曼聯(lián)獲良機:贏球即首次進前3

2-0!英超爆大冷,墊底隊掀翻第3,曼聯(lián)獲良機:贏球即首次進前3

我愛英超
2026-02-28 06:52:26
前程無憂報告:北上廣深杭平均月薪超1萬元,不同城市基層員工收入差距有限

前程無憂報告:北上廣深杭平均月薪超1萬元,不同城市基層員工收入差距有限

經(jīng)濟觀察報
2026-02-27 19:47:44
又一衛(wèi)健委主任被抓!

又一衛(wèi)健委主任被抓!

梅斯醫(yī)學
2026-02-28 07:53:41
春節(jié)前將牛肉飯忘在辦公室!節(jié)后牛肉飯長出15厘米高“黑色叢林”!

春節(jié)前將牛肉飯忘在辦公室!節(jié)后牛肉飯長出15厘米高“黑色叢林”!

天津人
2026-02-28 07:09:58
2026-02-28 20:59:00
至頂AI實驗室 incentive-icons
至頂AI實驗室
一個專注于探索生成式AI前沿技術(shù)及其應(yīng)用的實驗室。
1958文章數(shù) 162關(guān)注度
往期回顧 全部

科技要聞

狂攬1100億美元!OpenAI再創(chuàng)融資神話

頭條要聞

最高領(lǐng)袖辦公室附近遭襲 媒體:伊朗領(lǐng)導體系仍具韌性

頭條要聞

最高領(lǐng)袖辦公室附近遭襲 媒體:伊朗領(lǐng)導體系仍具韌性

體育要聞

球隊主力全報銷?頂風擺爛演都不演了

娛樂要聞

疑似王一博被爆私密聊天記錄

財經(jīng)要聞

沈明高提共富建議 百姓持科技股國家兜底

汽車要聞

嵐圖泰山黑武士版3月上市 搭載華為四激光智駕方案

態(tài)度原創(chuàng)

家居
房產(chǎn)
旅游
手機
時尚

家居要聞

素色肌理 品意式格調(diào)

房產(chǎn)要聞

濱江九小也來了!集齊海僑北+哈羅、寰島...江東教育要炸了!

旅游要聞

大理蒼山驚現(xiàn)“靈氣護罩”奇觀

手機要聞

久用淺才是真的淺 OPPO Find N6折痕控制新標桿

發(fā)現(xiàn)4種春季很襯膚色的辦法,照著穿

無障礙瀏覽 進入關(guān)懷版