網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

CL-Bench的故事沒(méi)有結(jié)束，生成式CL-Bench：GENIUS來(lái)了

2026-03-02 17:46:26　來(lái)源: 機(jī)器之心Pro

河北舉報(bào)

分享至

本論文由北京大學(xué)碩士生安睿川擔(dān)任第一作者，他由張文濤教授與鄂維南院士的共同指導(dǎo)。研究方向主要是統(tǒng)一生成理解模型、以數(shù)據(jù)為中心的 AI。擁有 NeurIPS、ICLR、ECCV 等 4 篇一作或共同一作論文發(fā)表，曾在微軟亞洲研究院實(shí)習(xí)。項(xiàng)目通訊作者由北京大學(xué)張文濤教授擔(dān)任。

在 AGI-Next 前沿峰會(huì)上，姚順雨曾拋出一個(gè)犀利的觀點(diǎn)：大模型邁向高價(jià)值應(yīng)用的核心瓶頸，其實(shí)在于能否「用好上下文（Context）」。OpenAI 的 Jiayi Weng 也在近期的訪談中表達(dá)了類似的洞察：上下文決定了模型與人類認(rèn)知的邊界。當(dāng)信息不對(duì)等被消除，普通人也能勝任頂尖工作——本質(zhì)上，是上下文的處理能力拉開了智力的差距。

正是在這種共識(shí)下，混元與復(fù)旦團(tuán)隊(duì)近日發(fā)布的CL-Bench顯得尤為重要。作為姚順雨加入騰訊后的首秀，CL-Bench 建立了一個(gè)標(biāo)桿：它嚴(yán)苛地審視了模型在長(zhǎng)程交互中「學(xué)習(xí)新知識(shí)」的能力。

但故事到這里就結(jié)束了嗎？

CL-Bench 精彩地解決了「輸入端」的理解難題（Contextual Learning），但在「輸出端」的生成環(huán)節(jié)，我們發(fā)現(xiàn)了另一塊更為棘手的拼圖：

如果上下文不僅是用來(lái)「學(xué)」的知識(shí)，而是對(duì)「創(chuàng)造」行為的復(fù)雜束縛，模型還能游刃有余嗎？

這正是我們提出GENIUSGenerative Fluidntelligence EvaluationSuite) 的初衷。

論文題目：GENIUS: Generative Fluid Intelligence Evaluation Suite
arXiv 論文：https://arxiv.org/abs/2602.11144
代碼倉(cāng)庫(kù)：https://github.com/arctanxarc/GENIUS
Unified Model 下半場(chǎng) Blog（內(nèi)含 Takeaway 和 Insight）：https://chawuciren11.github.io/GENIUS/

01 從「晶體」到「流體」：

生成式 AI 的范式躍遷

目前的生成式多模態(tài)大模型無(wú)疑是強(qiáng)大的。但這種強(qiáng)大，更多體現(xiàn)為一種晶體智力（Crystallized Intelligence）。

所謂晶體智力，是指運(yùn)用過(guò)去學(xué)習(xí)或經(jīng)驗(yàn)獲得知識(shí)的能力?，F(xiàn)在的模型通過(guò)海量數(shù)據(jù)擬合，習(xí)得了驚人的晶體智力，它們能生成一只完美的「貓」，因?yàn)樗鼈冊(cè)谟?xùn)練期間見(jiàn)過(guò)數(shù)十億個(gè)實(shí)例，然后在推理期間進(jìn)行概率性再現(xiàn)。

但在真實(shí)世界里，用戶的需求是異想天開的，上下文是動(dòng)態(tài)變化的。模型往往需要根據(jù)當(dāng)前獨(dú)特的、新奇的情境進(jìn)行「隨機(jī)應(yīng)變」的推理。這對(duì)應(yīng)的正是流體智力（Fluid Intelligence）。

GENIUS 的核心使命，就是剝離掉模型對(duì)「畫一只更逼真的狗」這類晶體智力的依賴，轉(zhuǎn)而從「生成式流體智力」的維度，去評(píng)估模型在生成側(cè)是否具備真正的通用智能。

02 GENIUS 基準(zhǔn)：

解構(gòu)生成式流體智力

我們構(gòu)建了一個(gè)包含510 個(gè)專家級(jí)樣本、涵蓋20 個(gè)子任務(wù)的評(píng)測(cè)集（數(shù)據(jù)展示可見(jiàn)圖一）。每個(gè)樣本都由多模態(tài)交織的上下文組成，且經(jīng)過(guò)精心設(shè)計(jì)：只要去掉上下文中的任何一種模態(tài)或者內(nèi)容，任務(wù)就變得不可解。這確保了模型必須真正「讀懂」并整合所有線索，而難以靠猜或預(yù)訓(xùn)練知識(shí)來(lái)蒙混過(guò)關(guān)。

數(shù)據(jù)顯示

隱式模式歸納（Inducing Implicit Patterns）（對(duì)應(yīng)圖一綠色部分）

人類具有一種直覺(jué)：能夠從稀疏的觀察中敏銳地捕捉到那些「只可意會(huì)不可言傳」的潛在規(guī)律。在 GENIUS 中，我們考察模型能否在沒(méi)有明確指令的情況下，從上下文中意會(huì)到出隱式的特征（比如對(duì)特定風(fēng)格、圖案的偏好），并將其泛化到新的生成任務(wù)中。

執(zhí)行即時(shí)約束（Executing Ad-hoc Constraints）（對(duì)應(yīng)圖一藍(lán)色部分）

即理解并執(zhí)行臨時(shí)的、非訓(xùn)練分布內(nèi)的復(fù)雜邏輯。這對(duì)人類來(lái)說(shuō)并非難事，就像小學(xué)經(jīng)典的思維訓(xùn)練題，「將水果定義為數(shù)字進(jìn)行四則運(yùn)算」；或者在編程中，「將一個(gè)抽象符號(hào)定義為某種特定操作」。GENIUS 測(cè)試模型能否在臨時(shí)定義的符號(hào)體系下，進(jìn)行嚴(yán)格的邏輯推理與精確執(zhí)行，而非依賴記憶中的常識(shí)關(guān)聯(lián)。

適應(yīng)上下文知識(shí)（Adapting to Contextual Knowledge）（對(duì)應(yīng)圖一黃色部分）

它強(qiáng)調(diào)模型必須克服預(yù)訓(xùn)練帶來(lái)的「認(rèn)知慣性」，抑制住調(diào)用內(nèi)部常識(shí)的沖動(dòng)，去適應(yīng)反直覺(jué)的上下文設(shè)定。例如，當(dāng) GENIUS 定義了一個(gè)「重力由顏色決定」的虛構(gòu)世界時(shí)，模型需要像人類一樣通過(guò)「思維實(shí)驗(yàn)」暫停對(duì)現(xiàn)實(shí)物理規(guī)律的信奉，完全基于這一反事實(shí)預(yù)設(shè)進(jìn)行想象與創(chuàng)造。

03 部分實(shí)驗(yàn)結(jié)果分析

我們?cè)?12 個(gè)最先進(jìn)的模型（涵蓋閉源 SOTA 與開源的生成式多模態(tài)大模型）上進(jìn)行了評(píng)測(cè)。量化結(jié)果（表一所示）揭示了當(dāng)前生成式模型在流體智力上的顯著短板。

量化測(cè)評(píng)結(jié)果

1. 晶體智力與流體智力的割裂

實(shí)驗(yàn)數(shù)據(jù)顯示，即便是目前最強(qiáng)大的模型（如 Nano Banana Pro），在 GENIUS 上的平均表現(xiàn)也遠(yuǎn)未達(dá)到及格線。這表明，模型在海量數(shù)據(jù)中習(xí)得的「知識(shí)儲(chǔ)備」（晶體智力），并不能直接遷移為解決新穎問(wèn)題的「推理能力」（流體智力）。

2. 預(yù)訓(xùn)練知識(shí)的阻力

在三大維度中，「適應(yīng)上下文知識(shí)」的準(zhǔn)確率普遍最低。這證實(shí)了模型存在嚴(yán)重的預(yù)訓(xùn)練知識(shí)阻力。例如在「反重力」任務(wù)中，模型往往會(huì)忽略 Context，頑固地生成符合現(xiàn)實(shí)物理規(guī)律的圖像。這說(shuō)明當(dāng)前模型的思維具有很強(qiáng)的僵化性，缺乏人類那種在「現(xiàn)實(shí)」與「想象」模式間靈活切換的可塑性。

3. 故障診斷：為什么模型會(huì)不及格？

面對(duì)模型在流體智力上的潰敗，我們并沒(méi)有止步于分?jǐn)?shù)的羅列，而是通過(guò)一系列診斷性實(shí)驗(yàn)，試圖定位失效的根本原因。

常規(guī)推理增強(qiáng)策略的失效：面對(duì)復(fù)雜的推理任務(wù)，直覺(jué)告訴我們要讓模型「多想一會(huì)兒」。然而，如圖三 (a) 所示，我們嘗試了 Pre-Planning（思維鏈模式）和 Post-Reflection（測(cè)試時(shí)擴(kuò)展，即生成-打分-再生成）等策略，結(jié)果卻令人失望——帶來(lái)的性能提升非常有限。這表明，GENIUS 所考察的流體智力，現(xiàn)有的推理范式并不能很好地遷移到這種多模態(tài)的即時(shí)生成任務(wù)中。

上下文理解是核心瓶頸：我們?cè)谏舷挛闹幸肴斯ぞ帉懙娘@式提示（Text Hint 純文本提示與 MM Hint 多模態(tài)提示），模型（如 Nano Banana Pro）的生成質(zhì)量能夠得到進(jìn)一步提升。這種顯式提示本質(zhì)上源于人類對(duì)語(yǔ)境的深度解析。如果模型能夠構(gòu)建起類人的理解機(jī)制，這一瓶頸在理論上是可以突破的。而在多模態(tài)細(xì)則約束下，部分模型（如 Bagel）甚至出現(xiàn)了性能回退，這直觀反映了當(dāng)前模型在處理多模態(tài)交錯(cuò)輸入時(shí)的理解乏力。

生成性失敗主要源于執(zhí)行能力不足，而不是理解能力缺陷：為了驗(yàn)證模型對(duì)上下文的理解程度，我們將生成任務(wù)轉(zhuǎn)換為視覺(jué)問(wèn)答形式，如圖三 (b) 所示。實(shí)驗(yàn)結(jié)果顯示，模型在理解類任務(wù)上的成功率較高，證明其已具備相當(dāng)程度的語(yǔ)境感知。導(dǎo)致「知而不能畫」的現(xiàn)象主要?dú)w結(jié)為以下兩個(gè)因素：首先，交錯(cuò)上下文具有極高的數(shù)據(jù)密度，其中細(xì)粒度的視覺(jué)差異難以通過(guò)有限的模態(tài)編碼完全捕獲與表達(dá)。其次，當(dāng)前通用多模態(tài)模型的結(jié)構(gòu)設(shè)計(jì)在信息傳遞上存在損耗，導(dǎo)致理解側(cè)豐富的語(yǔ)義信息無(wú)法有效傳導(dǎo)至生成側(cè)，形成了認(rèn)知與創(chuàng)作之間的斷層。

04 方法論：

基于注意力的免訓(xùn)練增強(qiáng)

圖四注意力分布觀察：左：Bagel 的注意力分布，右：我們改進(jìn)后的注意力分布

基于上述診斷，我們進(jìn)一步從底層機(jī)理探究了模型失效的根源。在多模態(tài)生成過(guò)程中，我們將生成圖像的特征作為查詢向量（Query），將圖文交織的上下文作為鍵向量（Key），對(duì)注意力分布進(jìn)行了可視化分析。結(jié)果表明，Bagel 模型在處理圖像時(shí)的注意力分布異常雜亂，呈現(xiàn)出大量不規(guī)律的噪聲與隨機(jī)的激增。由此引出一個(gè)核心問(wèn)題：注意力分布的偏移在多大程度上干擾了模型對(duì)上下文的理解？我們是否能通過(guò)對(duì)注意力權(quán)重進(jìn)行輕量級(jí)調(diào)制，來(lái)實(shí)質(zhì)性地提升模型的生成表現(xiàn)？

受到相關(guān)文獻(xiàn) [1] 的啟發(fā)，我們將「上下文學(xué)習(xí)本質(zhì)上是一個(gè)隱式梯度更新過(guò)程」這一理論，在數(shù)學(xué)上嚴(yán)格推導(dǎo)并拓展至 Bagel 的架構(gòu)中（詳細(xì)推導(dǎo)過(guò)程見(jiàn)論文 [2]）。從這一理論視角出發(fā)，高質(zhì)量的上下文能夠?yàn)檫@種隱式的「梯度下降」提供明確且精準(zhǔn)的優(yōu)化方向。然而，Bagel 原生的注意力熱力圖揭示了一個(gè)致命缺陷：模型未能精確聚焦于上下文中必須關(guān)注的核心特征，其注意力權(quán)重呈現(xiàn)出無(wú)序的發(fā)散狀態(tài)。這直接導(dǎo)致模型在隱式梯度更新時(shí)丟失了正確的下降路徑，最終受困于預(yù)訓(xùn)練固化的數(shù)據(jù)分布中難以跳出。針對(duì)這一困境，我們提出了一種免訓(xùn)練的注意力校準(zhǔn)機(jī)制，強(qiáng)制引導(dǎo)模型將注意力收斂于關(guān)鍵的視覺(jué)與語(yǔ)義區(qū)域。定性與定量實(shí)驗(yàn)均證實(shí)，該方法能夠有效糾正模型的優(yōu)化軌跡并帶來(lái)顯著的性能增益，為該領(lǐng)域構(gòu)建了一個(gè)簡(jiǎn)單的基線。

05 總結(jié)與展望：

邁向真正的通用生成智能

GENIUS 的提出，旨在回應(yīng)生成式 AI 發(fā)展進(jìn)程中的一個(gè)核心命題：我們究竟需要什么樣的智能？

當(dāng)前的生成式多模態(tài)大模型已經(jīng)在晶體智力上取得了令人矚目的成就：它們能夠完美擬合海量數(shù)據(jù)分布，復(fù)現(xiàn)高質(zhì)量的視覺(jué)內(nèi)容。然而，GENIUS 的評(píng)測(cè)結(jié)果揭示了繁榮背后的隱憂：一旦脫離了預(yù)訓(xùn)練的舒適區(qū)，面對(duì)需要即時(shí)推理、歸納與適應(yīng)的流體智力任務(wù)，現(xiàn)有模型仍顯稚嫩。

從「晶體智能的擬合」走向「流體智能的推理」，是生成式多模態(tài)大模型下一階段發(fā)展的必經(jīng)之路。

GENIUS 僅僅是一個(gè)開始。我們希望這一基準(zhǔn)能為社區(qū)提供一個(gè)嚴(yán)謹(jǐn)?shù)臏y(cè)試平臺(tái)，推動(dòng)生成式模型從熟練的「模仿者」，進(jìn)化為具備真正通用推理能力的「思考者」。

引用：

[1] Learning without training: The implicitdynamics of in-context learning

[2] GENIUS: Generative Fluid IntelligenceEvaluation Suite

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.