国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

CL-Bench的故事沒(méi)有結(jié)束,生成式CL-Bench:GENIUS來(lái)了

0
分享至



本論文由北京大學(xué)碩士生安睿川擔(dān)任第一作者,他由張文濤教授與鄂維南院士的共同指導(dǎo)。研究方向主要是統(tǒng)一生成理解模型、以數(shù)據(jù)為中心的 AI。擁有 NeurIPS、ICLR、ECCV 等 4 篇一作或共同一作論文發(fā)表,曾在微軟亞洲研究院實(shí)習(xí)。項(xiàng)目通訊作者由北京大學(xué)張文濤教授擔(dān)任。

在 AGI-Next 前沿峰會(huì)上,姚順雨曾拋出一個(gè)犀利的觀點(diǎn):大模型邁向高價(jià)值應(yīng)用的核心瓶頸,其實(shí)在于能否「用好上下文(Context)」。OpenAI 的 Jiayi Weng 也在近期的訪談中表達(dá)了類似的洞察:上下文決定了模型與人類認(rèn)知的邊界。當(dāng)信息不對(duì)等被消除,普通人也能勝任頂尖工作——本質(zhì)上,是上下文的處理能力拉開了智力的差距。

正是在這種共識(shí)下,混元與復(fù)旦團(tuán)隊(duì)近日發(fā)布的CL-Bench顯得尤為重要。作為姚順雨加入騰訊后的首秀,CL-Bench 建立了一個(gè)標(biāo)桿:它嚴(yán)苛地審視了模型在長(zhǎng)程交互中「學(xué)習(xí)新知識(shí)」的能力。

但故事到這里就結(jié)束了嗎?

CL-Bench 精彩地解決了「輸入端」的理解難題(Contextual Learning),但在「輸出端」的生成環(huán)節(jié),我們發(fā)現(xiàn)了另一塊更為棘手的拼圖:

如果上下文不僅是用來(lái)「學(xué)」的知識(shí),而是對(duì)「創(chuàng)造」行為的復(fù)雜束縛,模型還能游刃有余嗎?

這正是我們提出GENIUSGenerative Fluidntelligence EvaluationSuite) 的初衷。



  • 論文題目:GENIUS: Generative Fluid Intelligence Evaluation Suite
  • arXiv 論文:https://arxiv.org/abs/2602.11144
  • 代碼倉(cāng)庫(kù):https://github.com/arctanxarc/GENIUS
  • Unified Model 下半場(chǎng) Blog(內(nèi)含 Takeaway 和 Insight):https://chawuciren11.github.io/GENIUS/

01 從「晶體」到「流體」:

生成式 AI 的范式躍遷

目前的生成式多模態(tài)大模型無(wú)疑是強(qiáng)大的。但這種強(qiáng)大,更多體現(xiàn)為一種晶體智力(Crystallized Intelligence)。

所謂晶體智力,是指運(yùn)用過(guò)去學(xué)習(xí)或經(jīng)驗(yàn)獲得知識(shí)的能力?,F(xiàn)在的模型通過(guò)海量數(shù)據(jù)擬合,習(xí)得了驚人的晶體智力,它們能生成一只完美的「貓」,因?yàn)樗鼈冊(cè)谟?xùn)練期間見(jiàn)過(guò)數(shù)十億個(gè)實(shí)例,然后在推理期間進(jìn)行概率性再現(xiàn)。

但在真實(shí)世界里,用戶的需求是異想天開的,上下文是動(dòng)態(tài)變化的。模型往往需要根據(jù)當(dāng)前獨(dú)特的、新奇的情境進(jìn)行「隨機(jī)應(yīng)變」的推理。這對(duì)應(yīng)的正是流體智力(Fluid Intelligence)。

GENIUS 的核心使命,就是剝離掉模型對(duì)「畫一只更逼真的狗」這類晶體智力的依賴,轉(zhuǎn)而從「生成式流體智力」的維度,去評(píng)估模型在生成側(cè)是否具備真正的通用智能。

02 GENIUS 基準(zhǔn):

解構(gòu)生成式流體智力

我們構(gòu)建了一個(gè)包含510 個(gè)專家級(jí)樣本、涵蓋20 個(gè)子任務(wù)的評(píng)測(cè)集(數(shù)據(jù)展示可見(jiàn)圖一)。 每個(gè)樣本都由多模態(tài)交織的上下文組成,且經(jīng)過(guò)精心設(shè)計(jì):只要去掉上下文中的任何一種模態(tài)或者內(nèi)容,任務(wù)就變得不可解。這確保了模型必須真正「讀懂」并整合所有線索,而難以靠猜或預(yù)訓(xùn)練知識(shí)來(lái)蒙混過(guò)關(guān)。



數(shù)據(jù)顯示

隱式模式歸納(Inducing Implicit Patterns)(對(duì)應(yīng)圖一綠色部分)

人類具有一種直覺(jué):能夠從稀疏的觀察中敏銳地捕捉到那些「只可意會(huì)不可言傳」的潛在規(guī)律。在 GENIUS 中,我們考察模型能否在沒(méi)有明確指令的情況下,從上下文中意會(huì)到出隱式的特征(比如對(duì)特定風(fēng)格、圖案的偏好),并將其泛化到新的生成任務(wù)中。

執(zhí)行即時(shí)約束(Executing Ad-hoc Constraints)(對(duì)應(yīng)圖一藍(lán)色部分)

即理解并執(zhí)行臨時(shí)的、非訓(xùn)練分布內(nèi)的復(fù)雜邏輯。這對(duì)人類來(lái)說(shuō)并非難事,就像小學(xué)經(jīng)典的思維訓(xùn)練題,「將水果定義為數(shù)字進(jìn)行四則運(yùn)算」;或者在編程中,「將一個(gè)抽象符號(hào)定義為某種特定操作」。GENIUS 測(cè)試模型能否在臨時(shí)定義的符號(hào)體系下,進(jìn)行嚴(yán)格的邏輯推理與精確執(zhí)行,而非依賴記憶中的常識(shí)關(guān)聯(lián)。

適應(yīng)上下文知識(shí)(Adapting to Contextual Knowledge)(對(duì)應(yīng)圖一黃色部分)

它強(qiáng)調(diào)模型必須克服預(yù)訓(xùn)練帶來(lái)的「認(rèn)知慣性」,抑制住調(diào)用內(nèi)部常識(shí)的沖動(dòng),去適應(yīng)反直覺(jué)的上下文設(shè)定。例如,當(dāng) GENIUS 定義了一個(gè)「重力由顏色決定」的虛構(gòu)世界時(shí),模型需要像人類一樣通過(guò)「思維實(shí)驗(yàn)」暫停對(duì)現(xiàn)實(shí)物理規(guī)律的信奉,完全基于這一反事實(shí)預(yù)設(shè)進(jìn)行想象與創(chuàng)造。

03 部分實(shí)驗(yàn)結(jié)果分析

我們?cè)?12 個(gè)最先進(jìn)的模型(涵蓋閉源 SOTA 與開源的生成式多模態(tài)大模型)上進(jìn)行了評(píng)測(cè)。 量化結(jié)果(表一所示)揭示了當(dāng)前生成式模型在流體智力上的顯著短板。



量化測(cè)評(píng)結(jié)果

1. 晶體智力與流體智力的割裂

實(shí)驗(yàn)數(shù)據(jù)顯示,即便是目前最強(qiáng)大的模型(如 Nano Banana Pro),在 GENIUS 上的平均表現(xiàn)也遠(yuǎn)未達(dá)到及格線。這表明,模型在海量數(shù)據(jù)中習(xí)得的「知識(shí)儲(chǔ)備」(晶體智力),并不能直接遷移為解決新穎問(wèn)題的「推理能力」(流體智力)。

2. 預(yù)訓(xùn)練知識(shí)的阻力

在三大維度中,「適應(yīng)上下文知識(shí)」的準(zhǔn)確率普遍最低。這證實(shí)了模型存在嚴(yán)重的預(yù)訓(xùn)練知識(shí)阻力。例如在「反重力」任務(wù)中,模型往往會(huì)忽略 Context,頑固地生成符合現(xiàn)實(shí)物理規(guī)律的圖像。這說(shuō)明當(dāng)前模型的思維具有很強(qiáng)的僵化性,缺乏人類那種在「現(xiàn)實(shí)」與「想象」模式間靈活切換的可塑性。



3. 故障診斷:為什么模型會(huì)不及格?

面對(duì)模型在流體智力上的潰敗,我們并沒(méi)有止步于分?jǐn)?shù)的羅列,而是通過(guò)一系列診斷性實(shí)驗(yàn),試圖定位失效的根本原因。

常規(guī)推理增強(qiáng)策略的失效:面對(duì)復(fù)雜的推理任務(wù),直覺(jué)告訴我們要讓模型「多想一會(huì)兒」。然而,如圖三 (a) 所示,我們嘗試了 Pre-Planning(思維鏈模式)和 Post-Reflection(測(cè)試時(shí)擴(kuò)展,即生成-打分-再生成)等策略,結(jié)果卻令人失望——帶來(lái)的性能提升非常有限。這表明,GENIUS 所考察的流體智力,現(xiàn)有的推理范式并不能很好地遷移到這種多模態(tài)的即時(shí)生成任務(wù)中。

上下文理解是核心瓶頸:我們?cè)谏舷挛闹幸肴斯ぞ帉懙娘@式提示(Text Hint 純文本提示與 MM Hint 多模態(tài)提示),模型(如 Nano Banana Pro)的生成質(zhì)量能夠得到進(jìn)一步提升。這種顯式提示本質(zhì)上源于人類對(duì)語(yǔ)境的深度解析。如果模型能夠構(gòu)建起類人的理解機(jī)制,這一瓶頸在理論上是可以突破的。而在多模態(tài)細(xì)則約束下,部分模型(如 Bagel)甚至出現(xiàn)了性能回退,這直觀反映了當(dāng)前模型在處理多模態(tài)交錯(cuò)輸入時(shí)的理解乏力。

生成性失敗主要源于執(zhí)行能力不足,而不是理解能力缺陷:為了驗(yàn)證模型對(duì)上下文的理解程度,我們將生成任務(wù)轉(zhuǎn)換為視覺(jué)問(wèn)答形式,如圖三 (b) 所示。實(shí)驗(yàn)結(jié)果顯示,模型在理解類任務(wù)上的成功率較高,證明其已具備相當(dāng)程度的語(yǔ)境感知。導(dǎo)致「知而不能畫」的現(xiàn)象主要?dú)w結(jié)為以下兩個(gè)因素:首先,交錯(cuò)上下文具有極高的數(shù)據(jù)密度,其中細(xì)粒度的視覺(jué)差異難以通過(guò)有限的模態(tài)編碼完全捕獲與表達(dá)。其次,當(dāng)前通用多模態(tài)模型的結(jié)構(gòu)設(shè)計(jì)在信息傳遞上存在損耗,導(dǎo)致理解側(cè)豐富的語(yǔ)義信息無(wú)法有效傳導(dǎo)至生成側(cè),形成了認(rèn)知與創(chuàng)作之間的斷層。

04 方法論:

基于注意力的免訓(xùn)練增強(qiáng)



圖四 注意力分布觀察:左:Bagel 的注意力分布,右:我們改進(jìn)后的注意力分布

基于上述診斷,我們進(jìn)一步從底層機(jī)理探究了模型失效的根源。在多模態(tài)生成過(guò)程中,我們將生成圖像的特征作為查詢向量(Query),將圖文交織的上下文作為鍵向量(Key),對(duì)注意力分布進(jìn)行了可視化分析。結(jié)果表明,Bagel 模型在處理圖像時(shí)的注意力分布異常雜亂,呈現(xiàn)出大量不規(guī)律的噪聲與隨機(jī)的激增。由此引出一個(gè)核心問(wèn)題:注意力分布的偏移在多大程度上干擾了模型對(duì)上下文的理解?我們是否能通過(guò)對(duì)注意力權(quán)重進(jìn)行輕量級(jí)調(diào)制,來(lái)實(shí)質(zhì)性地提升模型的生成表現(xiàn)?

受到相關(guān)文獻(xiàn) [1] 的啟發(fā),我們將「上下文學(xué)習(xí)本質(zhì)上是一個(gè)隱式梯度更新過(guò)程」這一理論,在數(shù)學(xué)上嚴(yán)格推導(dǎo)并拓展至 Bagel 的架構(gòu)中(詳細(xì)推導(dǎo)過(guò)程見(jiàn)論文 [2])。從這一理論視角出發(fā),高質(zhì)量的上下文能夠?yàn)檫@種隱式的「梯度下降」提供明確且精準(zhǔn)的優(yōu)化方向。然而,Bagel 原生的注意力熱力圖揭示了一個(gè)致命缺陷:模型未能精確聚焦于上下文中必須關(guān)注的核心特征,其注意力權(quán)重呈現(xiàn)出無(wú)序的發(fā)散狀態(tài)。這直接導(dǎo)致模型在隱式梯度更新時(shí)丟失了正確的下降路徑,最終受困于預(yù)訓(xùn)練固化的數(shù)據(jù)分布中難以跳出。針對(duì)這一困境,我們提出了一種免訓(xùn)練的注意力校準(zhǔn)機(jī)制,強(qiáng)制引導(dǎo)模型將注意力收斂于關(guān)鍵的視覺(jué)與語(yǔ)義區(qū)域。定性與定量實(shí)驗(yàn)均證實(shí),該方法能夠有效糾正模型的優(yōu)化軌跡并帶來(lái)顯著的性能增益,為該領(lǐng)域構(gòu)建了一個(gè)簡(jiǎn)單的基線。

05 總結(jié)與展望:

邁向真正的通用生成智能

GENIUS 的提出,旨在回應(yīng)生成式 AI 發(fā)展進(jìn)程中的一個(gè)核心命題:我們究竟需要什么樣的智能?

當(dāng)前的生成式多模態(tài)大模型已經(jīng)在晶體智力上取得了令人矚目的成就:它們能夠完美擬合海量數(shù)據(jù)分布,復(fù)現(xiàn)高質(zhì)量的視覺(jué)內(nèi)容。然而,GENIUS 的評(píng)測(cè)結(jié)果揭示了繁榮背后的隱憂:一旦脫離了預(yù)訓(xùn)練的舒適區(qū),面對(duì)需要即時(shí)推理、歸納與適應(yīng)的流體智力任務(wù),現(xiàn)有模型仍顯稚嫩。

從「晶體智能的擬合」走向「流體智能的推理」,是生成式多模態(tài)大模型下一階段發(fā)展的必經(jīng)之路。

GENIUS 僅僅是一個(gè)開始。我們希望這一基準(zhǔn)能為社區(qū)提供一個(gè)嚴(yán)謹(jǐn)?shù)臏y(cè)試平臺(tái),推動(dòng)生成式模型從熟練的「模仿者」,進(jìn)化為具備真正通用推理能力的「思考者」。

引用:

[1] Learning without training: The implicitdynamics of in-context learning

[2] GENIUS: Generative Fluid IntelligenceEvaluation Suite

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
馬斯克變性女兒亮相米蘭時(shí)裝周,姿勢(shì)怪異男相明顯,堪稱辣眼睛

馬斯克變性女兒亮相米蘭時(shí)裝周,姿勢(shì)怪異男相明顯,堪稱辣眼睛

電影偵探社
2026-03-01 16:36:05
美媒感慨:若不是中國(guó)還在反抗特朗普,幾乎全世界都向他投降了

美媒感慨:若不是中國(guó)還在反抗特朗普,幾乎全世界都向他投降了

悅心知足
2026-02-21 23:03:46
風(fēng)向真的變了!各國(guó)媒體紛紛承認(rèn),中國(guó)已無(wú)需再向世界證明其實(shí)力

風(fēng)向真的變了!各國(guó)媒體紛紛承認(rèn),中國(guó)已無(wú)需再向世界證明其實(shí)力

除夕煙火燦爛
2026-01-05 09:46:29
男子送相親對(duì)象回家遇其忘帶鑰匙,開房遭拒后女子怒斥男子真沒(méi)用

男子送相親對(duì)象回家遇其忘帶鑰匙,開房遭拒后女子怒斥男子真沒(méi)用

朗威談星座
2026-03-02 16:54:30
哈梅內(nèi)伊妻子有多神秘?家世富有卻愿吃苦,吃的不是婚姻的那種苦

哈梅內(nèi)伊妻子有多神秘?家世富有卻愿吃苦,吃的不是婚姻的那種苦

小陸搞笑日常
2026-03-03 01:50:16
上海旅客講述迪拜驚魂夜:百余人手機(jī)同時(shí)響警報(bào),航班再延期

上海旅客講述迪拜驚魂夜:百余人手機(jī)同時(shí)響警報(bào),航班再延期

南方都市報(bào)
2026-03-02 09:25:52
1971年伊朗花20億干這么愚蠢的事情,最終成為最昂貴的葬禮

1971年伊朗花20億干這么愚蠢的事情,最終成為最昂貴的葬禮

爆角追蹤
2026-03-01 15:28:53
突變!白銀大跳水,黃金回落!美股集體下跌!特朗普,最新發(fā)聲!

突變!白銀大跳水,黃金回落!美股集體下跌!特朗普,最新發(fā)聲!

證券時(shí)報(bào)e公司
2026-03-02 23:05:14
父親之謎!谷愛(ài)凌出生證明生父一欄空白 最新傳聞曝光:長(zhǎng)得真像

父親之謎!谷愛(ài)凌出生證明生父一欄空白 最新傳聞曝光:長(zhǎng)得真像

念洲
2026-03-01 21:29:29
43歲阿Sa承認(rèn)與男友同居,已帶男友見(jiàn)過(guò)家長(zhǎng),疑好事將近

43歲阿Sa承認(rèn)與男友同居,已帶男友見(jiàn)過(guò)家長(zhǎng),疑好事將近

扒蝦侃娛
2026-03-02 22:27:05
凌晨2點(diǎn)浦東機(jī)場(chǎng)!4個(gè)女孩差點(diǎn)飛泰國(guó),再晚2分鐘怕是救不回來(lái)了

凌晨2點(diǎn)浦東機(jī)場(chǎng)!4個(gè)女孩差點(diǎn)飛泰國(guó),再晚2分鐘怕是救不回來(lái)了

生活魔術(shù)專家
2026-03-02 16:22:28
“天眼”24小時(shí)掃描中東,美軍在中國(guó)衛(wèi)星面前,沒(méi)有任何秘密可言

“天眼”24小時(shí)掃描中東,美軍在中國(guó)衛(wèi)星面前,沒(méi)有任何秘密可言

我心縱橫天地間
2026-03-02 14:05:07
黃一鳴帶小孩給爺爺奶奶拜年,嘴巴很甜,被懷疑是變相要紅包

黃一鳴帶小孩給爺爺奶奶拜年,嘴巴很甜,被懷疑是變相要紅包

新游戲大妹子
2026-02-18 09:18:57
又有5國(guó)參戰(zhàn)!中東亂成一鍋粥,美媒再爆料:沙特欺騙了全世界

又有5國(guó)參戰(zhàn)!中東亂成一鍋粥,美媒再爆料:沙特欺騙了全世界

東極妙嚴(yán)
2026-03-02 15:50:51
伊朗不值得同情!兩大國(guó)親手為他搭好擂臺(tái),卻反手被賣

伊朗不值得同情!兩大國(guó)親手為他搭好擂臺(tái),卻反手被賣

毛豆論道
2026-03-02 17:01:06
40萬(wàn)周薪引爆爭(zhēng)議!31歲隊(duì)長(zhǎng)7球13助,1億歐報(bào)價(jià)逼曼聯(lián)兩難

40萬(wàn)周薪引爆爭(zhēng)議!31歲隊(duì)長(zhǎng)7球13助,1億歐報(bào)價(jià)逼曼聯(lián)兩難

卿子書
2026-03-02 09:47:30
哈佛研究揭示:高智商孩子常具兩種臉部特征不是迷信是腦科學(xué)真相

哈佛研究揭示:高智商孩子常具兩種臉部特征不是迷信是腦科學(xué)真相

一口娛樂(lè)
2026-02-27 12:42:23
美軍新型彈道導(dǎo)彈首次投入實(shí)戰(zhàn)

美軍新型彈道導(dǎo)彈首次投入實(shí)戰(zhàn)

觀察者網(wǎng)
2026-03-02 16:42:09
親歷伊朗變局,中國(guó)留學(xué)生:很多人在得知哈梅內(nèi)伊身亡后,下定決心盡快撤離

親歷伊朗變局,中國(guó)留學(xué)生:很多人在得知哈梅內(nèi)伊身亡后,下定決心盡快撤離

每日經(jīng)濟(jì)新聞
2026-03-02 20:22:10
王楚然巴黎時(shí)裝周“牛仔褲災(zāi)難”引全網(wǎng)吐槽

王楚然巴黎時(shí)裝周“牛仔褲災(zāi)難”引全網(wǎng)吐槽

深度解析熱點(diǎn)
2026-03-02 18:41:27
2026-03-03 03:32:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12395文章數(shù) 142575關(guān)注度
往期回顧 全部

科技要聞

蘋果中國(guó)官網(wǎng)上線iPhone 17e,4499元起

頭條要聞

中國(guó)留學(xué)生:很多人得知哈梅內(nèi)伊身亡后 決定盡快撤離

頭條要聞

中國(guó)留學(xué)生:很多人得知哈梅內(nèi)伊身亡后 決定盡快撤離

體育要聞

“想要我簽名嗎” 梅西逆轉(zhuǎn)后嘲諷對(duì)手主帥

娛樂(lè)要聞

李亞鵬與哥哥和解 只有一條真心話短信

財(cái)經(jīng)要聞

油價(jià)飆升 美伊沖突將如何攪動(dòng)全球經(jīng)濟(jì)

汽車要聞

國(guó)民SUV再添一員 瑞虎7L靜態(tài)體驗(yàn)

態(tài)度原創(chuàng)

游戲
教育
房產(chǎn)
健康
公開課

外媒給《寶可夢(mèng)》新作60分:不夠有趣的縫合怪

教育要聞

特別猛,但在留學(xué)生心中存在感很低的英國(guó)大學(xué)!

房產(chǎn)要聞

方案突然曝光!海口北師大附校,又有書包大盤殺出!

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

公開課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版