国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

從「會畫畫」到「會思考」:快手可靈團隊提出 T2I-CoReBench,最強模型也難逃推理瓶頸

0
分享至

文章來源:我愛計算機視覺(ID:aicvml)

當前文本生成圖像(T2I)技術(shù)早已不是畫出來就行。從 Stable Diffusion 到最新的 Nano Banana,模型能輕松生成指令一致的簡單畫面,但要生成繁忙廚房中的 30 余種物品繩索斷裂后特技演員引發(fā)連鎖反應(yīng)這類復(fù)雜場景,卻常犯漏東西邏輯錯的毛病。問題出在哪?

近日,快手可靈團隊提出 T2I-CoReBench。首個同時覆蓋 “構(gòu)圖能力” 與 “推理能力” 的全面性、高復(fù)雜度基準,用 1080 個挑戰(zhàn)性 prompt 和 13,500+ 個精細評測問題,戳破了當前 T2I 模型的 “能力假象”。



  • 論文標題: Easier Painting Than Thinking: Can Text-to-Image Models Set the Stage, but Not Direct the Play?

  • 論文地址: https://arxiv.org/abs/2509.03516

  • 代碼地址: https://github.com/KwaiVGI/T2I-CoReBench

  • 項目主頁: https://t2i-corebench.github.io/

一、研究背景與動機

T2I 模型要生成 “靠譜” 的圖像,靠兩大核心能力:(1)構(gòu)圖能力(Composition):把 prompt 里明確提到的元素(比如冰箱、菜板、島臺等)全部畫對,包括物體、屬性、位置關(guān)系。(2)推理能力(Reasoning):把 prompt 里隱含的結(jié)果(比如用力擠壓一個番茄 → 番茄擠出汁)推斷出來,生成合理畫面。

但當前的評測基準仍然存在兩個關(guān)鍵問題:(1)不全面:要么只評構(gòu)圖,要么只考推理,沒法整體評估模型又能畫全、又能想對的能力。且推理維度也相對局限,多集中在常識或簡單因果,缺乏對邏輯、歸納、溯因等推理維度的全面覆蓋。(2)太簡單:構(gòu)圖場景一般只包含少量的視覺元素,且推理只考察單步的簡單推理(比如擠番茄 → 出汁),完全達不到真實世界多物體、多因果的復(fù)雜度。

為了解決這兩個問題,研究團隊提出了 T2I-CoReBench,聚焦于評估 T2I 模型兩種基本能力:構(gòu)圖(Composition)推理(Reasoning)。不僅要 “測全”,還要 “測難”,讓基準的評估結(jié)果真正反映 T2I 模型在實際場景中的表現(xiàn)。


二、T2I-CoReBench: 12 維評估體系 + 高復(fù)雜度場景

T2I-CoReBench 聚焦于評估 T2I 模型兩種基本能力:構(gòu)圖(Composition)推理(Reasoning)。不同于過去工作靠 “主觀經(jīng)驗” 設(shè)計評測維度,研究團隊從兩個經(jīng)典分類框架出發(fā),構(gòu)建了嚴謹?shù)脑u估體系,共計12 個維度,把 “構(gòu)圖” 和 “推理” 拆解得明明白白。


構(gòu)圖能力基于場景圖理論:物體、屬性、關(guān)系是共同構(gòu)成畫面的核心要素。同時考慮到文本內(nèi)容在 T2I 應(yīng)用中的重要性(如包裝文字與商標),因而一共定義了多實例(MI)、多屬性(MA)、多關(guān)系(MR)以及文本渲染(TR)四個維度。


推理能力基于哲學(xué)領(lǐng)域經(jīng)典的 “三大推理框架”:演繹推理、歸納推理、溯因推理,細分出 T2I 場景下的關(guān)鍵任務(wù):

演繹推理的核心邏輯是前提為真,則結(jié)論必為真。在 T2I 場景中表現(xiàn)為模型需嚴格依據(jù) prompt 給定的規(guī)則、狀態(tài)或步驟,生成確定性的視覺畫面。具體定義了邏輯推理(LR)、行為推理(BR)、假設(shè)推理(HR)以及過程推理(PR)四個維度。


歸納推理的核心是從具體例子中提煉通用規(guī)則,再將規(guī)則應(yīng)用到新場景。在 T2I 中表現(xiàn)為模型需先從 prompt 給出的示例中學(xué)會規(guī)律,再基于規(guī)律生成未被明確描述的視覺元素。具體定義了泛化推理(GR)類比推理(AR)兩個維度。


溯因推理的核心是從已知觀察出發(fā),重建最可能的隱含原因或背景。在 T2I 中表現(xiàn)為 prompt 僅描述 “結(jié)果狀態(tài)” 或 “局部線索”,模型需調(diào)用常識、物理規(guī)律或因果邏輯,補全畫面中 “未被提及但必須存在的元素”。包括常識推理(CR)重構(gòu)推理(RR)兩個維度。


為避免模型在簡單場景中 “刷分”,T2I-CoReBench 在 prompt 設(shè)計上特意 “加難度”,使其更貼近真實世界,從而倒逼模型暴露短板:

  1. 構(gòu)圖更密集: 構(gòu)圖類 prompt 平均包含 20 個實例/屬性/關(guān)系。例如“擁擠教室”需呈現(xiàn)鉛筆、剪刀、膠棒等 35 個實例。

  2. 推理更復(fù)雜: 推理類 prompt 均為“密集推理場景”。如 火柴燒斷彈性繩 → 繩子彈倒多米諾骨牌 → 彈珠滾進紅水燒杯,需同時呈現(xiàn) 8 個結(jié)果,而非“一因一果”的簡單邏輯。

  3. 評測更精細: 每個 prompt 配套 checklist,例如“擁擠教室”含 35 個是/否問題(如“圖中有鉛筆嗎?”、“圖中有剪刀嗎?”),逐項獨立評分,避免粗粒度評估帶來的模糊性。

最終,T2I-CoReBench 形成 1080 個 prompt 與 13536 個評測問題的規(guī)模,平均 prompt 長度為 170 tokens,checklist 中平均有 12.5 個問題,足夠全面考驗?zāi)P驮趶?fù)雜場景中的真實能力。

三、評測結(jié)果:構(gòu)圖有進步,推理仍是 “致命短板”

研究團隊在 T2I-CoReBench 上評測了 28 個主流 T2I 模型(21 個開源 + 7 個閉源,涵蓋擴散、自回歸、統(tǒng)一架構(gòu)),結(jié)果既暴露了行業(yè)現(xiàn)狀,也給出了明確方向。


關(guān)鍵發(fā)現(xiàn) 1:T2I 模型構(gòu)圖能力穩(wěn)步提升,但復(fù)雜構(gòu)圖仍遠未解決

在 T2I-CoReBench 的測試中,各模型的構(gòu)圖能力整體穩(wěn)步提升:閉源最優(yōu)模型 Seedream 4.0 得分 86.1,開源最優(yōu) Qwen-Image 亦達到 78.0,已接近先進閉源水平。然而在復(fù)雜場景下,即便是 Seedream 4.0,在多屬性綁定(MA:84.5)和多關(guān)系生成(MR:75.0)方面仍顯吃力,復(fù)雜構(gòu)圖控制依舊是亟待突破的難題。

關(guān)鍵發(fā)現(xiàn) 2:推理能力仍是 T2I 模型的主要瓶頸

盡管構(gòu)圖能力穩(wěn)步提升,但推理仍顯薄弱:Imagen 4 Ultra 推理得分最高,但也僅為 72.9,比構(gòu)圖低 9.5 分,在邏輯與行為推理等維度表現(xiàn)不佳;開源模型差距更為明顯,Qwen-Image 構(gòu)圖達 78.0,卻僅在推理上得 49.3(落后 28.7 分)。這表明當前模型仍難以從提示詞中正確推斷隱含的視覺元素。

關(guān)鍵發(fā)現(xiàn) 3:擴散模型略占優(yōu)勢,指令理解是關(guān)鍵

在開源模型中,擴散模型整體表現(xiàn)略優(yōu)于自回歸和統(tǒng)一范式,但差異不大。更強的指令編碼器顯著提升模型在構(gòu)圖與推理上的表現(xiàn),例如 Qwen-Image 借助 Qwen2.5-VL 編碼器取得最佳成績。這表明未來應(yīng)優(yōu)先強化編碼器端的指令理解與文本–圖像對齊,同時保持解碼范式的靈活性。

關(guān)鍵發(fā)現(xiàn) 4:提示詞重寫能緩解推理瓶頸,但仍不足以解決多模態(tài)難題

研究團隊評估了提示詞重寫(prompt rewriting)對 T2I 推理的作用,來補償 T2I 模型的原生推理不足。采用 OpenAI o3 在生成前重寫提示詞,顯式補充屬性變化、動作結(jié)果與隱含線索。結(jié)果顯示重寫確可提升推理,原生推理能力較弱的模型受益更大;但僅靠文本推理仍不足:強模型(如 GPT-Image)在多項推理維度依然未過 80。鑒于 T2I 本質(zhì)為多模態(tài)任務(wù),文本重寫難以克服視覺偏差與文本–圖像耦合(如生成方形輪子的汽車),未來應(yīng)探索更緊密的多模態(tài)交互。


四、未來方向:讓 T2I 模型從 “會畫畫” 到 “會思考”

基于評測結(jié)果,研究團隊提出四個關(guān)鍵研究方向,為后續(xù)發(fā)展指明路徑:

  1. 補充復(fù)雜場景數(shù)據(jù): 現(xiàn)有訓(xùn)練集多為簡單場景,亟需增加 “高密度物體 + 多步推理” 的標注數(shù)據(jù),以拓展模型的見識與泛化能力;

  2. 深度融合 LLM/MLLM: 將大模型的文本理解與推理能力嵌入 T2I 流程,例如先解析 prompt 的邏輯,再驅(qū)動圖像生成;

  3. 引入 LLM 式推理范式: 借鑒 CoT 思想,讓模型逐步推演邏輯鏈(如 “水杯掉地 → 水漬 → 杯子傾斜”),再生成對應(yīng)畫面;

  4. 探索多模態(tài)交錯推理機制: 在生成過程中交替利用文本與視覺模態(tài)的推理能力,實現(xiàn)跨模態(tài)信息的相互補充與一致性推理,從而提升生成結(jié)果的邏輯性與逼真度。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
扣押中國油輪后,美方發(fā)現(xiàn)中國貨輪填滿導(dǎo)彈,白宮的說法終于變了

扣押中國油輪后,美方發(fā)現(xiàn)中國貨輪填滿導(dǎo)彈,白宮的說法終于變了

云上烏托邦
2025-12-27 16:04:34
如果不想滅亡,就不要開戰(zhàn)!我國集裝箱導(dǎo)彈艦完工:美日打不贏了

如果不想滅亡,就不要開戰(zhàn)!我國集裝箱導(dǎo)彈艦完工:美日打不贏了

墨蘭史書
2025-12-27 17:25:02
75歲港星小36歲未婚妻被曝已婚,冬至與丈夫在老家吃飯,兒子16歲

75歲港星小36歲未婚妻被曝已婚,冬至與丈夫在老家吃飯,兒子16歲

觀察鑒娛
2025-12-27 10:00:22
內(nèi)行人預(yù)測2026年大勢,4大現(xiàn)象席卷全國!

內(nèi)行人預(yù)測2026年大勢,4大現(xiàn)象席卷全國!

老特有話說
2025-12-25 12:01:20
比韓建林還硬!徐湖平大靠山,竟是江蘇“一把手”,父親的老戰(zhàn)友

比韓建林還硬!徐湖平大靠山,竟是江蘇“一把手”,父親的老戰(zhàn)友

愛看劇的阿峰
2025-12-28 00:49:03
格拉利什凌晨4點離開夜店,圣誕夜豪擲2萬英鎊狂歡

格拉利什凌晨4點離開夜店,圣誕夜豪擲2萬英鎊狂歡

星耀國際足壇
2025-12-27 14:24:02
從鄉(xiāng)鎮(zhèn)調(diào)到省廳,想在女友家亮身份,瞥見她爸胸牌我改口說打雜

從鄉(xiāng)鎮(zhèn)調(diào)到省廳,想在女友家亮身份,瞥見她爸胸牌我改口說打雜

曉艾故事匯
2025-12-25 08:06:26
Lisa在圣誕節(jié)二登瘋馬秀,由男友三公子陪同,直接打臉洗白的粉絲

Lisa在圣誕節(jié)二登瘋馬秀,由男友三公子陪同,直接打臉洗白的粉絲

芊手若
2025-12-26 15:32:19
山西大同一小區(qū)物業(yè)禁止新能源車進入地庫:擔心自燃;街道辦:已接到多人反映,正在處理中

山西大同一小區(qū)物業(yè)禁止新能源車進入地庫:擔心自燃;街道辦:已接到多人反映,正在處理中

揚子晚報
2025-12-27 23:05:56
王詩齡何超蓮?fù)硌缤颍?6歲王詩齡衣服封印美貌,34歲何超蓮惹眼

王詩齡何超蓮?fù)硌缤颍?6歲王詩齡衣服封印美貌,34歲何超蓮惹眼

妙知
2025-12-27 23:09:53
“漲到可怕了!”有人一覺醒來賺了18萬元!從業(yè)者:史詩級行情,這場面真沒見過

“漲到可怕了!”有人一覺醒來賺了18萬元!從業(yè)者:史詩級行情,這場面真沒見過

每日經(jīng)濟新聞
2025-12-27 17:57:08
美油輪被扣,特朗普急了,向6國發(fā)出邀請,以色列早已按耐不住

美油輪被扣,特朗普急了,向6國發(fā)出邀請,以色列早已按耐不住

云上烏托邦
2025-12-27 15:04:43
紅薯立大功!研究發(fā)現(xiàn):堅持吃紅薯一段時間,或迎來5個好轉(zhuǎn)信號

紅薯立大功!研究發(fā)現(xiàn):堅持吃紅薯一段時間,或迎來5個好轉(zhuǎn)信號

全球軍事記
2025-12-27 17:23:45
連Andrej Karpathy都慌了:AI編程的9級地震正在發(fā)生什么

連Andrej Karpathy都慌了:AI編程的9級地震正在發(fā)生什么

AI進化論花生
2025-12-27 11:26:15
國民黨中央委員選舉結(jié)果出爐,朱立倫狂喜,要拿捏鄭麗文?

國民黨中央委員選舉結(jié)果出爐,朱立倫狂喜,要拿捏鄭麗文?

叮當當科技
2025-12-28 04:57:08
特稿丨“活力勢不可當”——外媒年終報道里的中國

特稿丨“活力勢不可當”——外媒年終報道里的中國

新華社
2025-12-27 19:10:05
德國榴彈炮首曝被擊傷!激戰(zhàn)四年,烏軍僅損失4輛“海馬斯”

德國榴彈炮首曝被擊傷!激戰(zhàn)四年,烏軍僅損失4輛“海馬斯”

鷹眼Defence
2025-12-27 17:36:35
因長得太漂亮,7次拒絕導(dǎo)演要求遭打壓,如今43歲才等到掌聲

因長得太漂亮,7次拒絕導(dǎo)演要求遭打壓,如今43歲才等到掌聲

黎兜兜
2025-12-25 21:57:32
今年死心了,堅決不買農(nóng)村土豬肉!原因太現(xiàn)實,說出來全是淚

今年死心了,堅決不買農(nóng)村土豬肉!原因太現(xiàn)實,說出來全是淚

愛下廚的阿椅
2025-12-25 16:17:17
秦嵐的“蜜桃臀”又上熱搜了!網(wǎng)友:“臀”確實美

秦嵐的“蜜桃臀”又上熱搜了!網(wǎng)友:“臀”確實美

馬拉松跑步健身
2025-12-25 06:30:05
2025-12-28 09:44:49
算法與數(shù)學(xué)之美 incentive-icons
算法與數(shù)學(xué)之美
分享知識,交流思想
5277文章數(shù) 64599關(guān)注度
往期回顧 全部

科技要聞

新任NASA掌門放話:特朗普任期內(nèi)必將重返月球

頭條要聞

四川原副省長葉寒冰被通報:長期出入私人會所聚餐飲酒

頭條要聞

四川原副省長葉寒冰被通報:長期出入私人會所聚餐飲酒

體育要聞

83分鐘絕殺!曼城2-1年度收官:英超6連勝狂飆

娛樂要聞

張昊唯逃稅涉黃風波落幕:法院認定朋友造謠

財經(jīng)要聞

英偉達的收購史

汽車要聞

好音響比大屏更重要?車企開始“聽”用戶的

態(tài)度原創(chuàng)

手機
本地
家居
親子
公開課

手機要聞

小米引領(lǐng)小屏、小米引領(lǐng)大屏,友商都懵了

本地新聞

云游安徽|踏訪池州,讀懂山水間的萬年史書

家居要聞

格調(diào)時尚 智慧品質(zhì)居所

親子要聞

62歲懷二胎真相驚人!醫(yī)生擔憂的惡心一幕曝光!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版