從「會畫畫」到「會思考」：快手可靈團隊提出 T2I-CoReBench，最強模型也難逃推理瓶頸

2025-10-25 21:55:11　來源: 算法與數(shù)學(xué)之美

北京舉報

分享至

文章來源：我愛計算機視覺（ID：aicvml）

當前文本生成圖像（T2I）技術(shù)早已不是畫出來就行。從 Stable Diffusion 到最新的 Nano Banana，模型能輕松生成指令一致的簡單畫面，但要生成繁忙廚房中的 30 余種物品或繩索斷裂后特技演員引發(fā)連鎖反應(yīng)這類復(fù)雜場景，卻常犯漏東西和邏輯錯的毛病。問題出在哪？

近日，快手可靈團隊提出 T2I-CoReBench。首個同時覆蓋 “構(gòu)圖能力” 與 “推理能力” 的全面性、高復(fù)雜度基準，用 1080 個挑戰(zhàn)性 prompt 和 13,500+ 個精細評測問題，戳破了當前 T2I 模型的 “能力假象”。

論文標題： Easier Painting Than Thinking: Can Text-to-Image Models Set the Stage, but Not Direct the Play?
論文地址： https://arxiv.org/abs/2509.03516
代碼地址： https://github.com/KwaiVGI/T2I-CoReBench
項目主頁： https://t2i-corebench.github.io/

一、研究背景與動機

T2I 模型要生成 “靠譜” 的圖像，靠兩大核心能力：（1）構(gòu)圖能力（Composition）：把 prompt 里明確提到的元素（比如冰箱、菜板、島臺等）全部畫對，包括物體、屬性、位置關(guān)系。（2）推理能力（Reasoning）：把 prompt 里隱含的結(jié)果（比如用力擠壓一個番茄 → 番茄擠出汁）推斷出來，生成合理畫面。

但當前的評測基準仍然存在兩個關(guān)鍵問題：（1）不全面：要么只評構(gòu)圖，要么只考推理，沒法整體評估模型又能畫全、又能想對的能力。且推理維度也相對局限，多集中在常識或簡單因果，缺乏對邏輯、歸納、溯因等推理維度的全面覆蓋。（2）太簡單：構(gòu)圖場景一般只包含少量的視覺元素，且推理只考察單步的簡單推理（比如擠番茄 → 出汁），完全達不到真實世界多物體、多因果的復(fù)雜度。

為了解決這兩個問題，研究團隊提出了 T2I-CoReBench，聚焦于評估 T2I 模型兩種基本能力：構(gòu)圖（Composition）與推理（Reasoning）。不僅要 “測全”，還要 “測難”，讓基準的評估結(jié)果真正反映 T2I 模型在實際場景中的表現(xiàn)。

二、T2I-CoReBench: 12 維評估體系 + 高復(fù)雜度場景

T2I-CoReBench 聚焦于評估 T2I 模型兩種基本能力：構(gòu)圖（Composition）與推理（Reasoning）。不同于過去工作靠 “主觀經(jīng)驗” 設(shè)計評測維度，研究團隊從兩個經(jīng)典分類框架出發(fā)，構(gòu)建了嚴謹?shù)脑u估體系，共計12 個維度，把 “構(gòu)圖” 和 “推理” 拆解得明明白白。

構(gòu)圖能力基于場景圖理論：物體、屬性、關(guān)系是共同構(gòu)成畫面的核心要素。同時考慮到文本內(nèi)容在 T2I 應(yīng)用中的重要性（如包裝文字與商標），因而一共定義了多實例（MI）、多屬性（MA）、多關(guān)系（MR）以及文本渲染（TR）四個維度。

推理能力基于哲學(xué)領(lǐng)域經(jīng)典的 “三大推理框架”：演繹推理、歸納推理、溯因推理，細分出 T2I 場景下的關(guān)鍵任務(wù)：

演繹推理的核心邏輯是前提為真，則結(jié)論必為真。在 T2I 場景中表現(xiàn)為模型需嚴格依據(jù) prompt 給定的規(guī)則、狀態(tài)或步驟，生成確定性的視覺畫面。具體定義了邏輯推理（LR）、行為推理（BR）、假設(shè)推理（HR）以及過程推理（PR）四個維度。

歸納推理的核心是從具體例子中提煉通用規(guī)則，再將規(guī)則應(yīng)用到新場景。在 T2I 中表現(xiàn)為模型需先從 prompt 給出的示例中學(xué)會規(guī)律，再基于規(guī)律生成未被明確描述的視覺元素。具體定義了泛化推理（GR）和類比推理（AR）兩個維度。

溯因推理的核心是從已知觀察出發(fā)，重建最可能的隱含原因或背景。在 T2I 中表現(xiàn)為 prompt 僅描述 “結(jié)果狀態(tài)” 或 “局部線索”，模型需調(diào)用常識、物理規(guī)律或因果邏輯，補全畫面中 “未被提及但必須存在的元素”。包括常識推理（CR）和重構(gòu)推理（RR）兩個維度。

為避免模型在簡單場景中 “刷分”，T2I-CoReBench 在 prompt 設(shè)計上特意 “加難度”，使其更貼近真實世界，從而倒逼模型暴露短板：

構(gòu)圖更密集： 構(gòu)圖類 prompt 平均包含 20 個實例/屬性/關(guān)系。例如“擁擠教室”需呈現(xiàn)鉛筆、剪刀、膠棒等 35 個實例。
推理更復(fù)雜： 推理類 prompt 均為“密集推理場景”。如火柴燒斷彈性繩 → 繩子彈倒多米諾骨牌 → 彈珠滾進紅水燒杯，需同時呈現(xiàn) 8 個結(jié)果，而非“一因一果”的簡單邏輯。
評測更精細： 每個 prompt 配套 checklist，例如“擁擠教室”含 35 個是/否問題（如“圖中有鉛筆嗎？”、“圖中有剪刀嗎？”），逐項獨立評分，避免粗粒度評估帶來的模糊性。

最終，T2I-CoReBench 形成 1080 個 prompt 與 13536 個評測問題的規(guī)模，平均 prompt 長度為 170 tokens，checklist 中平均有 12.5 個問題，足夠全面考驗?zāi)Ｐ驮趶?fù)雜場景中的真實能力。

三、評測結(jié)果：構(gòu)圖有進步，推理仍是 “致命短板”

研究團隊在 T2I-CoReBench 上評測了 28 個主流 T2I 模型（21 個開源 + 7 個閉源，涵蓋擴散、自回歸、統(tǒng)一架構(gòu)），結(jié)果既暴露了行業(yè)現(xiàn)狀，也給出了明確方向。

關(guān)鍵發(fā)現(xiàn) 1：T2I 模型構(gòu)圖能力穩(wěn)步提升，但復(fù)雜構(gòu)圖仍遠未解決

在 T2I-CoReBench 的測試中，各模型的構(gòu)圖能力整體穩(wěn)步提升：閉源最優(yōu)模型 Seedream 4.0 得分 86.1，開源最優(yōu) Qwen-Image 亦達到 78.0，已接近先進閉源水平。然而在復(fù)雜場景下，即便是 Seedream 4.0，在多屬性綁定（MA：84.5）和多關(guān)系生成（MR：75.0）方面仍顯吃力，復(fù)雜構(gòu)圖控制依舊是亟待突破的難題。

關(guān)鍵發(fā)現(xiàn) 2：推理能力仍是 T2I 模型的主要瓶頸

盡管構(gòu)圖能力穩(wěn)步提升，但推理仍顯薄弱：Imagen 4 Ultra 推理得分最高，但也僅為 72.9，比構(gòu)圖低 9.5 分，在邏輯與行為推理等維度表現(xiàn)不佳；開源模型差距更為明顯，Qwen-Image 構(gòu)圖達 78.0，卻僅在推理上得 49.3（落后 28.7 分）。這表明當前模型仍難以從提示詞中正確推斷隱含的視覺元素。

關(guān)鍵發(fā)現(xiàn) 3：擴散模型略占優(yōu)勢，指令理解是關(guān)鍵

在開源模型中，擴散模型整體表現(xiàn)略優(yōu)于自回歸和統(tǒng)一范式，但差異不大。更強的指令編碼器顯著提升模型在構(gòu)圖與推理上的表現(xiàn)，例如 Qwen-Image 借助 Qwen2.5-VL 編碼器取得最佳成績。這表明未來應(yīng)優(yōu)先強化編碼器端的指令理解與文本–圖像對齊，同時保持解碼范式的靈活性。

關(guān)鍵發(fā)現(xiàn) 4：提示詞重寫能緩解推理瓶頸，但仍不足以解決多模態(tài)難題

研究團隊評估了提示詞重寫（prompt rewriting）對 T2I 推理的作用，來補償 T2I 模型的原生推理不足。采用 OpenAI o3 在生成前重寫提示詞，顯式補充屬性變化、動作結(jié)果與隱含線索。結(jié)果顯示重寫確可提升推理，原生推理能力較弱的模型受益更大；但僅靠文本推理仍不足：強模型（如 GPT-Image）在多項推理維度依然未過 80。鑒于 T2I 本質(zhì)為多模態(tài)任務(wù)，文本重寫難以克服視覺偏差與文本–圖像耦合（如生成方形輪子的汽車），未來應(yīng)探索更緊密的多模態(tài)交互。

四、未來方向：讓 T2I 模型從 “會畫畫” 到 “會思考”

基于評測結(jié)果，研究團隊提出四個關(guān)鍵研究方向，為后續(xù)發(fā)展指明路徑：

補充復(fù)雜場景數(shù)據(jù)： 現(xiàn)有訓(xùn)練集多為簡單場景，亟需增加 “高密度物體 + 多步推理” 的標注數(shù)據(jù)，以拓展模型的見識與泛化能力；
深度融合 LLM/MLLM： 將大模型的文本理解與推理能力嵌入 T2I 流程，例如先解析 prompt 的邏輯，再驅(qū)動圖像生成；
引入 LLM 式推理范式： 借鑒 CoT 思想，讓模型逐步推演邏輯鏈（如 “水杯掉地 → 水漬 → 杯子傾斜”），再生成對應(yīng)畫面；
探索多模態(tài)交錯推理機制： 在生成過程中交替利用文本與視覺模態(tài)的推理能力，實現(xiàn)跨模態(tài)信息的相互補充與一致性推理，從而提升生成結(jié)果的邏輯性與逼真度。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.