国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

Snapchat提出Canvas-to-Image:一張畫布集成 ID、姿態(tài)與布局

0
分享至



Canvas-to-Image 是一個面向組合式圖像創(chuàng)作的全新框架。它取消了傳統(tǒng)「分散控制」的流程,將身份參考圖、空間布局、姿態(tài)線稿等不同類型的控制信息全部整合在同一個畫布中。用戶在畫布上放置或繪制的內容,會被模型直接解釋為生成指令,簡化了圖像生成過程中的控制流程。



  • 作者:Yusuf Dalva, Guocheng Gordon Qian*, Maya Goldenberg, Tsai-Shien Chen, Kfir Aberman, Sergey Tulyakov, Pinar Yanardag, Kuan-Chieh Jackson Wang
  • 通訊作者:Guocheng Gordon Qian
  • 機構:1Snap Inc. 2UC Merced 3Virginia Tech
  • 論文標題:Canvas-to-Image: Compositional Image Generation with Multimodal Controls
  • 項目主頁:https://snap-research.github.io/canvas-to-image/
  • arXiv:arxiv.org/abs/2511.21691



為什么要把控制方式合并到一張畫布上?

在以往的生成流程中,身份參考、姿態(tài)線稿、布局框等控制方式往往被設計成互不相干的獨立輸入路徑

例如:

  • 身份控制需要貼一張獨立的參考圖;
  • 姿態(tài)控制依賴單獨的骨架圖;
  • 空間布局要再通過另一個模塊或附加輸入傳給模型。

這些控制信號分別從不同通道進入模型,各自擁有獨立的編碼方式與預處理邏輯。結果就是:用戶無法在畫面的同一位置疊加多種控制信息,也無法用「一個局部區(qū)域里的組合提示」來告訴模型該怎么生成。

換句話說,傳統(tǒng)方法的輸入結構是多入口、分散式的,缺乏統(tǒng)一的表達空間。這使得復雜場景的構建流程變得冗長且割裂,用戶只能一次提供一種控制,無法在同一個圖像區(qū)域上同時表達身份 + 姿態(tài) + 位置等組合指令。

Canvas-to-Image 正是針對這一結構性限制提出新的方案:所有控制信號都匯聚到同一張畫布中,由模型在同一個像素空間內理解、組合并執(zhí)行。

核心方法論



(a) 多任務畫布(Multi-Task Canvas)

Canvas-to-Image 設計的關鍵在于——畫布本身既是 UI,也是模型的輸入。畫布中可以出現(xiàn):

  • 一小塊真實人物的圖像,用于指定人物;
  • 一組簡單的骨架線條,用來調節(jié)肢體姿勢;
  • 框選區(qū)域,用來定義人物或物體應處的位置。

這些異構視覺符號中包含的空間關系、語義信息,都由 VLM-Diffusion(基于 Qwen-Image-Edit)直接解析。

在訓練過程中,Canvas-to-Image 的多任務畫布從跨幀圖像集(cross-frame image sets)中自動生成。具體流程如下:

  • 隨機選取一幀作為目標圖像。
  • 從其他幀中抽取目標幀所需要不同的視覺元素(人物片段,背景,姿態(tài)結構,框選區(qū)域等)。
  • 將抽取的視覺元素,按照目標幀中的相應位置,擺放在輸入畫布中。

這樣的跨幀采樣策略會在輸入畫布中自然引入姿態(tài)、光照、表情等方面的顯著差異,使得輸入提示與目標圖像之間不存在可直接復用的像素對應關系。由此,模型無法依賴簡單的拷貝機制來完成訓練任務,而必須學習更抽象的語義關聯(lián)與結構映射。這一設計在訓練階段有效規(guī)避了「抄輸入」的捷徑,從根本上避免了模型在推理階段出現(xiàn) copy-paste 式的生成行為。

為了保持訓練的簡潔性,在每一次訓練中,模型只會接收到一種隨機選定的控制模態(tài)(例如空間布局、姿態(tài)骨架或邊界框)。這樣可以讓模型分別學會獨立理解不同類型的控制提示,并在推理階段自然實現(xiàn)多控制的組合能力。

(b) 多控制推理

在推理階段,Canvas-to-Image 允許用戶在同一張畫布上靈活組合多種控制模態(tài),例如同時提供身份參考區(qū)域、姿態(tài)骨架以及空間布局框,從而實現(xiàn)復雜的多控制場景生成。與傳統(tǒng)「單一路徑控制」的方案不同,用戶無需在不同模塊之間切換或分階段注入條件,而是通過統(tǒng)一畫布一次性給出所有約束信號。

從學習機制上看,模型在訓練過程中僅接觸到單一控制模態(tài)的樣本:每個訓練樣本只隨機激活其中一種控制形式(身份、姿態(tài)或位置),使模型分別掌握對單獨控制信號的理解與對齊能力。值得注意的是,即便在數(shù)據(jù)中并不存在顯式標注的「多模態(tài)組合控制」樣本,模型在推理階段仍然能夠在統(tǒng)一畫布中同時解析并整合多種控制信號:它會在身份參考的約束下保持人物外觀一致性,在姿態(tài)骨架約束下生成結構合理的姿態(tài),并在布局框條件下遵循全局空間排布。

這一現(xiàn)象表明,模型在統(tǒng)一畫布表示的框架下,學到的并不是對某一種控制模態(tài)的簡單記憶,而是對「畫布上局部區(qū)域與目標圖像結構之間關系」的更高層次建模能力。換言之,模型在僅依賴單模態(tài)訓練的前提下,仍然展現(xiàn)出對未見過控制組合的泛化能力:在推理中面對新的、復雜的多控制配置時,依然能夠生成結構一致、外觀可信且各控制信號相互兼容的高質量結果。這也從實驗角度驗證了統(tǒng)一畫布設計在提升組合式可控生成能力方面的有效性。

實驗結果

多控制組合(Multi-Control Composition)

Canvas-to-Image 能夠同時處理身份、姿態(tài)和布局框,而基線方法往往會失敗。Canvas-to-Image 能:

  • 遵循畫布中給定的姿態(tài)與空間約束;
  • 保持人物外觀與參考圖一致;
  • 在多種控制疊加時維持整體畫面的連貫性與合理性。



身份 + 物體組合

當畫布中同時包含人物提示和物體提示時,Canvas-to-Image 不會把兩者當作獨立元素簡單并置。模型能夠理解兩者之間應有的空間與語義關系,因而會生成具有自然接觸、合理互動的場景。

此外,在多種控制疊加的情況下,Canvas-to-Image 仍能保持:

  • 人物外觀與參考圖一致;
  • 物體的形狀、材質和語義保持穩(wěn)定;
  • 人物與物體之間的空間一致性與幾何邏輯不被破壞。

因此即便在復雜的組合控制設置下,生成的畫面也能呈現(xiàn)出連貫、可信的互動效果,而不是常見的「貼圖式合成感」。



多層次場景:前景 + 背景

在給定一張背景圖的情況下,Canvas-to-Image 可以通過放置參考圖或標注邊界框的方式,將人物或物體自然地融入場景。模型會根據(jù)畫布中的提示自動調整空間關系,使插入元素在位置、光照和整體氛圍上與背景保持一致,呈現(xiàn)近乎原生的融合效果。



消融研究

我們系統(tǒng)地測試了當逐步添加控制時模型的表現(xiàn):

  • 僅身份控制:模型能生成人物,但姿態(tài)和位置隨機;
  • + 姿態(tài)控制:模型學會同時控制身份和姿態(tài);
  • + 空間布局:模型能完全控制身份、姿態(tài)和位置。

關鍵發(fā)現(xiàn):雖然訓練時使用單任務畫布,但模型自然學會了在推理時組合多種控制——這種涌現(xiàn)能力驗證了我們的設計理念。



總結

Canvas-to-Image 的核心價值是把多模態(tài)的生成控制方式全部圖形化,讓復雜場景的構建回歸到最直觀的方式:在畫布上擺放、畫、框,就能讓模型生成對應的結構化、真實感強的畫面。統(tǒng)一畫布 + 多模態(tài)控制的范式,將有望成為下一代創(chuàng)作工具的基礎界面形態(tài)。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
再出名有啥用?51歲老來得女的劉德華,如今還是為女兒操碎了心

再出名有啥用?51歲老來得女的劉德華,如今還是為女兒操碎了心

荒野老五
2026-04-22 03:39:25
醫(yī)生調查發(fā)現(xiàn):餓著睡覺的人,會比吃宵夜的人更容易患腦梗?

醫(yī)生調查發(fā)現(xiàn):餓著睡覺的人,會比吃宵夜的人更容易患腦梗?

芹姐說生活
2026-04-21 18:59:09
2:1取勝阿森納之后,曼城馬上就遭到一個致命暴擊,英超爭冠懸了

2:1取勝阿森納之后,曼城馬上就遭到一個致命暴擊,英超爭冠懸了

零度眼看球
2026-04-22 06:38:02
嚴打來了,5月起8種行為直接入刑,退休老人需格外注意!

嚴打來了,5月起8種行為直接入刑,退休老人需格外注意!

小談食刻美食
2026-04-21 07:52:09
健身房被罵后續(xù):正臉照被扒,女子追到樓下繼續(xù)罵 揚言什么都不怕

健身房被罵后續(xù):正臉照被扒,女子追到樓下繼續(xù)罵 揚言什么都不怕

削桐作琴
2026-04-21 17:14:02
斯諾克世錦賽太殘酷了:隨著范爭一9-10,已有4名中國選手止步32強

斯諾克世錦賽太殘酷了:隨著范爭一9-10,已有4名中國選手止步32強

俯身沖頂
2026-04-22 06:56:40
廣州一大山遭大規(guī)模私挖水晶,樹根被掏空、巖石裸露、遍布坑洞……多部門聯(lián)合介入

廣州一大山遭大規(guī)模私挖水晶,樹根被掏空、巖石裸露、遍布坑洞……多部門聯(lián)合介入

封面新聞
2026-04-21 19:28:10
被網友們的旅行智慧驚艷到!思路打開后,那叫一個實用,學到了

被網友們的旅行智慧驚艷到!思路打開后,那叫一個實用,學到了

室內設計師有料兒
2026-04-21 20:45:45
最高院:小貸公司通過互聯(lián)網異地發(fā)放貸款,第三方大量受讓不良債權并取得網絡仲裁裁決,能否申請執(zhí)行?

最高院:小貸公司通過互聯(lián)網異地發(fā)放貸款,第三方大量受讓不良債權并取得網絡仲裁裁決,能否申請執(zhí)行?

新浪財經
2026-04-21 18:26:38
白人女性與黑人女性的體味差異,網友真實分享引發(fā)熱議

白人女性與黑人女性的體味差異,網友真實分享引發(fā)熱議

特約前排觀眾
2025-12-22 00:20:06
被蘋果、華為干倒的諾基亞,又殺回來了!

被蘋果、華為干倒的諾基亞,又殺回來了!

大佬灼見
2026-04-19 10:28:53
中超積分榜:川渝兩隊繼續(xù)強勢領跑,國安升至第10,三鎮(zhèn)轉正

中超積分榜:川渝兩隊繼續(xù)強勢領跑,國安升至第10,三鎮(zhèn)轉正

懂球帝
2026-04-21 22:45:07
功虧一簣!范爭一遭墨菲絕殺無緣世錦賽16強,中國小將遭遇兩連敗

功虧一簣!范爭一遭墨菲絕殺無緣世錦賽16強,中國小將遭遇兩連敗

世界體壇觀察家
2026-04-22 06:50:47
觸目驚心!央視曝光上海一中醫(yī)館:從醫(yī)生到病人全是演員!

觸目驚心!央視曝光上海一中醫(yī)館:從醫(yī)生到病人全是演員!

人間頌
2026-04-20 10:16:00
明起停牌!600323,重要資產收購

明起停牌!600323,重要資產收購

中國基金報
2026-04-21 22:17:44
求求這部劇的編劇,別再費心刻畫“窮人”了,真沒窮人敢這么豪橫

求求這部劇的編劇,別再費心刻畫“窮人”了,真沒窮人敢這么豪橫

八卦南風
2026-04-21 18:12:41
本想秀恩愛,沒想到成笑柄,自毀體面的郭富城,證實熊黛林沒說謊

本想秀恩愛,沒想到成笑柄,自毀體面的郭富城,證實熊黛林沒說謊

阿郎娛樂
2026-04-22 03:43:18
“齟齬”不讀“jū chǐ”也不讀“zǔ wú”,這個詞是什么意思?

“齟齬”不讀“jū chǐ”也不讀“zǔ wú”,這個詞是什么意思?

未央看點
2026-04-22 00:19:42
兒子早戀被叫家長!必須形象管理,畢竟第一次見親家,評論區(qū)炸鍋

兒子早戀被叫家長!必須形象管理,畢竟第一次見親家,評論區(qū)炸鍋

夜深愛雜談
2026-04-21 20:06:20
中國鐵礦石談判大獲全勝!“鎖喉”必和必拓:不降價?那就別賣了

中國鐵礦石談判大獲全勝!“鎖喉”必和必拓:不降價?那就別賣了

奇思妙想生活家
2026-04-21 17:48:10
2026-04-22 09:15:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12822文章數(shù) 142633關注度
往期回顧 全部

科技要聞

創(chuàng)造4萬億帝國、訪華20次,庫克留下了什么

頭條要聞

牛彈琴:伊朗發(fā)出讓人毛骨悚然的警告 玩的就是心跳

頭條要聞

牛彈琴:伊朗發(fā)出讓人毛骨悚然的警告 玩的就是心跳

體育要聞

一到NBA季后賽,四屆DPOY就成了主角

娛樂要聞

宋承炫曬寶寶B超照,宣布老婆懷孕

財經要聞

伊朗拒絕出席 特朗普宣布延長停火期限

汽車要聞

全新坦克700正式上市 售價42.8萬-50.8萬元

態(tài)度原創(chuàng)

時尚
本地
手機
家居
房產

頂流復工,已判若兩人

本地新聞

春色滿城關不?。座N梅浪漫盛放,吳山藏了一片四月雪

手機要聞

華為Pura90 Pro Max出廠沒貼膜!余承東自信回應:沒必要

家居要聞

詩意光影 窺見自然之境

房產要聞

年薪40-50萬!海南地產圈還在猛招人

無障礙瀏覽 進入關懷版