国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

南洋理工等提出Puffin:像攝影師一樣思考,統(tǒng)一相機(jī)理解與生成

0
分享至

文章來(lái)源:我愛(ài)計(jì)算機(jī)視覺(jué)(ID:aicvml)

最近,AI在空間感知和內(nèi)容生成方面的能力又有了新突破。來(lái)自新加坡南洋理工大學(xué)、商湯科技、密西根大學(xué)和馬普所的研究者們聯(lián)手,帶來(lái)了一個(gè)名為 Puffin 的統(tǒng)一多模態(tài)模型。它巧妙地將兩個(gè)看似獨(dú)立的任務(wù)——從圖像中理解相機(jī)參數(shù)(比如拍攝角度、焦距)和根據(jù)相機(jī)參數(shù)生成圖像——融合在了一起。這讓AI不僅能“看懂”一張照片是怎么拍的,還能化身“攝影師”,從任意指定的視角“拍”出新照片。

這篇論文的核心亮點(diǎn)在于提出了一種“用相機(jī)思考(Thinking with Camera)”的新范式。簡(jiǎn)單來(lái)說(shuō),就是把原本冰冷的、數(shù)字化的相機(jī)參數(shù)(比如旋轉(zhuǎn)角度、視野大?。┓g成攝影師口中的“行話”(比如“荷蘭角傾斜”、“廣角鏡頭”、“低角度拍攝”)。這樣一來(lái),大型語(yǔ)言模型就能更好地理解和推理這些空間信息,像一個(gè)經(jīng)驗(yàn)豐富的攝影師一樣思考,從而在理解和生成任務(wù)上都表現(xiàn)得更出色。



  • 論文標(biāo)題 : Thinking with Camera: A Unified Multimodal Model for Camera-Centric Understanding and Generation

  • 作者 : Kang Liao, Size Wu, Zhonghua Wu, Linyi Jin, Chao Wang, Yikai Wang, Fei Wang, Wei Li, Chen Change Loy

  • 機(jī)構(gòu) : 新加坡南洋理工大學(xué),商湯科技,密西根大學(xué)、Max-Planck Institute for Informatics

  • 論文地址 : https://arxiv.org/abs/2510.08673

  • 項(xiàng)目主頁(yè) : https://kangliao929.github.io/projects/puffin/

  • 代碼倉(cāng)庫(kù) : https://github.com/kangliao929/puffin

背景:從“各自為戰(zhàn)”到“統(tǒng)一戰(zhàn)場(chǎng)”

在過(guò)去,AI處理與相機(jī)相關(guān)的問(wèn)題時(shí),通常是“兵分兩路”。

一條路是 相機(jī)為中心的理解(Camera-Centric Understanding),比如計(jì)算機(jī)視覺(jué)里的相機(jī)姿態(tài)估計(jì),它的任務(wù)是從一張給定的圖片中,反推出拍攝這張照片時(shí)相機(jī)的位置、朝向、焦距等參數(shù)。這對(duì)于三維重建、AR/VR等應(yīng)用至關(guān)重要。

另一條路是 相機(jī)為中心的生成(Camera-Centric Generation),比如計(jì)算機(jī)圖形學(xué)和AIGC里的可控圖像生成。我們給模型指定一個(gè)虛擬的相機(jī)位姿,讓它生成該視角下的圖像。這在電影特效、游戲場(chǎng)景生成、虛擬試衣等領(lǐng)域大有可為。

雖然這兩個(gè)任務(wù)都圍繞“相機(jī)”展開(kāi),但它們就像一枚硬幣的兩面,長(zhǎng)期以來(lái)被分開(kāi)研究,各自發(fā)展。研究者們敏銳地意識(shí)到,如果能將兩者統(tǒng)一起來(lái),不僅能讓模型的能力更全面,還能讓理解和生成任務(wù)相互促進(jìn),實(shí)現(xiàn)“1+1>2”的效果。Puffin模型正是在這樣的背景下應(yīng)運(yùn)而生。


方法:“像語(yǔ)言一樣思考相機(jī)”

Puffin模型的核心思想是構(gòu)建一個(gè)統(tǒng)一的框架,能夠同時(shí)學(xué)習(xí)相機(jī)理解和生成任務(wù)。下面我們來(lái)看看它是如何實(shí)現(xiàn)的。


“用相機(jī)思考”范式

CV君認(rèn)為,這篇論文最有趣和最具啟發(fā)性的地方,就是這個(gè)“用相機(jī)思考”的范式。傳統(tǒng)方法通常直接處理數(shù)值化的相機(jī)參數(shù),或者學(xué)習(xí)它們的幾何表示,但這些對(duì)于大型語(yǔ)言模型(LMM)來(lái)說(shuō)并不“友好”。

Puffin另辟蹊徑,它將相機(jī)參數(shù)與專業(yè)的攝影術(shù)語(yǔ)聯(lián)系起來(lái)。例如,它不直接處理-45°到45°的相機(jī)側(cè)傾角(Roll),而是將其映射為“荷蘭角(Dutch Angle)”;不直接處理視野(FoV),而是將其映射為“標(biāo)準(zhǔn)”、“廣角”、“長(zhǎng)焦”等術(shù)語(yǔ)。通過(guò)這種方式,模型在進(jìn)行相機(jī)參數(shù)預(yù)測(cè)時(shí),實(shí)際上是在進(jìn)行一種空間推理:它會(huì)分析圖像中的視覺(jué)線索(比如地平線的傾斜、物體的透視關(guān)系),然后像人類一樣思考“嗯,這張圖看起來(lái)有點(diǎn)歪,應(yīng)該是用了荷蘭角拍攝”,最終在 標(biāo)簽中記錄推理過(guò)程,并在 標(biāo)簽中給出具體的參數(shù)預(yù)測(cè)。


這種方法巧妙地將LMM強(qiáng)大的語(yǔ)言推理能力引入到幾何問(wèn)題中,讓模型不僅知其然(預(yù)測(cè)出參數(shù)),更知其所以然(理解參數(shù)背后的視覺(jué)表現(xiàn))。

Puffin-4M:大規(guī)模訓(xùn)練數(shù)據(jù)

為了訓(xùn)練Puffin這樣強(qiáng)大的模型,一個(gè)大規(guī)模、高質(zhì)量的數(shù)據(jù)集必不可少。為此,研究者們構(gòu)建了 Puffin-4M 數(shù)據(jù)集,它包含了 400萬(wàn)個(gè)“視覺(jué)-語(yǔ)言-相機(jī)”三元組。這個(gè)數(shù)據(jù)集覆蓋了各種場(chǎng)景和相機(jī)配置,為模型提供了豐富的學(xué)習(xí)素材。


數(shù)據(jù)集的構(gòu)建流程也很有意思,它結(jié)合了現(xiàn)有的多個(gè)360°全景數(shù)據(jù)集,通過(guò)渲染生成帶有精確相機(jī)參數(shù)的圖像,并利用大型語(yǔ)言模型自動(dòng)生成描述性文本和前文提到的“思考過(guò)程”文本。


與之前的數(shù)據(jù)集相比,Puffin-4M在規(guī)模、多樣性以及是否包含空間推理文本方面,都有著顯著優(yōu)勢(shì)。


統(tǒng)一的訓(xùn)練策略

Puffin在一個(gè)統(tǒng)一的框架中,混合了多種訓(xùn)練任務(wù),包括相機(jī)參數(shù)理解、可控圖像生成、圖像描述等。通過(guò)精心設(shè)計(jì)的訓(xùn)練配方,模型在各項(xiàng)能力上都得到了充分的鍛煉。


實(shí)驗(yàn)效果:全面超越專用模型

是騾子是馬,拉出來(lái)遛遛。Puffin在相機(jī)理解和可控生成兩個(gè)核心任務(wù)上,都表現(xiàn)出了卓越的性能,甚至超越了許多為單一任務(wù)專門設(shè)計(jì)的模型。

相機(jī)理解能力

在MegaDepth、TartanAir等多個(gè)公開(kāi)基準(zhǔn)數(shù)據(jù)集上,Puffin在預(yù)測(cè)相機(jī)內(nèi)參(焦距)和外參(旋轉(zhuǎn)、平移)方面,其誤差都顯著低于之前的方法。這證明了“用相機(jī)思考”范式的有效性。


可控生成能力

在相機(jī)可控的圖像生成任務(wù)上,Puffin同樣表現(xiàn)出色。給定文本描述和目標(biāo)相機(jī)參數(shù),它生成的圖像不僅內(nèi)容準(zhǔn)確,而且相機(jī)視角也控制得非常精準(zhǔn)。從下圖的誤差圖(Error Map)可以看出,Puffin生成的圖像在相機(jī)姿態(tài)上與目標(biāo)真值的偏差(Median Error)遠(yuǎn)小于其他多模態(tài)模型。


定量結(jié)果也證實(shí)了這一點(diǎn),無(wú)論是在相機(jī)參數(shù)的直接對(duì)比還是在圖像相似度指標(biāo)上,Puffin都取得了最佳或次佳的成績(jī)。


下圖直觀地展示了Puffin生成的相機(jī)參數(shù)分布與真實(shí)值(Ground Truth)的分布高度吻合,而之前的方法則有較大偏差。


豐富的應(yīng)用潛力

得益于其統(tǒng)一的設(shè)計(jì)和強(qiáng)大的指令遵循能力,Puffin還能解鎖許多有趣的應(yīng)用:

  • 空間想象 :給定一張圖片,想象從不同視角(比如更高、更左)看會(huì)是什么樣子。

  • 世界探索 :像玩FPS游戲一樣,在場(chǎng)景中“走動(dòng)”,從不同位置生成連續(xù)的視圖,甚至可以用于三維重建。

  • 攝影指導(dǎo) :分析一張照片,并給出如何改進(jìn)構(gòu)圖和拍攝參數(shù)的建議。

  • 3D對(duì)象植入 :準(zhǔn)確預(yù)測(cè)出真實(shí)照片的相機(jī)參數(shù),從而可以將虛擬的3D模型無(wú)縫地植入到場(chǎng)景中。

總結(jié)

總而言之,Puffin模型通過(guò)“用相機(jī)思考”這一創(chuàng)新范式,成功地統(tǒng)一了相機(jī)為中心的理解與生成任務(wù),為實(shí)現(xiàn)更全面的空間智能AI邁出了堅(jiān)實(shí)的一步。作者已經(jīng)開(kāi)源了代碼和數(shù)據(jù)集構(gòu)建流程,這無(wú)疑將極大地推動(dòng)相關(guān)領(lǐng)域的研究。

你覺(jué)得這個(gè)技術(shù)未來(lái)會(huì)用在哪些場(chǎng)景?一起來(lái)聊聊吧!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
裝逼撞到你擅長(zhǎng)的領(lǐng)域是啥體驗(yàn)?網(wǎng)友:我曾經(jīng)也干過(guò)這種事呀

裝逼撞到你擅長(zhǎng)的領(lǐng)域是啥體驗(yàn)?網(wǎng)友:我曾經(jīng)也干過(guò)這種事呀

夜深愛(ài)雜談
2025-12-21 17:57:28
又一百年巨頭塌了!從技術(shù)神話到貼牌代工,網(wǎng)友:買了個(gè)牌子殼!

又一百年巨頭塌了!從技術(shù)神話到貼牌代工,網(wǎng)友:買了個(gè)牌子殼!

青眼財(cái)經(jīng)
2025-11-18 23:16:47
定居美國(guó)13年回國(guó)撈金遭驅(qū)逐,52歲被笑話

定居美國(guó)13年回國(guó)撈金遭驅(qū)逐,52歲被笑話

白日追夢(mèng)人
2025-12-24 04:30:11
宗慶后被曝有7子,看了宗馥莉?yàn)樗⒌哪贡?,才知道她早就布局?>
    </a>
        <h3>
      <a href=麥大人
2025-07-18 12:05:16
紫牛頭條|下班遭車禍,接受公司賠償后他發(fā)現(xiàn)一份意外險(xiǎn)保單被公司隱瞞

紫牛頭條|下班遭車禍,接受公司賠償后他發(fā)現(xiàn)一份意外險(xiǎn)保單被公司隱瞞

揚(yáng)子晚報(bào)
2025-12-23 09:06:09
南京博物院又揭大瓜,前文物局局長(zhǎng)曾問(wèn):賣幾個(gè)兵馬俑行不行?

南京博物院又揭大瓜,前文物局局長(zhǎng)曾問(wèn):賣幾個(gè)兵馬俑行不行?

攬星河的筆記
2025-12-22 18:12:17
突發(fā)!法拉利撞上護(hù)欄后迅速起火,知名游戲大佬被困車內(nèi)身亡,警方通報(bào)!他被譽(yù)為“《使命召喚》之父”,眾多同行與玩家哀悼

突發(fā)!法拉利撞上護(hù)欄后迅速起火,知名游戲大佬被困車內(nèi)身亡,警方通報(bào)!他被譽(yù)為“《使命召喚》之父”,眾多同行與玩家哀悼

每日經(jīng)濟(jì)新聞
2025-12-23 15:06:07
受中國(guó)004核航母刺激太大,法國(guó)掀桌子了,砸鍋賣鐵也要建新航母

受中國(guó)004核航母刺激太大,法國(guó)掀桌子了,砸鍋賣鐵也要建新航母

云舟史策
2025-12-24 07:22:16
CBA歷史第一人!新秀直接打成本土得分王,球迷:讓混子情何以堪

CBA歷史第一人!新秀直接打成本土得分王,球迷:讓混子情何以堪

弄月公子
2025-12-23 23:10:43
錢多有什么用?42歲離婚無(wú)兒無(wú)女的尼格買提,走上了另外一條道路

錢多有什么用?42歲離婚無(wú)兒無(wú)女的尼格買提,走上了另外一條道路

古事尋蹤記
2025-12-20 07:13:47
南京博物院盜賣文物,捐贈(zèng)后人追查十年遭打碼“證據(jù)”糊弄,失蹤五件國(guó)寶還有多少黑幕

南京博物院盜賣文物,捐贈(zèng)后人追查十年遭打碼“證據(jù)”糊弄,失蹤五件國(guó)寶還有多少黑幕

爆角追蹤
2025-12-18 15:36:33
他用藥7年換來(lái)肌肉,卻失去了X欲!完美肌肉背后的秘密:98%都在上科技...

他用藥7年換來(lái)肌肉,卻失去了X欲!完美肌肉背后的秘密:98%都在上科技...

健身迷
2025-12-22 10:19:04
轉(zhuǎn)告父母:這6種病屬于老年病,過(guò)度治療反而傷身,安然接受

轉(zhuǎn)告父母:這6種病屬于老年病,過(guò)度治療反而傷身,安然接受

讀懂世界歷史
2025-12-23 20:31:37
卷走53億!又一大佬帶全家跑路,欠中國(guó)銀行20億,投資者血本無(wú)歸

卷走53億!又一大佬帶全家跑路,欠中國(guó)銀行20億,投資者血本無(wú)歸

以茶帶書(shū)
2025-12-09 23:33:58
向大陸交底、對(duì)內(nèi)攤牌,鄭麗文把最怕被說(shuō)破的那層窗戶紙,捅穿了

向大陸交底、對(duì)內(nèi)攤牌,鄭麗文把最怕被說(shuō)破的那層窗戶紙,捅穿了

科普100克克
2025-12-24 00:10:32
哈佛大學(xué)研究:活過(guò)90歲的人29項(xiàng)共同特征

哈佛大學(xué)研究:活過(guò)90歲的人29項(xiàng)共同特征

尚曦讀史
2025-12-06 08:27:08
廣東5連勝,杜鋒:在廣東打球是幸福的!

廣東5連勝,杜鋒:在廣東打球是幸福的!

帶你領(lǐng)略快樂(lè)真諦
2025-12-24 02:50:13
黃金狂飆,一種交易正在悄悄進(jìn)行

黃金狂飆,一種交易正在悄悄進(jìn)行

鳳凰網(wǎng)財(cái)經(jīng)
2025-12-23 09:08:05
美國(guó)外交開(kāi)始大洗牌

美國(guó)外交開(kāi)始大洗牌

陸棄
2025-12-23 08:25:03
肥腸再次成為關(guān)注對(duì)象!醫(yī)生發(fā)現(xiàn):常吃肥腸,身體會(huì)出現(xiàn)6大變化

肥腸再次成為關(guān)注對(duì)象!醫(yī)生發(fā)現(xiàn):常吃肥腸,身體會(huì)出現(xiàn)6大變化

看世界的人
2025-12-04 10:51:31
2025-12-24 08:47:00
算法與數(shù)學(xué)之美 incentive-icons
算法與數(shù)學(xué)之美
分享知識(shí),交流思想
5276文章數(shù) 64597關(guān)注度
往期回顧 全部

科技要聞

慘烈90分鐘!快手驚魂:遭遇最強(qiáng)黑產(chǎn)攻擊

頭條要聞

與多名女子在泳池大尺度照片披露 克林頓最新回應(yīng)

頭條要聞

與多名女子在泳池大尺度照片披露 克林頓最新回應(yīng)

體育要聞

楊瀚森連續(xù)5場(chǎng)DNP!開(kāi)拓者遭活塞雙殺

娛樂(lè)要聞

朱孝天回應(yīng)阿信感謝,自曝沒(méi)再收到邀約

財(cái)經(jīng)要聞

快手到底惹了誰(shuí)?

汽車要聞

四款新車集中發(fā)布 星途正式走進(jìn)3.0時(shí)代

態(tài)度原創(chuàng)

時(shí)尚
數(shù)碼
親子
手機(jī)
健康

歲月不敗美人,50歲銀發(fā)的她們也太會(huì)穿了

數(shù)碼要聞

華為鴻蒙智選小豚當(dāng)家智能攝像頭鯨瞳Max現(xiàn)身,功能強(qiáng)大價(jià)格揭曉

親子要聞

嚴(yán)禁引入第三方,管住幼兒園亂收費(fèi)|新京報(bào)快評(píng)

手機(jī)要聞

三星籌備“寬折疊”新機(jī) 對(duì)標(biāo)蘋果2026年折疊iPhone

這些新療法,讓化療不再那么痛苦

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版