国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

對(duì)話VAST曹炎培:2秒才是3D生成本該有的速度

0
分享至

完全零基礎(chǔ),自己手搓一個(gè)權(quán)游里龍媽的3D模型,需要多久?

2秒



接著再給它貼上紋理,大概10秒以內(nèi),我就無痛得到了一個(gè)3D龍媽。



不僅快,而且細(xì)節(jié)豐富、拓?fù)涓蓛?、布線穩(wěn)定。

同樣,只甩一張參考圖,我還可以快速生成《底特律:變?nèi)恕防锏目导{。



這是貼上紋理之后的效果:人物的面部表情,衣服的細(xì)節(jié),都跟參考圖里別無二致。



或者我還可以輸入提示詞:

一位森林精靈角色,身穿樹葉服飾,腳踩靴子,背著小挎包。

然后再給它一張圖做參考:



接著,我就得到了一個(gè)非??蓯鄣纳中【`!



仔細(xì)看看,從人物發(fā)型、面部再到服飾,每一處細(xì)節(jié)都被精準(zhǔn)刻畫了出來。

這就是VAST在Tripo Studio中最新上線的Smart Mesh功能,也是放眼全球斷層領(lǐng)先的能力。

它可以實(shí)現(xiàn)僅靠提示詞或參考圖,2秒內(nèi)極速生成3D模型,水平堪比專業(yè)建模師。

Smart Mesh背后的模型是VAST最新發(fā)布的Tripo P1.0,它取得了一項(xiàng)驚人的?業(yè)范式級(jí)突破:?次在原?三維空間中實(shí)現(xiàn)概率?成,從底層重構(gòu)了AI 3D?成的算法架構(gòu)

如果你追求極致精度,那么VAST最近更新的另一款模型——Tripo H3.1可以幫上你的忙。作為高精模型,它的每一次迭代都做到了行業(yè)SOTA,更新后的版本在輸入對(duì)齊、結(jié)構(gòu)精度、貼圖質(zhì)量等核心指標(biāo)上又有了進(jìn)一步提升。



就在上周,VAST還宣布完成5000萬美元A輪融資,領(lǐng)投方為阿里和恒旭資本,元禾璞華、BV百度風(fēng)投、東方嘉富跟投,老股東春華創(chuàng)投和北京市人工智能產(chǎn)業(yè)投資基金也在繼續(xù)加注。

手握突破性技術(shù)和5000萬美元融資,VAST向他們成立之初的愿景又邁進(jìn)了一步——讓每個(gè)人都能創(chuàng)造屬于自己的互動(dòng)世界。

借此機(jī)會(huì),量子位也與VAST首席科學(xué)家曹炎培展開了一次對(duì)話,聊聊他們?yōu)槭裁匆瞥鯰ripo P1.0、它的范式重構(gòu)體現(xiàn)在什么地方,以及VAST在UGC和世界模型領(lǐng)域的下一步動(dòng)向。



曹炎培告訴我們,P1.0模型對(duì)傳統(tǒng)AI 3D底層范式的“重構(gòu)”體現(xiàn)在兩方面:

第一,業(yè)內(nèi)主流的高模生成流程是將多邊形網(wǎng)格轉(zhuǎn)化成高模的表達(dá)形式,比如SDF,或者VAST之前提出的SparseFlex,進(jìn)而生成高模。如果想用在輕量級(jí)應(yīng)用中,還需要減面和重拓?fù)洹?strong>這其實(shí)是在原始數(shù)據(jù)和最終想要的資產(chǎn)之間繞了遠(yuǎn)路

第二,行業(yè)內(nèi)過去一段時(shí)間存在一個(gè)很大的誤區(qū):由于語言模型取得了巨大的成功,使得研究員們會(huì)更愿意借鑒自回歸建模和生成模型,即“強(qiáng)行”將3D數(shù)據(jù)序列化,將其變成一個(gè)個(gè)排序后的token。這實(shí)際上非常反直覺,也違背了3D空間的各向同性。

簡單來說,在對(duì)token排列定義順序后,排序會(huì)讓幾何圖形之間產(chǎn)生因果,待要生成的幾何將僅依賴于之前已經(jīng)生成出來的信號(hào)。但三維空間本身并沒有絕對(duì)的前后左右之分,它是全對(duì)稱的,沒有一種天然的方式對(duì)其中的信號(hào)進(jìn)行排序。

序列生成的方法不僅反直覺、不自然,也打破了三維數(shù)據(jù)本身的規(guī)律,無法取得好的生成效果和速度:

如果想在秒級(jí)內(nèi)生成高質(zhì)量網(wǎng)格,不可能走自回歸路線——要生成幾萬個(gè)多邊形,以當(dāng)下的算力和范式不可能在一秒內(nèi)自回歸生成數(shù)萬token。

而Tripo P1.0的關(guān)鍵技術(shù)創(chuàng)新,就是采用“整體生成”的方法:對(duì)三角形或多邊形的點(diǎn)線面進(jìn)行統(tǒng)一的概率建模,生成出來的模型同時(shí)具有幾何和拓?fù)浣Y(jié)構(gòu)。

基于這一方法,Tripo P1.0可以做到2秒內(nèi)極速生成。曹炎培表示,傳統(tǒng)方法慢得不合理,生成三維網(wǎng)格信號(hào)本就不需要幾百秒的時(shí)間,而VAST只是讓它進(jìn)入了對(duì)的路徑,達(dá)到了本該有的速度

一些用戶試用Tripo P1.0后給出的評(píng)價(jià)是:它生成出的模型,已經(jīng)幾乎和經(jīng)驗(yàn)豐富的專業(yè)建模師設(shè)計(jì)出來的模型毫無區(qū)別。

而曹炎培透露,VAST內(nèi)部評(píng)估,在部分細(xì)節(jié)展現(xiàn)及造型要求非常嚴(yán)格的工業(yè)場景,模型還有提升空間,但整體已經(jīng)達(dá)到了多年工作經(jīng)驗(yàn)設(shè)計(jì)師的九成水平







我們對(duì)P1.0的期待,也是它實(shí)際能做到的,是讓更多以前不了解什么是3D模型的用戶跳過對(duì)建模工具的學(xué)習(xí),甚至不需要知道世界上有建模工具的存在,就可以得到一個(gè)在目標(biāo)場景里、符合用戶意圖的3D資產(chǎn)。
當(dāng)獲取內(nèi)容的門檻降到無限低之后,UGC平臺(tái)自然就會(huì)爆發(fā)。AI時(shí)代限制大家創(chuàng)作的不再是技能或工具本身,只要有想象力,就有各種各樣的模型和AI可以幫助完成創(chuàng)作。

曹炎培透露,今年VAST將推出自己的UGC 3D平臺(tái)。H系列和P系列模型負(fù)責(zé)創(chuàng)造世界中的實(shí)體,世界模型及代碼生成模型負(fù)責(zé)模擬這些實(shí)體隨時(shí)間的變化和空間交互。在這些計(jì)算能力之上,他們希望打造一個(gè)比Roblox和Minecraft門檻更低的AI原生UGC互動(dòng)平臺(tái)

在這個(gè)UGC平臺(tái)上,用戶可以創(chuàng)作和瀏覽可互動(dòng)的3D內(nèi)容,并在社區(qū)分享與傳播,類似一個(gè)“3D版TikTok”。

另外,曹炎培也向我們透露了VAST研究世界模型的最新進(jìn)展:很快會(huì)有demo公布,它會(huì)是一個(gè)具備交互能力的世界。

在曹炎培看來,Tripo P1.0的發(fā)布,標(biāo)志著AI 3D?模型算法范式正式進(jìn)?2.0階段。他認(rèn)為,AI 3D的1.0時(shí)代可以定義為追求視覺或幾何擬真的時(shí)代:

過去幾年大家追求的,就是讓AI生成的3D看起來更真實(shí)更細(xì)節(jié),包括紋理層面和幾何層面都要精細(xì)。技術(shù)路線經(jīng)歷了幾波發(fā)展,但歸根到底追求的是“看起來好”。

而2.0時(shí)代具備三個(gè)特征:第一,原生資產(chǎn),不需要再做復(fù)雜轉(zhuǎn)化;第二,生成的資產(chǎn)具有功能性,具備可以參與交互和運(yùn)動(dòng)的特性,比如機(jī)器人中的關(guān)節(jié)結(jié)構(gòu)或動(dòng)畫制作中的骨骼結(jié)構(gòu);第三,打破速度、質(zhì)量、可用性的“不可能三角”

這三點(diǎn),Tripo P1.0都可以做到。

關(guān)鍵技術(shù)的創(chuàng)新和突破,也給足了VAST底氣。當(dāng)被問及“VAST目前處于行業(yè)什么地位”時(shí),曹炎培毫不猶豫地表示:現(xiàn)在VAST處在全球3D領(lǐng)域全棧領(lǐng)軍的位置

在生成質(zhì)量方面,H3.1是此時(shí)此刻最好的高模生成模型。在底層思考和整個(gè)范式重構(gòu)方面,我們不只是率先提出原生網(wǎng)格生成的思想,更是快速地把它做成了大家可以在產(chǎn)品上體驗(yàn)的P1.0模型,定義了極速生成的速度和性能天花板。
某種程度上它確立了現(xiàn)代3D生成和引擎工具、圖形標(biāo)準(zhǔn)之間的一種底層連接,背后是定義和發(fā)明新的原生3D表征的能力,這在整個(gè)賽道是很強(qiáng)的話語權(quán)。

以下是量子位與曹炎培的部分對(duì)話實(shí)錄,在不改變?cè)獾幕A(chǔ)上,進(jìn)行了適當(dāng)?shù)恼砗蜐櫳?,各位enjoy~

Tripo P1.0:重構(gòu)AI 3D底層范式

量子位:過去幾年,Tripo的H系列不斷迭代,在行業(yè)中也達(dá)到了SOTA水平,為什么團(tuán)隊(duì)現(xiàn)在仍然決定從底層重新設(shè)計(jì)一套P系列模型?最初是基于什么問題重新思考3D生成算法架構(gòu)的?

曹炎培:先講一下H系列的歷史和迭代。早期3D生成能力普遍一般時(shí),大家首先追求外觀上盡可能高質(zhì)量、可用,和圖像、視頻生成的目標(biāo)一樣——分辨率高、條件對(duì)齊好、可控、可編輯。Tripo從1.0到1.4、2.0、2.5、3.0、3.1,整個(gè)H系列都在解決解析度、保真度、分辨率極限的問題,也做了很強(qiáng)的模型、算力、數(shù)據(jù)scaling。

H系列確實(shí)已經(jīng)在很多場景用起來了,比如拓竹MakerWorld等消費(fèi)級(jí)3D打印社區(qū),用戶可以直接調(diào)用我們的API生成模型再打印;H3.0之后,很多影視特效或3A角色的參考建模也夠用了。

但在實(shí)時(shí)圖形領(lǐng)域,大家更關(guān)注效率和渲染預(yù)算,非常追求網(wǎng)格本身的性質(zhì)。原因有幾個(gè):一方面GPU能同時(shí)渲染的三角形和多邊形數(shù)量仍然有限,為了節(jié)約成本,做游戲或交互內(nèi)容時(shí)要盡可能用更少的多邊形表示資產(chǎn),以讓場景容量更大、幀率更高、畫面更流暢。

另一方面,整個(gè)3D行業(yè)的紋理、動(dòng)畫等工作流都建立在多邊形網(wǎng)格基礎(chǔ)上——比如動(dòng)畫對(duì)拓?fù)滟|(zhì)量要求格外高,希望肩膀、肘部等大形變部位有規(guī)整的拓?fù)渚€;UV的分界也需要和幾何分界強(qiáng)對(duì)應(yīng),方便貼圖。

(注:UV指UV映射,是把3D模型表面“展開”到二維平面上的坐標(biāo)系統(tǒng),用來貼紋理)

所以傳統(tǒng)高模生成面對(duì)這些問題局限性很大。過去幾個(gè)月也有人用自回歸方式逐個(gè)token、逐個(gè)三角形來生成,但效率和效果都不盡如人意。市面上能提供智能拓?fù)淠芰Φ姆?wù),可能需要好幾百秒才能從高模得到精細(xì)拓?fù)?,?yán)重限制了廣泛使用的可能性。

基于這些觀察,我們從很早之前就在思考:如果最終想生成多邊形網(wǎng)格,為什么要經(jīng)過那么多中間表示的轉(zhuǎn)化,為什么不能直接在原始信號(hào)上學(xué)習(xí)、做完整全局的生成?

最終在諸多數(shù)學(xué)巧思、訓(xùn)練基礎(chǔ)設(shè)施和數(shù)據(jù)的支持下,我們得到了Tripo P1.0——它能在幾秒內(nèi)生成一個(gè)與藝術(shù)家制作質(zhì)量相當(dāng)?shù)亩噙呅尉W(wǎng)格,支持幾萬面的高面數(shù),也能在面數(shù)敏感的環(huán)境下生成三五百面的模型,并很好地表達(dá)形狀,真正打開了3D資產(chǎn)的應(yīng)用場景。



量子位:所以H系列的局限性主要在于它需要的渲染預(yù)算比較多,以及大家需要追求網(wǎng)格本身的性質(zhì),是這個(gè)意思嗎?

曹炎培:是的。H系列的追求目標(biāo)不同,可以認(rèn)為H是生成雕塑級(jí)的三維表現(xiàn)。某些生成結(jié)果下,消費(fèi)級(jí)3D打印機(jī)已經(jīng)沒法完整展現(xiàn)H3.1的細(xì)節(jié),要工業(yè)級(jí)3D打印才能完整體現(xiàn)非常精細(xì)的表面——比如胡須、地毯紋路、精密機(jī)械結(jié)構(gòu)、齒輪等,追求的是無損、高保真、高分辨率的還原。

但這樣生成出來的資產(chǎn)勢(shì)必比較“重”,細(xì)節(jié)要體現(xiàn)在幾何上,多邊形數(shù)就會(huì)很高。這不算缺陷,只是這類模型的特點(diǎn),不特別適配直接用在實(shí)時(shí)圖形中——比如游戲、robotics仿真模擬等環(huán)境需要用盡可能少的多邊形來表達(dá)近似目標(biāo)的幾何形狀,而且對(duì)多邊形排布也有一套藝術(shù)家的標(biāo)準(zhǔn)。

量子位:P1.0被定義為重構(gòu)了底層算法的技術(shù),為什么這樣去定義?

曹炎培:這個(gè)“重構(gòu)”有兩方面。

第一,以前訓(xùn)練高模要經(jīng)過很多數(shù)據(jù)轉(zhuǎn)化。絕大多數(shù)訓(xùn)練數(shù)據(jù)其實(shí)都是多邊形網(wǎng)格,但為了適應(yīng)之前的訓(xùn)練范式,需要先轉(zhuǎn)化為SDF或SparseFlex等中間表示再做生成,生成出來又是較重的高模,想用在輕量級(jí)應(yīng)用中還需減面或重拓?fù)洹?strong>這其實(shí)是在原始數(shù)據(jù)和最終資產(chǎn)之間繞了很遠(yuǎn)的路徑

Tripo P1.0直接在原始的、世界上廣泛存在的多邊形網(wǎng)格或三角網(wǎng)格數(shù)據(jù)上做原生訓(xùn)練,輸出結(jié)果也是原生的三角網(wǎng)格,繞過了中間表示,生成結(jié)果直接可用。

第二方面更偏具體的技術(shù)和數(shù)學(xué)構(gòu)造思路。過去也有一些方法能做多邊形網(wǎng)格生成,比如我們自己的Smart Low Poly的功能,個(gè)別友商也有類似的,但問題是很慢,且完整性和形狀還原度不理想。

(注:Smart Low Poly指智能低多邊形生成,對(duì)高多邊形模型進(jìn)行優(yōu)化,保留輪廓和重要細(xì)節(jié),使其非常適合游戲、AR/VR和實(shí)時(shí)應(yīng)用程序。)

它的核心誤區(qū)在于把三維數(shù)據(jù)強(qiáng)行序列化——為什么這么做?因?yàn)長LM太成功了,自回歸范式太成功了,大家自然想把所有東西變成序列來復(fù)用經(jīng)驗(yàn)。但三維空間本身并不存在一個(gè)天然的線性排序。它不會(huì)自帶先后,也沒有哪一個(gè)方向在本體上更優(yōu)先。很多我們習(xí)慣使用的方向性描述,其實(shí)都建立在特定觀察視角、坐標(biāo)系或任務(wù)定義之上,而不是三維空間自身的屬性。

強(qiáng)行排序隱含了三角形之間的因果依賴——后面要生成的幾何依賴于前面已經(jīng)生成出來的部分,這在3D空間和自然界中都不應(yīng)該存在,既反直覺,也導(dǎo)致生成效率和效果都不好

Tripo P1.0的思路是:要在秒級(jí)內(nèi)生成高質(zhì)量網(wǎng)格,不可能走自回歸路線——以現(xiàn)在的算力和范式,要生成幾萬個(gè)面,不可能在一秒內(nèi)生成幾萬的token;而3D網(wǎng)格本身沒有天然的順序或偏序關(guān)系,所以應(yīng)該做整體建模和生成

具體來說,我們對(duì)整個(gè)三角形或多邊形的點(diǎn)、線、面空間進(jìn)行統(tǒng)一的概率建模,用新的數(shù)學(xué)度量來衡量點(diǎn)線面之間的關(guān)系,并在度量引導(dǎo)下做概率建模,從噪聲中不斷探索出最終形狀。

也因?yàn)辄c(diǎn)線面被統(tǒng)一建模,生成結(jié)果自然同時(shí)具有幾何和拓?fù)浣Y(jié)構(gòu),規(guī)避了不自然的排序性,效果好且速度快。

舉個(gè)最簡單的例子:一張辦公桌。之前的方法因?yàn)橛信判?,比如某種排序下需要從一條腿開始一點(diǎn)一點(diǎn)往上生成,然后第二條腿、第三條腿、第四條腿,最后生成桌面。

這些過程都有因果關(guān)聯(lián),一旦第一條腿出了問題,整個(gè)序列就會(huì)崩潰。但實(shí)際上四條腿是對(duì)稱的,同時(shí)生成就有自然機(jī)制相互關(guān)聯(lián),桌面也基于四條腿的幾何自然生長出來,從而避免了序列生成又慢又易崩壞的問題。

量子位:P1.0可以在2秒以內(nèi)生成專業(yè)級(jí)3D資產(chǎn),速度提升達(dá)到百倍,這個(gè)速度提升主要來源于什么技術(shù)創(chuàng)新?也是剛說的在三維空間里進(jìn)行概率生成嗎?

曹炎培:是的。我覺得更合適的說法是,本來生成這些三維信號(hào)就不應(yīng)該花費(fèi)幾百秒。以前的方法實(shí)在慢得太不合理,而我們只是讓它進(jìn)入了對(duì)的路徑,在正確的建模效率下達(dá)到了比較理想的生成速度。

量子位:也就是說你們找到了它本來應(yīng)該有的方法,讓它達(dá)到了本來應(yīng)該有的速度。那相對(duì)于傳統(tǒng)方法,它在計(jì)算復(fù)雜度和資源消耗上也會(huì)有明顯變化嗎?

曹炎培:是的。消耗的計(jì)算資源自然是減少的——在GPU算力相同前提下,消耗取決于推理時(shí)間。復(fù)雜度也大大降低了,同樣回到了它應(yīng)有的復(fù)雜度上。

量子位:3D生成里有一個(gè)比較難的問題——復(fù)雜拓?fù)浣Y(jié)構(gòu),比如孔洞或嵌套結(jié)構(gòu)。P1.0提出了“隱式潛在拓?fù)溆成錂C(jī)制”,它是怎么解決傳統(tǒng)方法容易出現(xiàn)的拓?fù)鋽嗔褑栴}的?

曹炎培:要理解這個(gè)問題,需要先從之前的方法為什么會(huì)有困難講起。

首先對(duì)于H系列,高模數(shù)據(jù)的表示形式原本天生是無法支持孔洞和嵌套的表達(dá)——所有生成的高模從數(shù)學(xué)上是“水密”(watertight)的——直觀地說就是生成的形狀必須能“兜住水”,表面必須完整閉合、不能漏、不能有破洞。這是目標(biāo)形式的數(shù)學(xué)性質(zhì)所決定的,沒辦法繞過。SparseFlex等表示試圖對(duì)這一限制進(jìn)行改進(jìn),但依然跳不開整體框架的限制。

之前的多邊形生成為什么也難處理?很大程度還是因?yàn)榕判?。比如幾個(gè)面相交時(shí),按照空間排序方法,在相交部分的排序具有很強(qiáng)的歧義性,導(dǎo)致模型生成到嵌套和交叉區(qū)域時(shí)會(huì)非常困惑——用LLM的話說就是perplexity非常高,不知道下一個(gè)面該出現(xiàn)在哪,整個(gè)因果過程完全失效。

而我們找到了一種方法,能在不對(duì)原始模型做額外數(shù)據(jù)處理、保持原有美術(shù)建模完整性和精密性的前提下,將三角網(wǎng)格轉(zhuǎn)化為數(shù)學(xué)上的隱空間,并進(jìn)行整體建模。

在P1.0定義的隱空間分布中,孔洞和嵌套不是特殊情況,和生成平面或幾個(gè)分立的基礎(chǔ)幾何體一樣,只是數(shù)據(jù)中的普通樣本。相當(dāng)于從表示層面就消解了這些結(jié)構(gòu)的特殊性,使得頂點(diǎn)和面能在特征場中自發(fā)完成對(duì)齊與耦合,在極短時(shí)間內(nèi)得到觀感上和數(shù)學(xué)上都連貫有效的結(jié)構(gòu)。

量子位:目前在幾何精度、拓?fù)浞€(wěn)定性、細(xì)節(jié)表達(dá)等關(guān)鍵指標(biāo)上,P1.0處于什么水平?

曹炎培:一些用戶反饋,P1.0生成的多邊形網(wǎng)格,與多年經(jīng)驗(yàn)的設(shè)計(jì)師手工建??床怀霰举|(zhì)區(qū)別,完全可以用在任何需要3D資產(chǎn)的場景。加上生成速度極快,對(duì)行業(yè)的變革非常大。

當(dāng)然作為1.0版本,有一定概率生成效果不夠理想,比如某些細(xì)節(jié)展現(xiàn)還不夠充分,也為后續(xù)迭代留出了空間。

Tripo P1.0生成



量子位:跟專業(yè)建模師產(chǎn)出的資產(chǎn)相比,目前AI生成的差距還在哪里?

曹炎培:兩類模型都在不斷逼近專業(yè)設(shè)計(jì)師的效果。H系列在絕大多數(shù)物體的造型和細(xì)節(jié)展現(xiàn)上,已經(jīng)能持平多年經(jīng)驗(yàn)的數(shù)字雕刻師水平,但在一些案例的藝術(shù)理解和生成穩(wěn)定性上還有提升空間。

P系列模型帶來的變革可能更大。一些用戶試用后覺得與資深專業(yè)建模師的作品已基本沒有區(qū)別;但我們內(nèi)部對(duì)標(biāo)評(píng)估發(fā)現(xiàn),在細(xì)節(jié)展現(xiàn)和嚴(yán)格管線標(biāo)準(zhǔn)(如嚴(yán)格對(duì)稱、組件劃分等)上仍有提升空間,整體大約能達(dá)到三五年經(jīng)驗(yàn)設(shè)計(jì)師90%的水平

但這并不意味著要替代設(shè)計(jì)師,而是將大家從繁雜的重復(fù)性勞動(dòng)中解放出來,讓人更專注于創(chuàng)作意圖本身。

人人都能創(chuàng)造自己的3D世界

量子位:P1.0上線之后會(huì)怎么服務(wù)游戲行業(yè)的客戶?能舉一兩個(gè)例子說明它的落地場景嗎?

曹炎培:我們最看重的是它對(duì)UGC可交互內(nèi)容前所未有的激發(fā)。以前H系列已經(jīng)被各行各業(yè)客戶廣泛使用,但它更關(guān)注幾何精度和細(xì)節(jié)展現(xiàn),生成的模型主要放在美術(shù)流程中作為參考或獲取高模的一步,后續(xù)還需要做重拓?fù)洳拍苡糜趯?shí)時(shí)引擎或手游——也就是說H系列更多面向?qū)I(yè)用戶。

但我們對(duì)P1.0的期待、也是它實(shí)際能做到的是:讓更多以前不知道什么是3D模型的人,跳過對(duì)建模工具的學(xué)習(xí),直接得到可用于目標(biāo)場景、符合意圖的3D資產(chǎn)

過去幾個(gè)月AI Agent能力不斷提升,越來越多獨(dú)立開發(fā)者通過自然語言構(gòu)建交互式內(nèi)容,門檻已經(jīng)非常低。最近大家都在說“人人都要有一個(gè)龍蝦”,AI編程深入人心后,每個(gè)人都可以通過大模型構(gòu)建自己的軟件,其中很大一部分可能就是3D交互式內(nèi)容。以前缺乏足夠的資產(chǎn)供給,但現(xiàn)在能做到秒級(jí)生成引擎可用的資產(chǎn),這條路就被完全打通了。所以我們對(duì)低門檻UGC的內(nèi)容供給爆發(fā)非常樂觀。

量子位:你們判斷3D生成正在從專業(yè)生產(chǎn)工具變成大眾表達(dá)方式,你覺得在什么條件下,UGC互動(dòng)內(nèi)容的爆發(fā)會(huì)真正發(fā)生?

曹炎培:從歷史上看,所有UGC內(nèi)容的爆發(fā)都有跡可循——先有工具來創(chuàng)造內(nèi)容,然后獲取內(nèi)容的門檻降到無限低,UGC平臺(tái)自然就會(huì)爆發(fā)。打字、拍照、攝像都是如此。

3D也一樣。我們提供的AI 3D生成能力,可以看作像攝像頭一樣的基礎(chǔ)能力。現(xiàn)在2秒、幾乎零成本就能獲取海量3D資產(chǎn),UGC交互平臺(tái)已經(jīng)具備了成熟的基礎(chǔ)

接下來隨著技術(shù)發(fā)展,還需要更多智能體模型或世界模型來處理交互式內(nèi)容中的狀態(tài)轉(zhuǎn)化——比如角色與環(huán)境的交互、角色之間的交互、環(huán)境的演化。這些條件成熟后,再疊加零成本的資產(chǎn)生成能力,可能年內(nèi)就會(huì)看到很多UGC互動(dòng)平臺(tái)的跡象。AI時(shí)代限制創(chuàng)作的不再是技能或工具,只要有想象力,就有各種模型和AI幫助完成創(chuàng)作





量子位:如果AI的生成速度和質(zhì)量都達(dá)到了這樣的水平,對(duì)游戲、影視、元宇宙等產(chǎn)業(yè)會(huì)帶來怎樣的變化和影響?有沒有可能改變3A游戲資產(chǎn)生成的方式?

曹炎培:3A是一個(gè)方面,但首先游戲的形式本身會(huì)迎來巨大變化——就像短視頻之于廣電或電影的變革一樣,我們覺得交互式內(nèi)容會(huì)有根本的范式性轉(zhuǎn)變。

現(xiàn)在的3A是極少數(shù)專家和藝術(shù)家經(jīng)過三五年籌備,把一套作品呈現(xiàn)給大家,大家在里面消耗時(shí)間去玩。但當(dāng)人人都能創(chuàng)造3D內(nèi)容之后,gameplay可能不再是被人為定義的,三維環(huán)境也不是被少數(shù)精英定義。人人都可以創(chuàng)作自己的可交互世界,所有玩法也都可以無限個(gè)性化和定制化

量子位:你們今年之內(nèi)會(huì)打造一個(gè)UGC互動(dòng)平臺(tái),可以透露一下它大概是什么樣的嗎?Tripo在里面扮演什么角色?

曹炎培:Tripo提供底層的模型能力。我們認(rèn)為幾類技術(shù)對(duì)應(yīng)交互式內(nèi)容或世界建模的不同組成部分:H和P系列提供的是交互世界中基礎(chǔ)的狀態(tài),比如持久性的道具、角色應(yīng)該是什么樣子;我們還會(huì)打造自己的世界模型來建模狀態(tài)之間的轉(zhuǎn)化——角色怎么與環(huán)境交互?交互過程怎樣自然地呈現(xiàn)和生成?這是世界模型或AI Agent模型需要解決的問題。

在這些能力之上,我們期待的交互式平臺(tái)是一個(gè)純UGC平臺(tái),甚至比Roblox或Minecraft門檻更低——讓大家在意識(shí)不到自己在生成或操控3D的時(shí)候,就把高自由度、可分享、可共創(chuàng)的交互式內(nèi)容構(gòu)建出來。

AI 3D算法范式進(jìn)入2.0時(shí)代

量子位:回顧過去幾年AI 3D技術(shù)的發(fā)展,你會(huì)把它劃分成幾個(gè)階段?為什么說P1.0的發(fā)布是進(jìn)入了AI 3D算法范式的2.0時(shí)代?

曹炎培:AI 3D的1.0時(shí)代可以定義為追求視覺或幾何擬真的時(shí)代。3D模態(tài)和視頻、圖像不同,它是物理世界的表述,天然可以交互,有更高維的信號(hào)——僅僅是外觀或視覺的近似顯然不夠。但技術(shù)總要一步步發(fā)展,過去幾年大家追求的歸根到底就是“看起來好”。

2.0時(shí)代有幾個(gè)特點(diǎn):第一是原生資產(chǎn),不再需要復(fù)雜的轉(zhuǎn)化,既然需要工業(yè)可用的資產(chǎn),就直接在這樣的資產(chǎn)上訓(xùn)練和生成。

第二是生成的資產(chǎn)具有功能性,天然具備部件拆分、可動(dòng)部分——比如具身智能中的關(guān)節(jié)結(jié)構(gòu)、動(dòng)畫中的骨骼結(jié)構(gòu),更進(jìn)一步還能生成這些可動(dòng)部分的運(yùn)轉(zhuǎn)邏輯。

第三是將1.0時(shí)代速度、質(zhì)量與可用性的“不可能三角”變?yōu)橥瑫r(shí)成立。AI 3D不再只是畫圖或擬形的工具,而是真正在構(gòu)筑3D世界或物理世界。

量子位:在AI 3D生成領(lǐng)域,目前還有哪些尚未被解決的技術(shù)難題?接下來最大的技術(shù)挑戰(zhàn)是什么?

曹炎培:2.0時(shí)代的目標(biāo)引出了接下來的核心問題。功能性現(xiàn)在剛邁出第一步——比如原生資產(chǎn)內(nèi)部的部件級(jí)信息,已有越來越多方法可以建模,但原生的動(dòng)態(tài)和可交互性,雖然在數(shù)據(jù)中存在,生成能力還未達(dá)到理想狀態(tài)。

未來需要生成的模型不僅形狀對(duì)、拓?fù)洳季€對(duì),還要能自發(fā)理解物體的物理關(guān)節(jié)——包括肘關(guān)節(jié)、膝關(guān)節(jié)等有機(jī)關(guān)節(jié)用于動(dòng)畫,也包括門的軸承、抽屜的抽拉結(jié)構(gòu)等。生成模型需要在生成網(wǎng)格的同時(shí),原生地生成對(duì)應(yīng)的綁定、關(guān)節(jié)結(jié)構(gòu)以及物理材質(zhì)屬性。這是接下來值得積極攻堅(jiān)的方向。

Tripo P1.0生成



量子位:下一步是不是發(fā)展到世界模型的路線?從AI 3D生成到世界模型之間的技術(shù)關(guān)系是什么?

曹炎培:不能完全說兩者會(huì)合一。目前做世界模型,動(dòng)量最大的方式肯定是充分利用視頻數(shù)據(jù),因?yàn)橐曨l數(shù)據(jù)最容易獲取,模型和數(shù)據(jù)都能做很好的scaling。但大家或多或少意識(shí)到,僅靠視頻建模短期內(nèi)可以走得很快,從原理上講卻有很多物理和3D信號(hào)由視頻來建模不一定是最適當(dāng)、最高效的。

世界模型的一個(gè)重大方向,是操控persistent狀態(tài)之間合理切換的transition過程,而這些狀態(tài)由3D的表示或資產(chǎn)來存儲(chǔ)是很高效的。這需要兩個(gè)模態(tài)共同努力:世界模型需要知道怎么操控這些persistent狀態(tài),3D資產(chǎn)則需要具備可被操控的功能性接口。

比如現(xiàn)在P1.0生成的模型已經(jīng)在無限接近人工構(gòu)造的網(wǎng)格,但在可操控方面還有提升空間——生成的抽屜本身和外框已經(jīng)是分離的,但當(dāng)一個(gè)信號(hào)說“把抽屜拉開”,具體哪些三角形該怎么運(yùn)動(dòng)還沒有被很好地建模。這些與功能相關(guān)的屬性,是3D路線需要更多迭代的方向。

量子位:對(duì)于世界模型來說,3D會(huì)比視頻數(shù)據(jù)更接近其核心嗎?

曹炎培:這目前還是一個(gè)非常open的問題,行業(yè)怎么發(fā)展也完全是open-ended的。但有一個(gè)樸素統(tǒng)一的思想——首先要定義什么是世界

如果是建模周邊的物理世界,那物理世界本身就是三維的,最直接、最經(jīng)濟(jì)的方式也許就是在三維空間去建模和學(xué)習(xí)。

而且很多狀態(tài)級(jí)別的實(shí)體,比如杯子、桌子,在物理世界中的表示非常固定一致,純用視頻去表示每一幀都需要新的像素來表達(dá)這些物體,對(duì)計(jì)算量和信息量都有很大消耗。大家已經(jīng)意識(shí)到這個(gè)問題,長期可能需要視頻數(shù)據(jù)混合3D數(shù)據(jù),通過scaling的探索來找到最好的結(jié)合點(diǎn)。我們的思路也是兩者結(jié)合。

量子位:你們現(xiàn)在做世界模型的進(jìn)展大概怎么樣?

曹炎培:我們會(huì)很快用demo來展示階段性進(jìn)展,它會(huì)是一個(gè)具備交互能力的世界。

量子位:你們做世界模型的優(yōu)勢(shì)在哪里?

曹炎培:有幾方面。第一,3D團(tuán)隊(duì)在本質(zhì)思考、數(shù)據(jù)和相關(guān)能力積累上,做世界模型天然有一定優(yōu)勢(shì)。

參考世界上很厲害的世界模型公司——Google DeepMind做世界模型的團(tuán)隊(duì)中有很多3D出身的研究者,World Labs更不用說,創(chuàng)始團(tuán)隊(duì)都是三維計(jì)算機(jī)視覺或圖形學(xué)出身。大家的思路都是從本質(zhì)出發(fā),而不是做漸進(jìn)式提升,在世界模型這種非常open-ended的大問題下,這樣更有概率接近最終結(jié)果。

另一方面,去年我們推出了“V·STAR計(jì)劃”,一項(xiàng)面向頂尖研究者的專項(xiàng)招募與培養(yǎng)機(jī)制,吸引了對(duì)3D和世界模型交叉方向感興趣、能力很強(qiáng)的同學(xué)加入。不管什么時(shí)候,有足夠的人才和idea才是最大的優(yōu)勢(shì)。

VAST的“V·STAR頂尖人才計(jì)劃”



量子位:如何看待目前全球AI 3D領(lǐng)域的行業(yè)格局?VAST處于一個(gè)什么樣的位置?依據(jù)是什么?

曹炎培:不謙虛地說,VAST現(xiàn)在處在全球3D領(lǐng)域全棧領(lǐng)軍的位置。反觀整個(gè)行業(yè),大部分公司還走在老路徑上,用老思路給現(xiàn)有方案打補(bǔ)丁。比如網(wǎng)格生成,如果陷入了自回歸序列化的方向,某種程度上可能是個(gè)死胡同。

依據(jù)有幾方面:生成質(zhì)量上,H3.1是此時(shí)此刻最好的高模生成模型;底層思考和范式重構(gòu)上,我們率先把新思想快速落地為大家可以體驗(yàn)的P1.0模型,定義了極速生成的速度和性能天花板。

某種程度上它確立了現(xiàn)代3D生成與引擎工具、圖形標(biāo)準(zhǔn)之間的底層連接——背后是定義和發(fā)明新的原生3D表征的能力,這在整個(gè)賽道是很強(qiáng)的話語權(quán)。其他像數(shù)據(jù)、人才方面的優(yōu)勢(shì)也不用過多贅述。

量子位:可以簡單介紹一下從模型算法到平臺(tái)產(chǎn)品,VAST在整個(gè)AI 3D領(lǐng)域的整體技術(shù)布局嗎?

曹炎培:算法剛講了很多,補(bǔ)充一下產(chǎn)品方面。去年我們推出了全球首個(gè)面向C端的AI 3D創(chuàng)意工具臺(tái)——Tripo Studio,讓專業(yè)用戶可以在一個(gè)Web產(chǎn)品和工具里端到端完成一整套3D設(shè)計(jì)工作流:從參考圖片生成,到圖片轉(zhuǎn)模型,再到拓?fù)洹⒔壎?、分件、?dòng)畫,最終導(dǎo)出,全部在這里完成。

與此同時(shí),我們的API目前服務(wù)了全球超過9萬家企業(yè),覆蓋各行業(yè)的典型案例包括:

  • 與拓竹等消費(fèi)3D打印龍頭的合作;
  • 與網(wǎng)易合作,生成模型被直接用在燕云十六聲、蛋仔派對(duì)等國民IP的gameplay里;
  • 與索尼等XR廠商的合作,將3D生成能力用于全息或空間智能領(lǐng)域;
  • 還有機(jī)器人及具身智能廠商,甚至汽車廠家也用生成能力做油泥模型等造型參考……

下一步,我們會(huì)在今年推出UGC的3D平臺(tái),進(jìn)一步探索AI 3D生成能力對(duì)社會(huì)、創(chuàng)作者和消費(fèi)內(nèi)容帶來變革的最大邊界

之前不管是工具臺(tái)還是API都偏專業(yè)用戶,但隨著Tripo P1.0的發(fā)明和迭代,最重要的是讓更多以前對(duì)3D毫無概念、無法想象自己能創(chuàng)作交互內(nèi)容的用戶獲得新的機(jī)會(huì)——就像最近AI Agent或龍蝦風(fēng)潮帶來的觀念和范式轉(zhuǎn)變一樣。

VAST Tripo Studio鏈接:https://www.studio.tripo3d.ai/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
車主開蔚來ES6五年行駛里程一百萬公里!李斌回應(yīng):平均每天500公里 太牛了

車主開蔚來ES6五年行駛里程一百萬公里!李斌回應(yīng):平均每天500公里 太牛了

快科技
2026-03-12 09:27:24
張凌赫9年前素人期的采訪火了,190cm身高鶴立雞群,像胖版李敏鎬

張凌赫9年前素人期的采訪火了,190cm身高鶴立雞群,像胖版李敏鎬

大鐵貓娛樂
2026-03-12 14:55:04
伊朗伊斯蘭革命衛(wèi)隊(duì)稱襲擊美國油輪

伊朗伊斯蘭革命衛(wèi)隊(duì)稱襲擊美國油輪

界面新聞
2026-03-12 17:32:42
伊朗破獲超級(jí)間諜,比川島芳子狠十倍,睡高官套情報(bào)

伊朗破獲超級(jí)間諜,比川島芳子狠十倍,睡高官套情報(bào)

點(diǎn)燃好奇心
2026-03-12 15:16:00
外媒最新爆料:伊朗最高領(lǐng)袖穆杰塔巴足部骨折、左眼周圍淤青,面部被劃傷?

外媒最新爆料:伊朗最高領(lǐng)袖穆杰塔巴足部骨折、左眼周圍淤青,面部被劃傷?

王爺說圖表
2026-03-12 18:09:48
美媒高度警惕:中國六代機(jī)或?qū)燧d霹靂-17作戰(zhàn)

美媒高度警惕:中國六代機(jī)或?qū)燧d霹靂-17作戰(zhàn)

楊風(fēng)
2026-03-11 20:42:13
30分慘??!2大新援難挽3連敗,CBA關(guān)鍵1戰(zhàn):青島摧枯拉朽升第5!

30分慘?。?大新援難挽3連敗,CBA關(guān)鍵1戰(zhàn):青島摧枯拉朽升第5!

話體壇
2026-03-12 22:05:51
意難平!得分賽季新高+超鄧肯,無人問津啊,北境之王真的落寞了

意難平!得分賽季新高+超鄧肯,無人問津啊,北境之王真的落寞了

球童無忌
2026-03-12 22:45:05
快扔掉!戴一天,輻射量相當(dāng)于拍117次胸片

快扔掉!戴一天,輻射量相當(dāng)于拍117次胸片

FM93浙江交通之聲
2025-10-28 00:01:43
揚(yáng)州一女子車禍被打,樣貌曝光,細(xì)節(jié)被扒,眾人直呼打得好

揚(yáng)州一女子車禍被打,樣貌曝光,細(xì)節(jié)被扒,眾人直呼打得好

天天熱點(diǎn)見聞
2026-03-11 20:52:30
七輪增資仍“缺血”,廣州銀行為何陷入資本惡性循環(huán)?

七輪增資仍“缺血”,廣州銀行為何陷入資本惡性循環(huán)?

九州商業(yè)觀察
2026-03-12 11:21:36
手機(jī)頂部出現(xiàn)這 3 個(gè)圖標(biāo),請(qǐng)立刻警惕!你的隱私正在被偷偷泄露

手機(jī)頂部出現(xiàn)這 3 個(gè)圖標(biāo),請(qǐng)立刻警惕!你的隱私正在被偷偷泄露

小柱解說游戲
2026-03-11 08:34:44
3-0!沒姆巴佩,皇馬更像皇馬!哈蘭德向皇馬交“投名狀”

3-0!沒姆巴佩,皇馬更像皇馬!哈蘭德向皇馬交“投名狀”

體育世界
2026-03-12 12:58:59
演都不演了,剛復(fù)出就開演唱會(huì),票價(jià)賣到1280,到底誰給的自信?

演都不演了,剛復(fù)出就開演唱會(huì),票價(jià)賣到1280,到底誰給的自信?

一娛三分地
2026-03-03 13:51:03
伊朗有言在先,日本8萬噸貨輪爆炸,發(fā)往中國的原油一天都沒中斷

伊朗有言在先,日本8萬噸貨輪爆炸,發(fā)往中國的原油一天都沒中斷

原來仙女不講理
2026-03-12 12:21:21
新戰(zhàn)衣:居家蕾絲睡裙的誘惑

新戰(zhàn)衣:居家蕾絲睡裙的誘惑

疾跑的小蝸牛
2026-03-12 22:03:29
外媒:中國六代機(jī)殲-36第二架改進(jìn)型原型機(jī)再試飛,首飛指日可待

外媒:中國六代機(jī)殲-36第二架改進(jìn)型原型機(jī)再試飛,首飛指日可待

止戈軍是我
2026-03-12 21:26:44
狂賣2000萬!年輕人把“國產(chǎn)鳥”買成“新工服”

狂賣2000萬!年輕人把“國產(chǎn)鳥”買成“新工服”

表外表里
2026-03-11 22:50:07
俄軍被迫從紅軍村調(diào)出增援部隊(duì)!烏克蘭突破第聶伯羅南部防線

俄軍被迫從紅軍村調(diào)出增援部隊(duì)!烏克蘭突破第聶伯羅南部防線

項(xiàng)鵬飛
2026-03-12 18:12:52
15歲諾一近照曝光,沒爸爸劉燁那么“憂郁”,依然是個(gè)美男子;說法語時(shí)聲音渾厚,網(wǎng)友評(píng)“肯定比劉燁法語好”

15歲諾一近照曝光,沒爸爸劉燁那么“憂郁”,依然是個(gè)美男子;說法語時(shí)聲音渾厚,網(wǎng)友評(píng)“肯定比劉燁法語好”

極目新聞
2026-03-12 14:17:12
2026-03-13 00:56:49
量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
12274文章數(shù) 176413關(guān)注度
往期回顧 全部

科技要聞

當(dāng)養(yǎng)蝦人開始卸載,大廠的戰(zhàn)爭才真正開始

頭條要聞

男子做核磁被遺忘在機(jī)器上6小時(shí) 涉事醫(yī)生:交接失誤

頭條要聞

男子做核磁被遺忘在機(jī)器上6小時(shí) 涉事醫(yī)生:交接失誤

體育要聞

建議將“出球型門將”納入反詐app

娛樂要聞

貝克漢姆全家給27歲大布送生日祝福

財(cái)經(jīng)要聞

盧鋒:從特朗普?qǐng)F(tuán)隊(duì)群演看時(shí)代變局

汽車要聞

大眾2025財(cái)報(bào):轉(zhuǎn)型雖有陣痛 "大象"已然起跑

態(tài)度原創(chuàng)

教育
親子
藝術(shù)
數(shù)碼
房產(chǎn)

教育要聞

2026年春假安排告家長書

親子要聞

100億大單品蝶變:星飛帆經(jīng)典版升維“A2奶源化”

藝術(shù)要聞

深圳能源大廈,“看得我強(qiáng)迫癥都要犯了”

數(shù)碼要聞

搭載A19 Pro及12GB+128GB存儲(chǔ),蘋果顯示器配置比MacBook Neo還高

房產(chǎn)要聞

唏噓!三亞又一房企巨頭破產(chǎn),狂欠43億甩賣資產(chǎn)!

無障礙瀏覽 進(jìn)入關(guān)懷版