国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

空間智能爆發(fā)只需24個(gè)月?群核科技首席科學(xué)家唐睿預(yù)言:具身智能才是AGI終極形態(tài) | 萬(wàn)有引力

0
分享至


對(duì)話 | 唐小引 嘉賓 | 唐睿

責(zé)編 | 夢(mèng)依丹

出品 | CSDN(ID:CSDNnews)

當(dāng)大模型開(kāi)始“看懂”空間、理解物理、做出行動(dòng),人工智能的形態(tài)正在發(fā)生一次根本性變化——從“對(duì)話系統(tǒng)”,走向“行動(dòng)智能”。

在這條路徑上,一個(gè)詞被頻繁提起:空間智能。

如果說(shuō) LLM 讓機(jī)器擁有了像人類(lèi)一樣思考的大腦,那么空間智能則試圖賦予機(jī)器像人類(lèi)一樣觀察、理解并在三維世界中行動(dòng)的身體與感官。

它并非憑空出現(xiàn),而是扎根于計(jì)算機(jī)圖形學(xué)對(duì)幾何、材質(zhì)與光照的長(zhǎng)期積累,依托 GPU 并行計(jì)算對(duì)物理世界的高保真模擬,通過(guò)“先模擬世界,再理解智能”的路徑,逼近真實(shí)智能的邊界。

正是在這個(gè)被李飛飛等頂尖學(xué)者視為“通往 AGI 的關(guān)鍵拼圖”的領(lǐng)域,群核科技(酷家樂(lè))首席科學(xué)家唐睿已經(jīng)深耕多年。

從浙江大學(xué)的“求是”精神到英國(guó)巴斯大學(xué)的“跨界”洗禮,再到伴隨群核科技走過(guò)十余年的技術(shù)長(zhǎng)征,唐睿的職業(yè)生涯本身就是一部從“圖形學(xué)渲染”走向“空間智能體”的進(jìn)化史。

他曾面臨一個(gè)終極的技術(shù)命題:手握高性能計(jì)算資源,我們究竟是用它來(lái)模擬物理世界的影像,還是模擬具備智能的生命體?


左:唐睿,右:唐小引

在全球機(jī)器學(xué)校技術(shù)大會(huì)現(xiàn)場(chǎng),唐睿在與 CSDN 《萬(wàn)有引力》欄目的深度對(duì)話中,不僅給出了他的答案,更剖 析了行業(yè)深處的痛點(diǎn)與機(jī)遇。以下是訪談中唐睿表達(dá)的一些觀點(diǎn)提煉:

  • 空間智能與具身智能的關(guān)系:服務(wù)與被服務(wù)——空間智能是具身智能(Embodied AI)的基礎(chǔ)設(shè)施。如果說(shuō)具身智能是最終要在物理世界行動(dòng)的“人”,那么空間智能就是它的“眼睛”和“訓(xùn)練場(chǎng)”??臻g智能通過(guò)生成 3D 場(chǎng)景和仿真數(shù)據(jù),解決具身智能訓(xùn)練數(shù)據(jù)嚴(yán)重不足的痛點(diǎn);

  • 解決“數(shù)據(jù)饑渴”的終極之道在硬件:目前行業(yè)主要依靠“正向設(shè)計(jì)”(如設(shè)計(jì)師使用軟件創(chuàng)作)和“合成數(shù)據(jù)”來(lái)彌補(bǔ)數(shù)據(jù)缺口。但唐睿認(rèn)為,這仍是“從蛋里孵蛋”。真正的終極解決方案在于感知硬件的普及——當(dāng)眼鏡、手機(jī)、手表都能無(wú)感采集空間數(shù)據(jù)時(shí),數(shù)據(jù)瓶頸將被徹底打破;

  • 2D、視頻與 3D 并非路線之爭(zhēng),而是融合演進(jìn):在構(gòu)建世界模型的路徑上,視頻生成(2D)與 3D 生成并非割裂。行業(yè)正在走向融合:利用 3D 的結(jié)構(gòu)穩(wěn)定性來(lái)解決視頻生成的“時(shí)空一致性”問(wèn)題,反之利用視頻模型的多視角能力輔助 3D 重建。這是一個(gè)螺旋上升的過(guò)程;

  • 未來(lái)預(yù)判:硬件爆點(diǎn)將在 24 個(gè)月內(nèi)到來(lái)——AI 開(kāi)發(fā) AI 的循環(huán)已經(jīng)開(kāi)啟,軟件迭代速度極快。唐睿預(yù)測(cè),空間智能的下一個(gè)真正爆點(diǎn)將等待硬件的突破。當(dāng)每個(gè)人都能低門(mén)檻地對(duì)現(xiàn)實(shí)空間進(jìn)行捕獲和還原時(shí),行業(yè)將迎來(lái)質(zhì)變,這個(gè)窗口期大約在兩年(24 個(gè)月)左右。

歡迎 收聽(tīng)音頻播客,如有興趣觀看完整視頻,可在文末獲取

以下是對(duì)話的完整內(nèi)容:

唐小引:屏幕前的小伙伴們大家好,歡迎收看《萬(wàn)有引力》。今天我們來(lái)到全球機(jī)器學(xué)習(xí)技術(shù)大會(huì)的現(xiàn)場(chǎng),特別邀請(qǐng)到了群核科技首席科學(xué)家唐睿老師,和大家一起深入分享他的技術(shù)人生成長(zhǎng),還有大家當(dāng)前很關(guān)注的對(duì)于空間智能的整個(gè)思考、研究以及實(shí)踐。歡迎我的本家唐老師,可以給大家打個(gè)招呼,然后做一下自我介紹。

唐睿:大家好,我是來(lái)自群核科技的唐睿。我的主要研究領(lǐng)域是計(jì)算機(jī)圖形學(xué)和人工智能,也會(huì)涉及到一些具身智能、交互感知相關(guān)的工作。

唐小引:我想先理清一下概念,具身智能和空間智能,它們的關(guān)系和不同點(diǎn)是什么?

唐睿:我覺(jué)得空間智能在某種層面,無(wú)論是在算法還是交互層面,是服務(wù)于具身智能的。因?yàn)槿绻覀冋f(shuō)人類(lèi)終極的 AGI,是不僅能夠觀察、理解、思考這個(gè)世界,甚至還應(yīng)該能像人類(lèi)一樣去和這個(gè)世界交互。我們說(shuō)的具身智能里的 AI,就是要和這個(gè)世界進(jìn)行交互的。

所以,至少我們現(xiàn)在在做的空間智能,是關(guān)于 3D 世界,或者說(shuō)包括 2D 視頻這類(lèi)世界的生成方式。由于現(xiàn)在具身智能會(huì)考慮到數(shù)據(jù)不足的問(wèn)題,所以會(huì)需要基于一些 2D 的交互視頻,或者 3D 的可交互場(chǎng)景,再加上仿真計(jì)算這樣的方式,去產(chǎn)生大量的數(shù)據(jù),用于具身智能未來(lái)和真實(shí)物理世界交互的訓(xùn)練,甚至是驗(yàn)證。


從 CG 到空間智能:唐睿的技術(shù)啟蒙之路

唐小引:您可以接著談?wù)勛约旱墓适?,是怎么?CG 一步步走上空間智能之路的?

唐睿:其實(shí)也不能算一步步走到空間智能這一步。CG 里面會(huì)涉及到我們稱(chēng)之為 Shape 或者 Geometry Analysis,也就是空間幾何的理解,它其實(shí)本身也是一種智能。當(dāng)我畫(huà)出一個(gè)椅子的時(shí)候,在計(jì)算機(jī)里,如果你不告訴它這是一把椅子,那它應(yīng)該如何去理解?這本身就是智能的一部分。

除此之外,CG 的另一大核心是大家玩游戲時(shí)很熟悉的“渲染”。渲染的本質(zhì)是對(duì)光傳播的模擬。比如我們看到一個(gè)金屬質(zhì)感的物體,是因?yàn)楣庠凑丈涞揭粋€(gè)具備特定物理屬性的表面,光線反射后進(jìn)入了相機(jī)或人眼。

所以,CG 的本質(zhì)到底是什么?我們董事長(zhǎng)的博士導(dǎo)師——也是 CUDA 的鼻祖級(jí)人物——他們當(dāng)年在美國(guó)交流時(shí)曾提出過(guò)一個(gè)終極命題:我們掌握了像 GPU 這樣高性能的并行計(jì)算能力,究竟是該用它來(lái)模擬物理世界,還是去模擬智能體?

最早在 2011 年的時(shí)候,不管是我們董事長(zhǎng)把這個(gè)命題帶回國(guó),還是后來(lái)創(chuàng)業(yè),由于當(dāng)時(shí) AI 遠(yuǎn)沒(méi)有現(xiàn)在普及,大家對(duì)智能的理解也沒(méi)那么深。所以最開(kāi)始,我們選擇了前者——用并行計(jì)算去做傳統(tǒng)渲染,也就是“模擬物理世界”。

轉(zhuǎn)折點(diǎn)發(fā)生在 2017 年。

一方面,我個(gè)人博士期間研究的是 3D 人臉識(shí)別,這恰好是 CG 與機(jī)器學(xué)習(xí)(當(dāng)時(shí)的概念)的交叉領(lǐng)域;但更重要的啟發(fā)來(lái)自于 AlphaGo。AlphaGo 給我們的震撼在于,它通過(guò)在虛擬棋盤(pán)上的仿真,利用強(qiáng)化學(xué)習(xí),僅用極短的時(shí)間和算力,就模擬了人類(lèi)上千年甚至更久遠(yuǎn)的棋局演變。

這讓我們意識(shí)到“模擬智能”的時(shí)機(jī)到了。所以從 2017 年開(kāi)始,我們回歸到了那個(gè)終極命題的另一面:結(jié)合群核已有的海量空間數(shù)據(jù),開(kāi)始嘗試?yán)貌⑿杏?jì)算去模擬空間智能,或者說(shuō)去構(gòu)建“空間智能體”。


跨領(lǐng)域的求是創(chuàng)新:貫穿中英的學(xué)術(shù)生涯

唐小引:好,我們不妨把視角拉得更遠(yuǎn)一點(diǎn),聊聊您的個(gè)人經(jīng)歷。從國(guó)內(nèi)的浙江大學(xué),到英國(guó)的巴斯大學(xué),再到現(xiàn)在投身群核科技,您能分享一下這幾個(gè)階段的心路歷程和核心收獲嗎?

唐睿:在浙江大學(xué)的時(shí)期,對(duì)我來(lái)說(shuō)更像是從校園向社會(huì)的過(guò)渡——它雖然不完全是社會(huì),但已具備了社會(huì)的某種縮影?;仡櫿愦髸r(shí)光,最大的收獲莫過(guò)于校訓(xùn)中的“求是”二字。這也深刻塑造了我們現(xiàn)在的做事準(zhǔn)則:無(wú)論是在做產(chǎn)品、解決方案,還是做基礎(chǔ)科研,首要原則就是遵循事實(shí)。以事實(shí)為本,去推理、去創(chuàng)新。

其實(shí)關(guān)于浙大,除了官方校訓(xùn),私下里大家對(duì)竺可楨老校長(zhǎng)的“兩個(gè)問(wèn)題”(你來(lái)浙大做什么?將來(lái)要做什么樣的人?)還有一個(gè)略帶戲謔的民間回答,那就是——“混、混混”。

以前大家可能覺(jué)得這是玩笑,但現(xiàn)在我重新審視這個(gè)字,“混”其實(shí)代表了一種發(fā)散性的思維,一種打破邊界的融合。這在本質(zhì)上與校訓(xùn)里的“創(chuàng)新”是一脈相承的。

非常巧合的是,這種思維延續(xù)到了我下一段經(jīng)歷中。我在英國(guó)巴斯大學(xué)求學(xué)時(shí),我的導(dǎo)師是 Darren Cosker(皇家工程院院士)。他的治學(xué)風(fēng)格非?!耙啊?,或者說(shuō)非常不拘一格,核心就是跨領(lǐng)域(Cross-domain)。

舉個(gè)例子,我們?cè)趯?shí)驗(yàn)室里做人臉識(shí)別,同時(shí)也有團(tuán)隊(duì)在做肢體的數(shù)字孿生(Digital Twin)和行為學(xué)習(xí)。Darren 會(huì)極力主張將這些技術(shù)與體育、健康,甚至教育產(chǎn)業(yè)進(jìn)行跨界結(jié)合。

大家可能知道,巴斯大學(xué)有“英國(guó)體校”之稱(chēng),很多英國(guó)奧運(yùn)選手都出自這里。他們擁有一套非??茖W(xué)的訓(xùn)練體系,而這套體系的背后,很大程度上依賴(lài)于我們的 CG 技術(shù)——即通過(guò)對(duì)人體姿態(tài)和肌肉行為的高精度仿真來(lái)輔助訓(xùn)練。

在這個(gè)過(guò)程中,我們也見(jiàn)證了數(shù)據(jù)價(jià)值的演變:以前我們是做大數(shù)據(jù)分析,而現(xiàn)在更多是通過(guò)智能數(shù)據(jù)(Intelligent Data)的方式去優(yōu)化仿真模型。這種跨界研究最終催生了許多落地成果,不僅是在體育界,也包括影視表演領(lǐng)域,比如電影《猩球崛起》就與我們實(shí)驗(yàn)室有過(guò)深度合作。

所以回過(guò)頭看,這兩段經(jīng)歷非常神奇。從浙大的“求是與跨界思維”,到巴斯大學(xué)的“跨領(lǐng)域?qū)嵺`”,它們共同構(gòu)建并深刻影響了我現(xiàn)在的思維結(jié)構(gòu)。

總結(jié)起來(lái)就是:跨領(lǐng)域的求是創(chuàng)新。

唐小引:我想進(jìn)一步探討一下中英培養(yǎng)體系的差異。今天很巧,您和老師兩位演講嘉賓都曾在英國(guó)深造。但我之前去歐洲,與當(dāng)?shù)氐?AI 從業(yè)者交流時(shí),聽(tīng)到一種聲音是覺(jué)得英國(guó)的“AI 氛圍”相對(duì)較弱。但我看著其實(shí)有很多的人是從英國(guó)接受了人工智能教育,然后回來(lái)落地生根。

唐睿:我不確定王老師具體的留學(xué)時(shí)間,但我是在 2014 年回國(guó)的。那個(gè)時(shí)間節(jié)點(diǎn)很有意思——2012 到 2013 年左右,AlexNet 才剛剛橫空出世,那是深度學(xué)習(xí)爆發(fā)的起點(diǎn)。換句話說(shuō),當(dāng)時(shí)我們現(xiàn)在所定義的“AI”概念,還沒(méi)有被全社會(huì)廣泛認(rèn)知或接受。

關(guān)于您提到的“氛圍弱”,我認(rèn)為需要辯證地看。

如果從產(chǎn)業(yè)影響力來(lái)看,確實(shí)存在這種情況。因?yàn)橹袊?guó)和美國(guó)擁有全球最大的消費(fèi)市場(chǎng),AI 的發(fā)展不僅取決于技術(shù),更取決于產(chǎn)業(yè)推廣和應(yīng)用場(chǎng)景的規(guī)?;?yīng)。正是這種龐大的市場(chǎng)需求,造就了 AI 產(chǎn)業(yè)應(yīng)用最先在中美這兩個(gè)大市場(chǎng)爆發(fā)。相比之下,英國(guó)在“產(chǎn)業(yè)落地”的喧囂度上可能確實(shí)不如中美。

但如果從科研深度來(lái)看,英國(guó)的底蘊(yùn)非常深厚。

據(jù)我所知,我的導(dǎo)師 Darren 目前就任職于微軟劍橋?qū)嶒?yàn)室,而孕育了 AlphaGo 的 DeepMind,當(dāng)時(shí)就在 UCL(倫敦大學(xué)學(xué)院)隔壁??梢哉f(shuō),英國(guó)匯聚了大量頂尖學(xué)者和核心算法的源頭創(chuàng)新。

所以,英國(guó)的“強(qiáng)”在于學(xué)術(shù)研究的深度,而中美的“強(qiáng)”更多體現(xiàn)在產(chǎn)業(yè)落地的廣度和市場(chǎng)的速度。這就是為什么很多在那邊接受了深層理論教育的人,最終選擇回到擁有更廣闊應(yīng)用土壤的國(guó)內(nèi)來(lái)發(fā)展。


十年群核路:從 IC 到技術(shù)管理者的蛻變

唐小引:我們可以接著聊聊您現(xiàn)在在群核所做的事情。您是怎么加入群核的?以及我看這幾年您對(duì)外分享過(guò)智能體、仿真等方向的內(nèi)容。您可以講講您在群核的故事,以及不同時(shí)期的側(cè)重點(diǎn)。

唐睿:我怎么加入群核的?非常巧合,這是我第一份工作。這份工作干了十多年,也沒(méi)去找別的。

其實(shí)我剛?cè)ト汉说臅r(shí)候并不知道這家公司是做什么的,我就知道有很多 GPU,這是硬件層面吸引我的地方。因 為我之前也是做偏圖形學(xué)的機(jī)器學(xué)習(xí)交叉領(lǐng)域,GPU 本來(lái)就能做機(jī)器學(xué)習(xí),同時(shí)它天然就是為計(jì)算機(jī)圖形學(xué)設(shè)計(jì)的,這是硬件層面的吸引力。

我面試群核花了兩天時(shí)間。第一天是 12 月 23 號(hào),第二天是 12 月 24 號(hào)。第二天面試到晚上 11 點(diǎn)多,是兩天長(zhǎng)時(shí)間的面試。面試從和程序員一起寫(xiě)代碼,到和三位創(chuàng)始人聊天,每位創(chuàng)始人都聊了兩到三個(gè)小時(shí)。我就感覺(jué)到了一種非常簡(jiǎn)單、開(kāi)放的文化。最后一天是平安夜,和 CEO 陳航聊到了十點(diǎn)多。

我非常詫異,我一個(gè)還沒(méi)完全畢業(yè)的小伙子去實(shí)習(xí),跟我同齡的人已經(jīng)是 CEO 了,平安夜還不回家,跟我在這聊技術(shù),還帶我參觀 GPU 機(jī)房和集群。我是被這樣的基因或者文化吸引的。

唐小引:你有把這個(gè)問(wèn)題拋給他嗎?

唐睿:問(wèn)了,他說(shuō)創(chuàng)業(yè)就是這樣的。

唐小引:這是屬于剛剛加入的故事。接著這十幾年里面,您可以分幾個(gè)階段給我們講一下。

唐睿:關(guān)于技術(shù)路線的階段——從“模擬物理”到“模擬智能體”——?jiǎng)偛盼乙呀?jīng)談過(guò)了。所以我想換個(gè)維度,從職業(yè)身份的轉(zhuǎn)變來(lái)聊聊:即我如何從一個(gè)個(gè)人貢獻(xiàn)者一步步蛻變?yōu)橐幻夹g(shù)管理者。

這中間我踩過(guò)不少坑,也積累了很多感悟,大致可以歸納為兩個(gè)層面的挑戰(zhàn)。

第一個(gè)挑戰(zhàn)是工作習(xí)慣的重塑,尤其是從純技術(shù)向管理的過(guò)渡。做 IC 時(shí),我只需要專(zhuān)注解決技術(shù)難題。但轉(zhuǎn)型做 Team Leader 后,最大的難點(diǎn)在于心態(tài)上很難“放下”——很難放下親手寫(xiě)代碼和啃論文的執(zhí)念。但現(xiàn)實(shí)是,你必須分出精力去把控團(tuán)隊(duì)方向、進(jìn)行向上溝通、了解財(cái)務(wù)狀況,甚至洞察市場(chǎng)動(dòng)態(tài)。

在這個(gè)過(guò)程中,我養(yǎng)成了一個(gè)關(guān)鍵習(xí)慣:利用碎片化時(shí)間。哪怕只有半小時(shí)空檔,也要思考如何快速進(jìn)入狀態(tài)。即便這半小時(shí)不足以徹底解決一個(gè)復(fù)雜問(wèn)題,但你要能維持住思考的連貫性,做好上下文的銜接。

第二個(gè)挑戰(zhàn),也是更深層的感悟,是我所定義的“技術(shù)責(zé)任心”。這里的“責(zé)任心”,本質(zhì)上是對(duì)一線技術(shù)人員的一種保護(hù)機(jī)制。

我們?cè)诠ぷ髦薪?jīng)常面臨一個(gè)權(quán)衡:一線技術(shù)人員到底需不需要具備深層次的產(chǎn)品、技術(shù)乃至業(yè)務(wù)價(jià)值的思考?我的觀點(diǎn)是:如果他們具備這種視野,那是錦上添花,但如果他們暫時(shí)沒(méi)有,這絕不應(yīng)成為他們的包袱,這本該是我們 Team Leader 的天職。

無(wú)論是描繪宏大的藍(lán)圖,制定長(zhǎng)期規(guī)劃,還是設(shè)定短期的 POC(概念驗(yàn)證)目標(biāo),將技術(shù)語(yǔ)言轉(zhuǎn)化為業(yè)務(wù)價(jià)值,這是管理者必須承擔(dān)的責(zé)任。

這標(biāo)志著我從單一的“技術(shù)思維”,正式跨越到了融合“技術(shù)、產(chǎn)品與業(yè)務(wù)”的復(fù)合型思維模式。

唐小引:所以這十幾年最關(guān)鍵的一點(diǎn)是學(xué)會(huì)了怎么去做好一個(gè)技術(shù)管理。

唐睿:對(duì),其實(shí)學(xué)會(huì)了 PUA 自己。

唐小引:這也是一個(gè)很好的技術(shù)人成長(zhǎng)路線。當(dāng)然這個(gè)我先不展開(kāi)了,因?yàn)闀r(shí)間關(guān)系,再加上您本身現(xiàn)在選擇的是技術(shù)管理的路線。

唐睿:對(duì),其實(shí)自己也還在寫(xiě)一些代碼,做一些科研。

唐小引:現(xiàn)在還在寫(xiě)代碼?

唐睿:每天會(huì)花一兩個(gè)小時(shí)看論文,利用碎片化時(shí)間去實(shí)現(xiàn)一些 GitHub 上新的模型。


錨定空間智能:機(jī)遇、挑戰(zhàn)與“3D 界的 ImageNet”

唐小引:接著我們聊聊空間智能。錨定空間智能這個(gè)方向是從什么時(shí)候開(kāi)始的?節(jié)點(diǎn)是什么?接著,我很好奇今天看到很多以前做 CV 或者 AI 大佬都投身這個(gè)方向。這個(gè)方向?yàn)槭裁慈绱酥匾???dāng)前大家看到的機(jī)會(huì)和方向是什么?面臨的問(wèn)題又是什么?

唐睿:我們真正開(kāi)始投身到空間智能,起點(diǎn)應(yīng)該是 2017 年。我們開(kāi)始用自己的數(shù)據(jù)去塑造一些簡(jiǎn)單的空間智能體,比如自動(dòng)設(shè)計(jì)、自動(dòng)打光、自動(dòng)材質(zhì)編輯等。

那時(shí)候我們也是采用一種數(shù)據(jù)驅(qū)動(dòng)的方式。因?yàn)槲覀儼l(fā)現(xiàn)自己本身已經(jīng)收集了大量的數(shù)據(jù),可以拿這些數(shù)據(jù)去驅(qū)動(dòng)一個(gè)……那時(shí)候不能叫大模型,而是驅(qū)動(dòng)一個(gè)輔助設(shè)計(jì)算法。在 2017 年,這個(gè)輔助設(shè)計(jì)算法又能讓我們的工具更高效、更智能,從而形成一個(gè)飛輪。當(dāng)時(shí)沒(méi)意識(shí)到這是一個(gè)飛輪的概念,但現(xiàn)在來(lái)看,可以把它定義成一種飛輪。

唐小引:為什么是在這個(gè)時(shí)間點(diǎn)?當(dāng)時(shí)整個(gè)業(yè)內(nèi)在AlphaGo席卷之下,應(yīng)該很多是往識(shí)別方向去做的。當(dāng)時(shí)的一個(gè)契機(jī)是什么呢?

唐睿:當(dāng)時(shí)契機(jī)還是我們意識(shí)到 AlphaGo 之所以能打敗人類(lèi)圍棋高手,也是數(shù)據(jù)驅(qū)動(dòng)的。當(dāng)然,在強(qiáng)化學(xué)習(xí)里,它通過(guò)強(qiáng)化策略加上隨機(jī)擾動(dòng),能夠產(chǎn)生大量的數(shù)據(jù),通過(guò)這種數(shù)據(jù)驅(qū)動(dòng)的形式,去產(chǎn)生新的智能體。所以我們當(dāng)時(shí)沒(méi)有完全 follow 強(qiáng)化學(xué)習(xí)的思路,而是 follow 了一套數(shù)據(jù)驅(qū)動(dòng)的范式。

所以我們?cè)?2018 年提出了 “3D-Internet”,2019 年,我們和中國(guó)科學(xué)技術(shù)大學(xué)的劉立剛老師團(tuán)隊(duì)在頂會(huì)上提出了數(shù)據(jù)驅(qū)動(dòng)范式下的戶(hù)型自動(dòng)設(shè)計(jì)方案,后面也把它應(yīng)用到了我們的產(chǎn)品里。

唐小引:我看您前面說(shuō)要做 3D 界的 ImageNet。到現(xiàn)在實(shí)現(xiàn)的成果是什么樣的?

唐睿:從商業(yè)化落地來(lái)看,進(jìn)展非常順利。目前市面上許多頭部做具身智能或者 3D 空間生成的團(tuán)隊(duì),都是我們開(kāi)源數(shù)據(jù)集以及閉源商業(yè)化數(shù)據(jù)集的客戶(hù)。由于簽署了 NDA(保密協(xié)議),具體客戶(hù)名單不便在這里公開(kāi)。

唐小引:沒(méi)關(guān)系,我們理解保密需求。您只需分享那些可以公開(kāi)的技術(shù)進(jìn)展即可。

唐睿:撇開(kāi)商業(yè)客戶(hù)不談,從純技術(shù)和學(xué)術(shù)合作的角度來(lái)看,我們最近產(chǎn)出了大量成果。我們與字節(jié)跳動(dòng)、Adobe、谷歌以及浙江大學(xué)等機(jī)構(gòu)都有深度的論文合作,核心都是基于數(shù)據(jù)驅(qū)動(dòng)的方式,去探索空間智能的不同維度。

正如我這次演講所提到的,我們正在嘗試對(duì)“3D 空間”進(jìn)行解構(gòu)。空間看似復(fù)雜,但拆解到最基礎(chǔ)的層級(jí),核心元素其實(shí)只有三樣:幾何、物理材質(zhì)和光。

以現(xiàn)在的熱門(mén)模型為例,像騰訊的“混元 3D”這類(lèi)大模型,主要解決的是“生成空間內(nèi)容”的問(wèn)題,也就是幾何和材質(zhì)的生成。但有了物體還不夠,這些幾何體和材質(zhì)需要通過(guò)特定的布局才能組合成一個(gè)有意義的空間。

所以,我們的研究重點(diǎn)主要分兩塊:

第一,是空間內(nèi)幾何體和材質(zhì)的高質(zhì)量生成;

第二,是研究空間內(nèi)物體的合理擺放與布局。

在此基礎(chǔ)上,我們與浙江大學(xué)的合作更進(jìn)一步。除了物體,我們還在研究“光的布局”——包括光線的擺放位置、照射方向。

更極客一點(diǎn)的探索是:我們是否能用 AI 大模型去擬合光線的物理傳播過(guò)程? 也就是用 AI 來(lái)模擬傳統(tǒng)物理渲染中的光照計(jì)算。


數(shù)據(jù)難題與未來(lái)圖景:室內(nèi)數(shù)據(jù)采集與硬件突破

唐小引:您在演講中提到一個(gè)觀點(diǎn)讓我印象深刻:相比室外自動(dòng)駕駛場(chǎng)景,室內(nèi)空間的數(shù)據(jù)獲取和標(biāo)注難度反而更大。我作為外行可能會(huì)覺(jué)得室內(nèi)環(huán)境相對(duì)封閉應(yīng)該更容易,為什么業(yè)內(nèi)會(huì)有這樣的判斷?難點(diǎn)究竟在哪里?

唐睿:這是一個(gè)非常好的問(wèn)題。我們可以對(duì)比一下室外自動(dòng)駕駛的數(shù)據(jù)獲取方式。像室外數(shù)據(jù),或者說(shuō)自動(dòng)駕駛行業(yè),它的數(shù)據(jù)獲取方式,就是車(chē)上搭著攝像頭。

唐小引:它跑著跑著就有了,我經(jīng)常看到。

唐睿:對(duì),它就能收集數(shù)據(jù)了,可能你跟一個(gè)市政府、區(qū)政府簽一個(gè)許可就可以了。所以采集是一種產(chǎn)生數(shù)據(jù)的方式,我們稱(chēng)之為逆向捕獲重建。

另一種是正向設(shè)計(jì)。像自動(dòng)駕駛領(lǐng)域,就會(huì)拿《GTA 5》作為一個(gè)仿真場(chǎng)景,再讓一輛虛擬的車(chē)在《GTA 5》的世界里開(kāi),它也能夠產(chǎn)生數(shù)據(jù)。所以自動(dòng)駕駛使用這種方式,現(xiàn)在的具身智能其實(shí)也一直在用這種方式。

但是,真實(shí)數(shù)據(jù)的采集,第一,它的許可很難獲取,或者在家里采集的話,會(huì)涉及到用戶(hù)隱私。當(dāng)然,像埃隆·馬斯克這種不差錢(qián)的,他們做 Optimus 的時(shí)候,我記得是在德州做了一個(gè)很大的場(chǎng)館,每個(gè)館里都有一個(gè)機(jī)器人,還有人類(lèi)操作員去給機(jī)器人下達(dá)任務(wù),然后機(jī)器人就去做抓取或者行動(dòng),以此來(lái)產(chǎn)生數(shù)據(jù)。但這里面一方面是剛才提到的隱私問(wèn)題。

另一方面,機(jī)器人任務(wù)可比車(chē)子復(fù)雜多了。車(chē)子操作的方式就是前后左右,它唯一的目標(biāo)就是不要碰到任何東西,并且能從 A 點(diǎn)到 B 點(diǎn)。但對(duì)于機(jī)器人來(lái)說(shuō),抓一個(gè)光滑的杯子和抓一個(gè)塑料的筆,其實(shí)都是兩種任務(wù),因?yàn)槟憬佑|到的物理屬性、物理對(duì)象的大小和形狀都不一樣。圓形的杯子你可能是這么抓,馬克杯你可能勾住把手就行了。所以,由于任務(wù)的多樣化,會(huì)導(dǎo)致數(shù)據(jù)的非集中化程度非常高,成本就會(huì)出現(xiàn)問(wèn)題。所以大家也是參照自動(dòng)駕駛領(lǐng)域,合成數(shù)據(jù)對(duì)于具身智能來(lái)說(shuō)是非常關(guān)鍵的一種數(shù)據(jù)產(chǎn)生范式。

唐小引:對(duì)于空間智能而言,下一步的進(jìn)化形態(tài)會(huì)是什么樣的? 比如過(guò)幾年,在我的室內(nèi)環(huán)境里,會(huì)發(fā)生哪些本質(zhì)的升級(jí)?

唐睿:要回答機(jī)器人的升級(jí)路徑,我們得回歸本質(zhì)。撇開(kāi)具體的算法不談,機(jī)器人在空間中的核心鏈路一共分四步:第一是空間感知,第二是空間理解,第三是空間推理與決策,最后是空間行動(dòng)。

未來(lái)的升級(jí),也會(huì)沿著這四個(gè)維度逐層展開(kāi):

首先是“空間感知”的泛化。

感知設(shè)備正在經(jīng)歷一場(chǎng)從“高冷”到“普及”的下沉。早期的空間掃描設(shè)備只出現(xiàn)在軍工、航天或博物館數(shù)字化等國(guó)家級(jí)項(xiàng)目中;后來(lái)下放到了工廠和新能源車(chē)上(如激光雷達(dá));隨著硬件發(fā)展,未來(lái)空間感知設(shè)備最終會(huì)普及到每個(gè)人手里,甚至戴在眼睛上。 雖然現(xiàn)在大眾的目光主要聚焦在 ChatGPT、Agent 等軟件層面上,但其實(shí)硬件感知能力的進(jìn)化速度是非??斓?,這塊板子很快會(huì)補(bǔ)齊。

其次是“空間理解”的質(zhì)變。

這正是我們?cè)诮衲辏?025 年) 3 月 GTC 大會(huì)上發(fā)布 Spatial-LM(空間語(yǔ)言模型) 的初衷。

它與傳統(tǒng)的 ChatGPT 或圖像理解模型最大的不同在于輸入數(shù)據(jù):我們不再處理平面的文本符號(hào)或像素圖片,而是直接處理由感知設(shè)備采集的 3D 點(diǎn)云或 3D 高斯數(shù)據(jù)。

在這個(gè)階段,AI 的任務(wù)不再是泛泛地識(shí)別,而是要精準(zhǔn)地感知幾何目標(biāo)。比如,它不僅要知道“這是一把椅子”,還要知道“這個(gè)空間的尺寸是否允許人類(lèi)通行”。它需要反饋給我們非常精準(zhǔn)的幾何結(jié)構(gòu)、顏色、光照乃至物理屬性的信息。

最后是“空間推理與交互”的智能化。

這也是我們開(kāi)源 Spatial-LM 也是希望呼吁整個(gè)社區(qū)關(guān)注的方向。到了這一步,我們需要通過(guò)仿真和合成數(shù)據(jù)的方式,去產(chǎn)生海量的高質(zhì)量交互數(shù)據(jù)。 只有這樣,我們的智能體才能真正學(xué)會(huì)如何在物理世界中順滑地行動(dòng),變得更加“聰明”。


技術(shù)路線之爭(zhēng):合成數(shù)據(jù)、2D 與 3D 的融合探索

唐小引:對(duì),仿真和合成數(shù)據(jù)。我最開(kāi)始聽(tīng)黃仁勛本人就在強(qiáng)調(diào)這個(gè)?,F(xiàn)在因?yàn)榛ヂ?lián)網(wǎng)數(shù)據(jù)耗盡的問(wèn)題,在直接的 AI 軟件層面,大家也在主攻這個(gè)方向。那相應(yīng)地,具身智能和空間智能也都在做這個(gè)方向,從技術(shù)挑戰(zhàn)上有什么不同點(diǎn)嗎?

唐睿:先講不同點(diǎn)還是相同點(diǎn)。我覺(jué)得技術(shù)是 Application-Driven(應(yīng)用驅(qū)動(dòng))的。

唐小引:我發(fā)現(xiàn)這是您的理念,您在始終強(qiáng)調(diào)這個(gè)。

唐睿:對(duì),因?yàn)樽黾夹g(shù)管理者需要連接技術(shù)和應(yīng)用。換句話說(shuō),資源是有限的,在有限的資源下怎么樣創(chuàng)造最大的價(jià)值?那就必須要把前面的應(yīng)用場(chǎng)景考慮清楚。

當(dāng)我們談?wù)摗翱臻g智能”的合成數(shù)據(jù)時(shí),它的復(fù)雜度是隨著應(yīng)用場(chǎng)景的需求分層級(jí)遞進(jìn)的:

第一層是“視覺(jué)級(jí)”需求。

比如做家裝設(shè)計(jì)或空間渲染,它的核心訴求是“看”。只要渲染得逼真、美觀就足夠了,這是一個(gè)靜態(tài)的維度。

第二層是“游戲級(jí)”需求。

如果是手機(jī)游戲或 VR 體驗(yàn),光“看”是不夠的,還需要基礎(chǔ)交互。比如不能出現(xiàn)“穿?!薄悴荒苤苯哟┻^(guò)桌子或墻壁;柜門(mén)要能打開(kāi);物體要能被拿起來(lái)。但在這一層,物理屬性往往是簡(jiǎn)化的,游戲引擎并不在乎你抓取一個(gè)物體用了多少牛頓的力,只要邏輯通順即可。

第三層,才是具身智能所需的“物理仿真級(jí)”需求,我們稱(chēng)之為“Sim-Ready”。

當(dāng)你需要生成數(shù)據(jù)去訓(xùn)練機(jī)器人時(shí),對(duì)物理屬性和交互準(zhǔn)確度的要求會(huì)呈指數(shù)級(jí)上升。機(jī)器人需要知道物體的摩擦力、質(zhì)量分布、形變屬性等。

所以,我們的工作也是層層遞進(jìn)的:

首先構(gòu)建一個(gè)靜態(tài)場(chǎng)景;

然后通過(guò)數(shù)據(jù)增強(qiáng)賦予其物理屬性,使其變成動(dòng)態(tài)的可交互場(chǎng)景;

最終達(dá)到“Sim-Ready”的標(biāo)準(zhǔn),即可以直接用于物理仿真訓(xùn)練的場(chǎng)景。

目前,我們團(tuán)隊(duì)的前沿研究正在主攻“Sim-Ready”方向,而我們的核心業(yè)務(wù)則更多聚焦在空間設(shè)計(jì)應(yīng)用層面。

最后補(bǔ)充一點(diǎn),雖然物理仿真的合成數(shù)據(jù)對(duì)具身智能至關(guān)重要,但這并非全部??臻g智能主要解決的是“數(shù)據(jù)短缺”和“空間理解”的問(wèn)題,充當(dāng)了機(jī)器人的“訓(xùn)練場(chǎng)”和“眼睛”。 但具身智能作為一個(gè)集大成的領(lǐng)域,還面臨著機(jī)械硬件、電路、電池能源等硬科技的挑戰(zhàn)。在我看來(lái),具身智能和太空探索一樣,都是人類(lèi)技術(shù)的終極形態(tài)之一。

唐小引:您認(rèn)為終極目標(biāo)是具身智能,而非空間智能?就是說(shuō)我們對(duì)于 AGI 的探索,終極目標(biāo)是落在具身智能上嗎?

唐睿:我覺(jué)得是在具身智能上。如果我自己來(lái)定義一個(gè) AGI,那它一定就是跟人一樣。如果這個(gè) AGI 只在屏幕空間里,那它可能會(huì)考慮到空間智能這些事情。但真正走進(jìn)物理世界,具身智能是和屏幕空間對(duì)應(yīng)的物理世界里的 AI,那它可能更高級(jí)。

唐小引:我看到當(dāng)前具身智能在構(gòu)建世界模型,空間智能也在做。有一個(gè)觀點(diǎn)說(shuō),空間智能是構(gòu)建世界模型的前提,然后通過(guò)世界模型才能到達(dá) AGI。您對(duì)這個(gè)邏輯有什么看法?或者可以分享一下您的觀點(diǎn)。

唐睿:我的觀點(diǎn)是,這還是一個(gè)對(duì) AGI 的定義問(wèn)題。如果這個(gè) AGI 是在屏幕空間里和人類(lèi)對(duì)話的,那他不需要空間智能。但如果他需要在屏幕空間里去創(chuàng)造 3D 世界,甚至像具身智能一樣走出屏幕空間,那空間智能或者說(shuō)世界模型就非 常關(guān)鍵了。

提到世界模型和空間智能的關(guān)系,我覺(jué)得目前業(yè)界其實(shí)并沒(méi)有一個(gè)統(tǒng)一的標(biāo)準(zhǔn)定義。

如果我們將世界模型定義為“能夠預(yù)測(cè)世界的下一個(gè)狀態(tài)”或者“能夠創(chuàng)造一個(gè)新世界”的能力,那么鑒于人類(lèi)本身是三維生物,構(gòu)建世界模型的路徑自然分化為兩派:一派是基于視頻生成,另一派是基于 3D 結(jié)構(gòu)構(gòu)造。當(dāng)然,這兩者的基座往往都離不開(kāi)大語(yǔ)言模型。

值得注意的是,這兩條技術(shù)路線并非割裂,而在互相借鑒與融合。

首先是“視頻輔助 3D”:

比如我們?cè)谧銮梆伿降母咚股蓵r(shí),如果初始輸入只有一張單圖,要重建出高質(zhì)量的 3D 高斯體,必須先有多視角的圖像信息。這時(shí),我們就會(huì)借用 Video Diffusion 模型,先生成多視角的視頻幀作為中間素材,再喂給 3D 算法進(jìn)行重建。

反過(guò)來(lái)是“3D 反哺視頻”:

大家發(fā)現(xiàn)純視頻模型有一個(gè)致命弱點(diǎn):當(dāng)時(shí)間線拉長(zhǎng)后,視頻內(nèi)容的一致性很難維持。比如你在視頻里向前走了一段路再回頭,原來(lái)的物體可能變樣甚至消失了。

為了解決這個(gè)問(wèn)題,大家開(kāi)始引入 3D 概念。嘗試將 3D 表征或 3D 隱空間作為中間媒介。利用 3D 天然的結(jié)構(gòu)穩(wěn)定性,來(lái)強(qiáng)制約束視頻生成過(guò)程,確保其在空間和時(shí)間維度上保持高度一致。

所以,這并不是 誰(shuí)是誰(shuí)的前提,更像是一個(gè)螺旋上升、互為支撐的過(guò)程。

唐小引:我聽(tīng)到對(duì)于空間智能技術(shù)路線的爭(zhēng)議,比如大家提到的空間一致性,以及視頻生成和 3D 場(chǎng)景生成的路線之爭(zhēng)。您是 3D 這條路線的支持者是吧?

唐睿:也不能算,我兩個(gè)都在做。

唐小引:都會(huì)用,所以是融合派。

唐睿:是。其實(shí)不管我們做 2D 的 Diffusion,還是做 Video Diffusion,大家會(huì)發(fā)現(xiàn)你要把分辨率拉大,或者把視頻的長(zhǎng)度拉長(zhǎng),顯存就不夠了。我們做 3D 的時(shí)候也會(huì)出現(xiàn)這個(gè)問(wèn)題。所以它其實(shí)還是一個(gè)資源限制導(dǎo)致我們現(xiàn)在必須以一種融合的方式去進(jìn)行。

未來(lái)如果 GPU 顯存無(wú)限大,或者我們有一種新的、不是 Transformer 這樣的算法,甚至我稱(chēng)之為一種 3D 的……如果我們定義一個(gè) 3D 的 Killer concept 出現(xiàn),那可能原來(lái)的基礎(chǔ)算法就翻篇了。就像以前大家做圖像會(huì)用 CNN,當(dāng)然 CNN 在某些領(lǐng)域還非常好用,但是當(dāng) Transformer 出現(xiàn)以后,原來(lái)大家用 CNN 甚至 RNN 的很多方法,其實(shí)真的已經(jīng)翻篇了。大家為什么現(xiàn)在還在融合,或者說(shuō)為什么還在探索,其實(shí)也是在找一個(gè) Killer concept 。

唐小引:那圍繞空間智能還有哪些技術(shù)路線的爭(zhēng)議嗎?我發(fā)現(xiàn)大家的各種討論都還蠻有意思的。

唐睿:圍繞空間智能,我覺(jué)得不存在爭(zhēng)議,因?yàn)楝F(xiàn)在大家還在一條船上探索。

唐小引:那在探索中有什么共識(shí)和非共識(shí)嗎?在技術(shù)這個(gè)維度上。

唐睿:共識(shí)是數(shù)據(jù)都缺少。非共識(shí),我覺(jué)得也不能叫非共識(shí),因?yàn)檫@個(gè)領(lǐng)域還是比較前沿的,你會(huì)發(fā)現(xiàn)還有很多論文在做,這里面 還有很多探索空間。當(dāng)一個(gè)領(lǐng)域不怎么出現(xiàn)新論文時(shí),可 能已經(jīng)去泡沫化了?,F(xiàn)在這 里面還有泡沫,就說(shuō)明還有很多事情有價(jià)值,不管是商業(yè)價(jià)值還是技術(shù)探索價(jià)值,還能去做。

唐小引:您剛才說(shuō)的都缺數(shù)據(jù),這是痛點(diǎn)。那相應(yīng)地有什么解決方案?這些方案因?yàn)楸旧硪苍诿?,有什么是可行的,有什么是可能是各?zhí)己見(jiàn)的?

唐睿:可行的方案,我覺(jué)得就是早上說(shuō)的正向設(shè)計(jì)和逆向設(shè)計(jì)的方式。正向設(shè)計(jì)讓設(shè)計(jì)師通過(guò)設(shè)計(jì)軟件去創(chuàng)作一個(gè) 3D 空間或物體,它的成本和代價(jià)還是比較高的。我們的做法是,因?yàn)槲覀冇惺覂?nèi)空間設(shè)計(jì)這個(gè)業(yè)務(wù),設(shè)計(jì)師在我們平臺(tái)去創(chuàng)造空間的時(shí)候,它不僅僅是為 AI 訓(xùn)練產(chǎn)生價(jià)值,它最主要、最直接的價(jià)值是服務(wù)于空間設(shè)計(jì)、空間展示、空間交互這樣的需求。所以那部分價(jià)值已經(jīng)在市場(chǎng)上浮現(xiàn)出來(lái),設(shè)計(jì)師也能夠通過(guò)這個(gè)獲得回報(bào)。

我們所以有這個(gè)數(shù)據(jù),但我個(gè)人覺(jué)得從數(shù)據(jù)的角度來(lái)說(shuō),它不是一個(gè)最高效的產(chǎn)生數(shù)據(jù)的方式。最高效的方式應(yīng)該是,就像我們戴手表或者用手機(jī)的時(shí)候,你在日常生活的每一個(gè)行為、每一個(gè)動(dòng)作,都能產(chǎn)生數(shù)據(jù),那才是解決數(shù)據(jù)問(wèn)題的最終之道。所以我們也在跟不同的硬件去生態(tài)合作。

所以,至少在空間智能領(lǐng)域,我們是不會(huì)去忽視硬件發(fā)展的。當(dāng)我的眼鏡、手機(jī)甚至手表都能采集空間數(shù)據(jù)時(shí),這可能是解決空間數(shù)據(jù)不足的最終解決方案。這是我的一個(gè)認(rèn)知。至于分歧,如果說(shuō)技術(shù)上有分歧,那就是把 2D Diffusion 和3D Diffusion 哪個(gè)作為中間媒介來(lái)做。你用不同的中間媒介,比如 3D 作為中間媒介,那視頻就是最終的成品;如果你說(shuō) 2D 作為中間媒介,那 3D 就是最終的成品。


開(kāi)源的力量:共建空間智能生態(tài)

唐小引:可以再談?wù)勯_(kāi)源。群核在開(kāi)源方面做了很多,可以講講嗎?比如您和公司管理層對(duì)于開(kāi)源策略的思考,以及群核開(kāi)源策略的演進(jìn)。

唐睿:我們也有點(diǎn)照貓畫(huà)虎,硅谷這邊很流行開(kāi)源文化。從我做技術(shù)的角度,如果不談技術(shù)國(guó)界和邊界,我們最希望的是開(kāi)源。當(dāng)然也要從商業(yè)化的角度去思考,因?yàn)楝F(xiàn)在至少在世界模型或者空間智能這個(gè)角度,還沒(méi)有一個(gè)核心概念出現(xiàn)。在這種情況下,我們選擇把數(shù)據(jù)和模型開(kāi)源出去,本質(zhì)上是拋磚引玉,希望能集結(jié)整個(gè)社區(qū)的智慧,共同探索和定義這個(gè)領(lǐng)域的未來(lái)標(biāo)準(zhǔn)。

另一個(gè)角度,開(kāi)源和我們服務(wù)的生態(tài)定位有關(guān)。打個(gè)比方,我們的三維空間數(shù)據(jù),大家也會(huì)拿來(lái)去訓(xùn)練 Embodied AI,也會(huì)訓(xùn)練 3D 世界模型。那以 Embodied AI 為例,我們會(huì)發(fā)現(xiàn)在市場(chǎng)上,全球角度來(lái)說(shuō),真正能夠去訓(xùn)練機(jī)器人對(duì)空間理解、空間交互的團(tuán)隊(duì)是非常少的。但是又有很多小型團(tuán)隊(duì)希望參與到這個(gè)游戲里面來(lái)。

這就是我們?yōu)槭裁慈ラ_(kāi)源 Spatial-LM 這樣一個(gè)空間理解模型的意義。你可能自己沒(méi)辦法去訓(xùn)練一個(gè)這樣的模型,但是我把 API 做好,甚至我把我們已經(jīng)訓(xùn)練好的模型先放出來(lái),然后你自己有一些數(shù)據(jù)以后,也能夠在我的模型基礎(chǔ)上去微調(diào)出一個(gè)符合你業(yè)務(wù)場(chǎng)景的模型,讓更多的人參與到這個(gè)游戲里面來(lái)。這是我們?cè)诳臻g理解這塊做的。就像空間生成,其實(shí)我們也會(huì)在年底的時(shí)候發(fā)布一個(gè)跟空間生成相關(guān)的大模型出來(lái)。

也是同樣的邏輯,并非一定要技術(shù)人員才能創(chuàng)業(yè)。我們希望更多的產(chǎn)品經(jīng)理也能夠跳出來(lái)用起來(lái),然后把商業(yè)模式……因?yàn)槠鋵?shí)在 AI 時(shí)代,技術(shù)很關(guān)鍵,但是另外,對(duì)產(chǎn)品的定義、對(duì)用戶(hù)的定義,以及用戶(hù)數(shù)據(jù)和模型的飛輪,其實(shí)也是一個(gè) AI 企業(yè),尤其是 AI 初創(chuàng)企業(yè),能夠成功的關(guān)鍵。

唐小引:最后總結(jié)一下。從空間智能的技術(shù)發(fā)展上來(lái)看,比如數(shù)據(jù)、算力、模型這些方面,在接下來(lái)的一段時(shí)間(可以是短期或長(zhǎng)期),還會(huì)有哪些關(guān)鍵的突破?這是技術(shù)發(fā)展。然后相應(yīng)地體現(xiàn)到人,回歸到人身上。

現(xiàn)在我理解空間智能開(kāi)始被越來(lái)越多的開(kāi)發(fā)者知道,這可能核心得益于比如群核是杭州六小龍之一,比如李飛飛這位知名的 AI 學(xué)者也在投身這個(gè)方向。但很多人可能剛從陌生到逐漸了解,您有哪些思考和建議,可以分享給希望投身空間智能領(lǐng)域的人?

唐睿:這很難說(shuō)。在前 AI 時(shí)代,或者說(shuō)再往前一兩年,都是人在開(kāi)發(fā) AI,現(xiàn)在你已經(jīng)能夠看到……就像 xAI 他們已經(jīng)在做的一些事情,包括我覺(jué)得這可能也是 CSDN 在致力研究的一些事情,就是 AI 真的是在參與到 AI 的開(kāi)發(fā)過(guò)程里面去了。所以當(dāng)這個(gè)循環(huán)轉(zhuǎn)起來(lái)以后,AI 的發(fā)展技術(shù)是非常可怕的。

當(dāng)然,提到空間智能它的突破點(diǎn),我覺(jué)得等硬件。

從軟件的角度說(shuō),AI 已經(jīng)能開(kāi)發(fā) AI 了。算力不由我們決定,我們搞不了芯片。然后從數(shù)據(jù)的角度來(lái)說(shuō),如果要產(chǎn)生一個(gè)爆點(diǎn),這個(gè)爆點(diǎn)一定是在我們對(duì)現(xiàn)實(shí)的創(chuàng)作,或者說(shuō)我們創(chuàng)作 3D 空間的方式上。原來(lái)創(chuàng)作 3D 空間的方式,剛才提到只能是設(shè)計(jì)師去設(shè)計(jì)。當(dāng)每個(gè)人都可以對(duì)空間進(jìn)行捕獲、進(jìn)行還原的時(shí)候,它會(huì)是一個(gè)爆點(diǎn)。這個(gè)爆點(diǎn)我覺(jué)得應(yīng)該兩年,可能 24 個(gè)月。

第二個(gè)問(wèn)題其實(shí)這也是我們團(tuán)隊(duì)里搞科研時(shí)會(huì)定義的一個(gè)態(tài)度。一個(gè)思維態(tài)度是Be Critical, Be Creative,就是用批判和創(chuàng)造性的態(tài)度去看問(wèn)題。另外,在能力角度,不能光想,想法本身不值錢(qián),你一定要去做實(shí)現(xiàn)。

所以做空間智能的時(shí)候,可能也跟我自身的經(jīng)歷有關(guān),我做過(guò)圖形學(xué)。圖形學(xué)里面我們不光是像 CV 里看到這個(gè)東西是藍(lán)色就是藍(lán)色,當(dāng)我這個(gè)燈換成一個(gè)紅色的光時(shí),它照下來(lái)就是紫色了。所以把這種批判和創(chuàng)造性的理念放到多個(gè)領(lǐng)域里面去,會(huì)有很大的幫助。

唐小引:所以我理解還是思維上的轉(zhuǎn)變。

唐睿:其實(shí)也不是,咱們科研工作者都得持續(xù)地保持這樣一種,說(shuō)白了就是進(jìn)取的態(tài)度。

唐小引: 好的,謝謝唐老師為我們帶來(lái)的精彩分享。謝謝大家,下次再見(jiàn)。( 投稿或?qū)で髨?bào)道:zhanghy@csdn.net )

↓想要觀看完整視頻的小伙伴可戳~

關(guān)于《萬(wàn)有引力》:

這是由 CSDN &《新程序員》執(zhí)行總編唐小引主理的對(duì)話欄目。技術(shù)趨勢(shì)多變,一不留神總擔(dān)心錯(cuò)過(guò)。正在發(fā)生的技術(shù)事件,對(duì)于我們開(kāi)發(fā)者意味著什么?我們面臨的諸多困惑從何尋找答案?《萬(wàn)有引力》即志在于此,直面事件與困惑,抽絲剝繭,解讀技術(shù)真相。

  • 欄目定位:一檔面向開(kāi)發(fā)者群體,聚焦解讀技術(shù)真相的對(duì)話欄目。

  • 視頻觀看平臺(tái):CSDN 視頻號(hào)、CSDN 網(wǎng)站 & App

  • 多形式:文章、視頻、音頻都會(huì)有,持續(xù)關(guān)注 CSDN 公眾號(hào)都可獲取,歡迎大家關(guān)注!


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
41+19+11!給機(jī)會(huì)楊瀚森就是中國(guó)版約基奇

41+19+11!給機(jī)會(huì)楊瀚森就是中國(guó)版約基奇

林子說(shuō)事
2026-03-09 20:03:44
馬斯克評(píng)比亞迪:產(chǎn)能跌破50%是"巨大痛苦",BYD連續(xù)六個(gè)月銷(xiāo)量下滑

馬斯克評(píng)比亞迪:產(chǎn)能跌破50%是"巨大痛苦",BYD連續(xù)六個(gè)月銷(xiāo)量下滑

新浪財(cái)經(jīng)
2026-03-07 20:46:51
山姆超市最值得買(mǎi)的10樣美食,基本都口碑封神,性?xún)r(jià)比拉滿

山姆超市最值得買(mǎi)的10樣美食,基本都口碑封神,性?xún)r(jià)比拉滿

市井覓食記
2026-03-09 00:59:33
一次越界打擊揭開(kāi)美以裂痕,盟友的“伊朗算盤(pán)”為何打不到一起?

一次越界打擊揭開(kāi)美以裂痕,盟友的“伊朗算盤(pán)”為何打不到一起?

上觀新聞
2026-03-10 04:53:03
牡丹花下死!這次自曝和張杰分手細(xì)節(jié)的段曦,沒(méi)給謝娜留一絲體面

牡丹花下死!這次自曝和張杰分手細(xì)節(jié)的段曦,沒(méi)給謝娜留一絲體面

做一個(gè)合格的吃瓜群眾
2026-03-04 20:31:49
官宣!28歲中超新援被美職聯(lián)終身禁賽 若上報(bào)國(guó)際足聯(lián)恐全球禁賽

官宣!28歲中超新援被美職聯(lián)終身禁賽 若上報(bào)國(guó)際足聯(lián)恐全球禁賽

念洲
2026-03-10 06:47:39
為什么中年男人去哪都要開(kāi)車(chē)???

科普中國(guó)
2026-03-08 19:06:44

起底伊朗新領(lǐng)袖穆杰塔巴:19歲進(jìn)入革命衛(wèi)隊(duì),曾說(shuō)服父親力推內(nèi)賈德當(dāng)選總統(tǒng),坐鎮(zhèn)平息內(nèi)賈德選舉舞弊風(fēng)波引發(fā)的全國(guó)抗議

起底伊朗新領(lǐng)袖穆杰塔巴:19歲進(jìn)入革命衛(wèi)隊(duì),曾說(shuō)服父親力推內(nèi)賈德當(dāng)選總統(tǒng),坐鎮(zhèn)平息內(nèi)賈德選舉舞弊風(fēng)波引發(fā)的全國(guó)抗議

大象新聞
2026-03-09 09:45:05
你永遠(yuǎn)想不到醫(yī)院的八卦能有多炸裂?一件提神醒腦,兩件直接撂倒

你永遠(yuǎn)想不到醫(yī)院的八卦能有多炸裂?一件提神醒腦,兩件直接撂倒

另子維愛(ài)讀史
2026-01-22 18:21:09
手機(jī)有沒(méi)有被監(jiān)聽(tīng)?看一眼頂部狀態(tài)欄就清楚

手機(jī)有沒(méi)有被監(jiān)聽(tīng)?看一眼頂部狀態(tài)欄就清楚

小柱解說(shuō)游戲
2026-03-08 05:10:17
固態(tài)變壓器爆發(fā)在即,訂單暴漲700%

固態(tài)變壓器爆發(fā)在即,訂單暴漲700%

環(huán)球零碳
2026-03-09 21:36:36
重磅:曝烏克蘭準(zhǔn)備對(duì)俄羅斯領(lǐng)土發(fā)動(dòng)春季大反攻!

重磅:曝烏克蘭準(zhǔn)備對(duì)俄羅斯領(lǐng)土發(fā)動(dòng)春季大反攻!

項(xiàng)鵬飛
2026-03-09 15:57:15
張國(guó)立沒(méi)想到,央劇《我的山與海》播出僅3天,趙亮竟口碑逆轉(zhuǎn)

張國(guó)立沒(méi)想到,央劇《我的山與?!凡コ鰞H3天,趙亮竟口碑逆轉(zhuǎn)

吳锎旅行ing
2026-03-10 05:56:05
中國(guó)為何要掛日式燈籠?博主譴責(zé)這是嚴(yán)重的“文化錯(cuò)位”

中國(guó)為何要掛日式燈籠?博主譴責(zé)這是嚴(yán)重的“文化錯(cuò)位”

映射生活的身影
2026-03-09 03:08:46
婚禮上,新娘索要9萬(wàn)改口費(fèi),不給就不叫媽?zhuān)牌牛哼€是叫阿姨吧

婚禮上,新娘索要9萬(wàn)改口費(fèi),不給就不叫媽?zhuān)牌牛哼€是叫阿姨吧

清水家庭故事
2026-03-09 07:27:17
梁山上唯一沒(méi)有朋友的好漢:無(wú)人與他玩,就算生病到死都沒(méi)人問(wèn)津

梁山上唯一沒(méi)有朋友的好漢:無(wú)人與他玩,就算生病到死都沒(méi)人問(wèn)津

銘記歷史呀
2026-03-08 14:05:52
2026安裝OpenClaw接入A股數(shù)據(jù),實(shí)現(xiàn)全時(shí)股票AI解析教程

2026安裝OpenClaw接入A股數(shù)據(jù),實(shí)現(xiàn)全時(shí)股票AI解析教程

呼呼歷史論
2026-03-07 21:59:17
油價(jià)即將暴漲 92號(hào)汽油上漲0.55元/升 加油站已大排長(zhǎng)隊(duì)

油價(jià)即將暴漲 92號(hào)汽油上漲0.55元/升 加油站已大排長(zhǎng)隊(duì)

太平洋汽車(chē)
2026-03-09 21:13:10
林徽因落選的國(guó)徽方案,網(wǎng)友看后感嘆:審美確實(shí)一絕,但真不合適

林徽因落選的國(guó)徽方案,網(wǎng)友看后感嘆:審美確實(shí)一絕,但真不合適

興趣知識(shí)
2026-03-08 19:32:42
黃金、白銀大跌!美元飆升,原油飆升!

黃金、白銀大跌!美元飆升,原油飆升!

每日經(jīng)濟(jì)新聞
2026-03-09 10:07:57
2026-03-10 09:00:49
CSDN incentive-icons
CSDN
成就一億技術(shù)人
26365文章數(shù) 242241關(guān)注度
往期回顧 全部

科技要聞

OpenClaw更新,"養(yǎng)蝦"再也不會(huì)犯健忘癥了

頭條要聞

牛彈琴:特朗普放風(fēng)要停戰(zhàn) 伊朗稱(chēng)正為美國(guó)準(zhǔn)備"驚喜"

頭條要聞

牛彈琴:特朗普放風(fēng)要停戰(zhàn) 伊朗稱(chēng)正為美國(guó)準(zhǔn)備"驚喜"

體育要聞

36連勝終結(jié)!大魔王也是可以戰(zhàn)勝的

娛樂(lè)要聞

薛之謙老婆懷二胎,現(xiàn)身產(chǎn)檢心情愉快

財(cái)經(jīng)要聞

"養(yǎng)蝦"生意經(jīng):有人賣(mài)鏟,有人做保鏢

汽車(chē)要聞

對(duì)標(biāo)奔馳小號(hào)G級(jí) 路虎小型衛(wèi)士最新消息曝光

態(tài)度原創(chuàng)

教育
時(shí)尚
房產(chǎn)
旅游
藝術(shù)

教育要聞

“6年考研不如一條黑褲襪”,女孩活成研王爺,視頻說(shuō)明一切

今年最流行的5條半裙,怎么搭都好看!

房產(chǎn)要聞

國(guó)家要砸400億!海南這個(gè)超級(jí)項(xiàng)目又有新消息!

旅游要聞

中國(guó)入境游活力迸發(fā)

藝術(shù)要聞

30000畝杏花開(kāi)了,才知道原來(lái)新疆的春天這么美!

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版