国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

空間智能爆發(fā)只需24個(gè)月?群核科技首席科學(xué)家唐睿預(yù)言:具身智能才是AGI終極形態(tài) | 萬(wàn)有引力

0
分享至


對(duì)話(huà) | 唐小引 嘉賓 | 唐睿

責(zé)編 | 夢(mèng)依丹

出品 | CSDN(ID:CSDNnews)

當(dāng)大模型開(kāi)始“看懂”空間、理解物理、做出行動(dòng),人工智能的形態(tài)正在發(fā)生一次根本性變化——從“對(duì)話(huà)系統(tǒng)”,走向“行動(dòng)智能”。

在這條路徑上,一個(gè)詞被頻繁提起:空間智能。

如果說(shuō) LLM 讓機(jī)器擁有了像人類(lèi)一樣思考的大腦,那么空間智能則試圖賦予機(jī)器像人類(lèi)一樣觀察、理解并在三維世界中行動(dòng)的身體與感官。

它并非憑空出現(xiàn),而是扎根于計(jì)算機(jī)圖形學(xué)對(duì)幾何、材質(zhì)與光照的長(zhǎng)期積累,依托 GPU 并行計(jì)算對(duì)物理世界的高保真模擬,通過(guò)“先模擬世界,再理解智能”的路徑,逼近真實(shí)智能的邊界。

正是在這個(gè)被李飛飛等頂尖學(xué)者視為“通往 AGI 的關(guān)鍵拼圖”的領(lǐng)域,群核科技(酷家樂(lè))首席科學(xué)家唐睿已經(jīng)深耕多年。

從浙江大學(xué)的“求是”精神到英國(guó)巴斯大學(xué)的“跨界”洗禮,再到伴隨群核科技走過(guò)十余年的技術(shù)長(zhǎng)征,唐睿的職業(yè)生涯本身就是一部從“圖形學(xué)渲染”走向“空間智能體”的進(jìn)化史。

他曾面臨一個(gè)終極的技術(shù)命題:手握高性能計(jì)算資源,我們究竟是用它來(lái)模擬物理世界的影像,還是模擬具備智能的生命體?


左:唐睿,右:唐小引

在全球機(jī)器學(xué)校技術(shù)大會(huì)現(xiàn)場(chǎng),唐睿在與 CSDN 《萬(wàn)有引力》欄目的深度對(duì)話(huà)中,不僅給出了他的答案,更剖 析了行業(yè)深處的痛點(diǎn)與機(jī)遇。以下是訪(fǎng)談中唐睿表達(dá)的一些觀點(diǎn)提煉:

  • 空間智能與具身智能的關(guān)系:服務(wù)與被服務(wù)——空間智能是具身智能(Embodied AI)的基礎(chǔ)設(shè)施。如果說(shuō)具身智能是最終要在物理世界行動(dòng)的“人”,那么空間智能就是它的“眼睛”和“訓(xùn)練場(chǎng)”??臻g智能通過(guò)生成 3D 場(chǎng)景和仿真數(shù)據(jù),解決具身智能訓(xùn)練數(shù)據(jù)嚴(yán)重不足的痛點(diǎn);

  • 解決“數(shù)據(jù)饑渴”的終極之道在硬件:目前行業(yè)主要依靠“正向設(shè)計(jì)”(如設(shè)計(jì)師使用軟件創(chuàng)作)和“合成數(shù)據(jù)”來(lái)彌補(bǔ)數(shù)據(jù)缺口。但唐睿認(rèn)為,這仍是“從蛋里孵蛋”。真正的終極解決方案在于感知硬件的普及——當(dāng)眼鏡、手機(jī)、手表都能無(wú)感采集空間數(shù)據(jù)時(shí),數(shù)據(jù)瓶頸將被徹底打破;

  • 2D、視頻與 3D 并非路線(xiàn)之爭(zhēng),而是融合演進(jìn):在構(gòu)建世界模型的路徑上,視頻生成(2D)與 3D 生成并非割裂。行業(yè)正在走向融合:利用 3D 的結(jié)構(gòu)穩(wěn)定性來(lái)解決視頻生成的“時(shí)空一致性”問(wèn)題,反之利用視頻模型的多視角能力輔助 3D 重建。這是一個(gè)螺旋上升的過(guò)程;

  • 未來(lái)預(yù)判:硬件爆點(diǎn)將在 24 個(gè)月內(nèi)到來(lái)——AI 開(kāi)發(fā) AI 的循環(huán)已經(jīng)開(kāi)啟,軟件迭代速度極快。唐睿預(yù)測(cè),空間智能的下一個(gè)真正爆點(diǎn)將等待硬件的突破。當(dāng)每個(gè)人都能低門(mén)檻地對(duì)現(xiàn)實(shí)空間進(jìn)行捕獲和還原時(shí),行業(yè)將迎來(lái)質(zhì)變,這個(gè)窗口期大約在兩年(24 個(gè)月)左右。

歡迎 收聽(tīng)音頻播客,如有興趣觀看完整視頻,可在文末獲取

以下是對(duì)話(huà)的完整內(nèi)容:

唐小引:屏幕前的小伙伴們大家好,歡迎收看《萬(wàn)有引力》。今天我們來(lái)到全球機(jī)器學(xué)習(xí)技術(shù)大會(huì)的現(xiàn)場(chǎng),特別邀請(qǐng)到了群核科技首席科學(xué)家唐睿老師,和大家一起深入分享他的技術(shù)人生成長(zhǎng),還有大家當(dāng)前很關(guān)注的對(duì)于空間智能的整個(gè)思考、研究以及實(shí)踐。歡迎我的本家唐老師,可以給大家打個(gè)招呼,然后做一下自我介紹。

唐睿:大家好,我是來(lái)自群核科技的唐睿。我的主要研究領(lǐng)域是計(jì)算機(jī)圖形學(xué)和人工智能,也會(huì)涉及到一些具身智能、交互感知相關(guān)的工作。

唐小引:我想先理清一下概念,具身智能和空間智能,它們的關(guān)系和不同點(diǎn)是什么?

唐睿:我覺(jué)得空間智能在某種層面,無(wú)論是在算法還是交互層面,是服務(wù)于具身智能的。因?yàn)槿绻覀冋f(shuō)人類(lèi)終極的 AGI,是不僅能夠觀察、理解、思考這個(gè)世界,甚至還應(yīng)該能像人類(lèi)一樣去和這個(gè)世界交互。我們說(shuō)的具身智能里的 AI,就是要和這個(gè)世界進(jìn)行交互的。

所以,至少我們現(xiàn)在在做的空間智能,是關(guān)于 3D 世界,或者說(shuō)包括 2D 視頻這類(lèi)世界的生成方式。由于現(xiàn)在具身智能會(huì)考慮到數(shù)據(jù)不足的問(wèn)題,所以會(huì)需要基于一些 2D 的交互視頻,或者 3D 的可交互場(chǎng)景,再加上仿真計(jì)算這樣的方式,去產(chǎn)生大量的數(shù)據(jù),用于具身智能未來(lái)和真實(shí)物理世界交互的訓(xùn)練,甚至是驗(yàn)證。


從 CG 到空間智能:唐睿的技術(shù)啟蒙之路

唐小引:您可以接著談?wù)勛约旱墓适?,是怎么?CG 一步步走上空間智能之路的?

唐睿:其實(shí)也不能算一步步走到空間智能這一步。CG 里面會(huì)涉及到我們稱(chēng)之為 Shape 或者 Geometry Analysis,也就是空間幾何的理解,它其實(shí)本身也是一種智能。當(dāng)我畫(huà)出一個(gè)椅子的時(shí)候,在計(jì)算機(jī)里,如果你不告訴它這是一把椅子,那它應(yīng)該如何去理解?這本身就是智能的一部分。

除此之外,CG 的另一大核心是大家玩游戲時(shí)很熟悉的“渲染”。渲染的本質(zhì)是對(duì)光傳播的模擬。比如我們看到一個(gè)金屬質(zhì)感的物體,是因?yàn)楣庠凑丈涞揭粋€(gè)具備特定物理屬性的表面,光線(xiàn)反射后進(jìn)入了相機(jī)或人眼。

所以,CG 的本質(zhì)到底是什么?我們董事長(zhǎng)的博士導(dǎo)師——也是 CUDA 的鼻祖級(jí)人物——他們當(dāng)年在美國(guó)交流時(shí)曾提出過(guò)一個(gè)終極命題:我們掌握了像 GPU 這樣高性能的并行計(jì)算能力,究竟是該用它來(lái)模擬物理世界,還是去模擬智能體?

最早在 2011 年的時(shí)候,不管是我們董事長(zhǎng)把這個(gè)命題帶回國(guó),還是后來(lái)創(chuàng)業(yè),由于當(dāng)時(shí) AI 遠(yuǎn)沒(méi)有現(xiàn)在普及,大家對(duì)智能的理解也沒(méi)那么深。所以最開(kāi)始,我們選擇了前者——用并行計(jì)算去做傳統(tǒng)渲染,也就是“模擬物理世界”。

轉(zhuǎn)折點(diǎn)發(fā)生在 2017 年。

一方面,我個(gè)人博士期間研究的是 3D 人臉識(shí)別,這恰好是 CG 與機(jī)器學(xué)習(xí)(當(dāng)時(shí)的概念)的交叉領(lǐng)域;但更重要的啟發(fā)來(lái)自于 AlphaGo。AlphaGo 給我們的震撼在于,它通過(guò)在虛擬棋盤(pán)上的仿真,利用強(qiáng)化學(xué)習(xí),僅用極短的時(shí)間和算力,就模擬了人類(lèi)上千年甚至更久遠(yuǎn)的棋局演變。

這讓我們意識(shí)到“模擬智能”的時(shí)機(jī)到了。所以從 2017 年開(kāi)始,我們回歸到了那個(gè)終極命題的另一面:結(jié)合群核已有的海量空間數(shù)據(jù),開(kāi)始嘗試?yán)貌⑿杏?jì)算去模擬空間智能,或者說(shuō)去構(gòu)建“空間智能體”。


跨領(lǐng)域的求是創(chuàng)新:貫穿中英的學(xué)術(shù)生涯

唐小引:好,我們不妨把視角拉得更遠(yuǎn)一點(diǎn),聊聊您的個(gè)人經(jīng)歷。從國(guó)內(nèi)的浙江大學(xué),到英國(guó)的巴斯大學(xué),再到現(xiàn)在投身群核科技,您能分享一下這幾個(gè)階段的心路歷程和核心收獲嗎?

唐睿:在浙江大學(xué)的時(shí)期,對(duì)我來(lái)說(shuō)更像是從校園向社會(huì)的過(guò)渡——它雖然不完全是社會(huì),但已具備了社會(huì)的某種縮影?;仡櫿愦髸r(shí)光,最大的收獲莫過(guò)于校訓(xùn)中的“求是”二字。這也深刻塑造了我們現(xiàn)在的做事準(zhǔn)則:無(wú)論是在做產(chǎn)品、解決方案,還是做基礎(chǔ)科研,首要原則就是遵循事實(shí)。以事實(shí)為本,去推理、去創(chuàng)新。

其實(shí)關(guān)于浙大,除了官方校訓(xùn),私下里大家對(duì)竺可楨老校長(zhǎng)的“兩個(gè)問(wèn)題”(你來(lái)浙大做什么?將來(lái)要做什么樣的人?)還有一個(gè)略帶戲謔的民間回答,那就是——“混、混混”。

以前大家可能覺(jué)得這是玩笑,但現(xiàn)在我重新審視這個(gè)字,“混”其實(shí)代表了一種發(fā)散性的思維,一種打破邊界的融合。這在本質(zhì)上與校訓(xùn)里的“創(chuàng)新”是一脈相承的。

非常巧合的是,這種思維延續(xù)到了我下一段經(jīng)歷中。我在英國(guó)巴斯大學(xué)求學(xué)時(shí),我的導(dǎo)師是 Darren Cosker(皇家工程院院士)。他的治學(xué)風(fēng)格非?!耙啊?,或者說(shuō)非常不拘一格,核心就是跨領(lǐng)域(Cross-domain)。

舉個(gè)例子,我們?cè)趯?shí)驗(yàn)室里做人臉識(shí)別,同時(shí)也有團(tuán)隊(duì)在做肢體的數(shù)字孿生(Digital Twin)和行為學(xué)習(xí)。Darren 會(huì)極力主張將這些技術(shù)與體育、健康,甚至教育產(chǎn)業(yè)進(jìn)行跨界結(jié)合。

大家可能知道,巴斯大學(xué)有“英國(guó)體?!敝Q(chēng),很多英國(guó)奧運(yùn)選手都出自這里。他們擁有一套非??茖W(xué)的訓(xùn)練體系,而這套體系的背后,很大程度上依賴(lài)于我們的 CG 技術(shù)——即通過(guò)對(duì)人體姿態(tài)和肌肉行為的高精度仿真來(lái)輔助訓(xùn)練。

在這個(gè)過(guò)程中,我們也見(jiàn)證了數(shù)據(jù)價(jià)值的演變:以前我們是做大數(shù)據(jù)分析,而現(xiàn)在更多是通過(guò)智能數(shù)據(jù)(Intelligent Data)的方式去優(yōu)化仿真模型。這種跨界研究最終催生了許多落地成果,不僅是在體育界,也包括影視表演領(lǐng)域,比如電影《猩球崛起》就與我們實(shí)驗(yàn)室有過(guò)深度合作。

所以回過(guò)頭看,這兩段經(jīng)歷非常神奇。從浙大的“求是與跨界思維”,到巴斯大學(xué)的“跨領(lǐng)域?qū)嵺`”,它們共同構(gòu)建并深刻影響了我現(xiàn)在的思維結(jié)構(gòu)。

總結(jié)起來(lái)就是:跨領(lǐng)域的求是創(chuàng)新。

唐小引:我想進(jìn)一步探討一下中英培養(yǎng)體系的差異。今天很巧,您和老師兩位演講嘉賓都曾在英國(guó)深造。但我之前去歐洲,與當(dāng)?shù)氐?AI 從業(yè)者交流時(shí),聽(tīng)到一種聲音是覺(jué)得英國(guó)的“AI 氛圍”相對(duì)較弱。但我看著其實(shí)有很多的人是從英國(guó)接受了人工智能教育,然后回來(lái)落地生根。

唐睿: 我不確定王老師具體的留學(xué)時(shí)間,但我是在 2014 年回國(guó)的。那個(gè)時(shí)間節(jié)點(diǎn)很有意思——2012 到 2013 年左右,AlexNet 才剛剛橫空出世,那是深度學(xué)習(xí)爆發(fā)的起點(diǎn)。換句話(huà)說(shuō),當(dāng)時(shí)我們現(xiàn)在所定義的“AI”概念,還沒(méi)有被全社會(huì)廣泛認(rèn)知或接受。

關(guān)于您提到的“氛圍弱”,我認(rèn)為需要辯證地看。

如果從產(chǎn)業(yè)影響力來(lái)看,確實(shí)存在這種情況。因?yàn)橹袊?guó)和美國(guó)擁有全球最大的消費(fèi)市場(chǎng),AI 的發(fā)展不僅取決于技術(shù),更取決于產(chǎn)業(yè)推廣和應(yīng)用場(chǎng)景的規(guī)?;?yīng)。正是這種龐大的市場(chǎng)需求,造就了 AI 產(chǎn)業(yè)應(yīng)用最先在中美這兩個(gè)大市場(chǎng)爆發(fā)。相比之下,英國(guó)在“產(chǎn)業(yè)落地”的喧囂度上可能確實(shí)不如中美。

但如果從科研深度來(lái)看,英國(guó)的底蘊(yùn)非常深厚。

據(jù)我所知,我的導(dǎo)師 Darren 目前就任職于微軟劍橋?qū)嶒?yàn)室,而孕育了 AlphaGo 的 DeepMind,當(dāng)時(shí)就在 UCL(倫敦大學(xué)學(xué)院)隔壁??梢哉f(shuō),英國(guó)匯聚了大量頂尖學(xué)者和核心算法的源頭創(chuàng)新。

所以,英國(guó)的“強(qiáng)”在于學(xué)術(shù)研究的深度,而中美的“強(qiáng)”更多體現(xiàn)在產(chǎn)業(yè)落地的廣度和市場(chǎng)的速度。這就是為什么很多在那邊接受了深層理論教育的人,最終選擇回到擁有更廣闊應(yīng)用土壤的國(guó)內(nèi)來(lái)發(fā)展。


十年群核路:從 IC 到技術(shù)管理者的蛻變

唐小引:我們可以接著聊聊您現(xiàn)在在群核所做的事情。您是怎么加入群核的?以及我看這幾年您對(duì)外分享過(guò)智能體、仿真等方向的內(nèi)容。您可以講講您在群核的故事,以及不同時(shí)期的側(cè)重點(diǎn)。

唐睿:我怎么加入群核的?非常巧合,這是我第一份工作。這份工作干了十多年,也沒(méi)去找別的。

其實(shí)我剛?cè)ト汉说臅r(shí)候并不知道這家公司是做什么的,我就知道有很多 GPU,這是硬件層面吸引我的地方。因 為我之前也是做偏圖形學(xué)的機(jī)器學(xué)習(xí)交叉領(lǐng)域,GPU 本來(lái)就能做機(jī)器學(xué)習(xí),同時(shí)它天然就是為計(jì)算機(jī)圖形學(xué)設(shè)計(jì)的,這是硬件層面的吸引力。

我面試群核花了兩天時(shí)間。第一天是 12 月 23 號(hào),第二天是 12 月 24 號(hào)。第二天面試到晚上 11 點(diǎn)多,是兩天長(zhǎng)時(shí)間的面試。面試從和程序員一起寫(xiě)代碼,到和三位創(chuàng)始人聊天,每位創(chuàng)始人都聊了兩到三個(gè)小時(shí)。我就感覺(jué)到了一種非常簡(jiǎn)單、開(kāi)放的文化。最后一天是平安夜,和 CEO 陳航聊到了十點(diǎn)多。

我非常詫異,我一個(gè)還沒(méi)完全畢業(yè)的小伙子去實(shí)習(xí),跟我同齡的人已經(jīng)是 CEO 了,平安夜還不回家,跟我在這聊技術(shù),還帶我參觀 GPU 機(jī)房和集群。我是被這樣的基因或者文化吸引的。

唐小引:你有把這個(gè)問(wèn)題拋給他嗎?

唐睿:問(wèn)了,他說(shuō)創(chuàng)業(yè)就是這樣的。

唐小引:這是屬于剛剛加入的故事。接著這十幾年里面,您可以分幾個(gè)階段給我們講一下。

唐睿:關(guān)于技術(shù)路線(xiàn)的階段——從“模擬物理”到“模擬智能體”——?jiǎng)偛盼乙呀?jīng)談過(guò)了。所以我想換個(gè)維度,從職業(yè)身份的轉(zhuǎn)變來(lái)聊聊:即我如何從一個(gè)個(gè)人貢獻(xiàn)者一步步蛻變?yōu)橐幻夹g(shù)管理者。

這中間我踩過(guò)不少坑,也積累了很多感悟,大致可以歸納為兩個(gè)層面的挑戰(zhàn)。

第一個(gè)挑戰(zhàn)是工作習(xí)慣的重塑,尤其是從純技術(shù)向管理的過(guò)渡。做 IC 時(shí),我只需要專(zhuān)注解決技術(shù)難題。但轉(zhuǎn)型做 Team Leader 后,最大的難點(diǎn)在于心態(tài)上很難“放下”——很難放下親手寫(xiě)代碼和啃論文的執(zhí)念。但現(xiàn)實(shí)是,你必須分出精力去把控團(tuán)隊(duì)方向、進(jìn)行向上溝通、了解財(cái)務(wù)狀況,甚至洞察市場(chǎng)動(dòng)態(tài)。

在這個(gè)過(guò)程中,我養(yǎng)成了一個(gè)關(guān)鍵習(xí)慣:利用碎片化時(shí)間。哪怕只有半小時(shí)空檔,也要思考如何快速進(jìn)入狀態(tài)。即便這半小時(shí)不足以徹底解決一個(gè)復(fù)雜問(wèn)題,但你要能維持住思考的連貫性,做好上下文的銜接。

第二個(gè)挑戰(zhàn),也是更深層的感悟,是我所定義的“技術(shù)責(zé)任心”。這里的“責(zé)任心”,本質(zhì)上是對(duì)一線(xiàn)技術(shù)人員的一種保護(hù)機(jī)制。

我們?cè)诠ぷ髦薪?jīng)常面臨一個(gè)權(quán)衡:一線(xiàn)技術(shù)人員到底需不需要具備深層次的產(chǎn)品、技術(shù)乃至業(yè)務(wù)價(jià)值的思考?我的觀點(diǎn)是:如果他們具備這種視野,那是錦上添花,但如果他們暫時(shí)沒(méi)有,這絕不應(yīng)成為他們的包袱,這本該是我們 Team Leader 的天職。

無(wú)論是描繪宏大的藍(lán)圖,制定長(zhǎng)期規(guī)劃,還是設(shè)定短期的 POC(概念驗(yàn)證)目標(biāo),將技術(shù)語(yǔ)言轉(zhuǎn)化為業(yè)務(wù)價(jià)值,這是管理者必須承擔(dān)的責(zé)任。

這標(biāo)志著我從單一的“技術(shù)思維”,正式跨越到了融合“技術(shù)、產(chǎn)品與業(yè)務(wù)”的復(fù)合型思維模式。

唐小引:所以這十幾年最關(guān)鍵的一點(diǎn)是學(xué)會(huì)了怎么去做好一個(gè)技術(shù)管理。

唐睿:對(duì),其實(shí)學(xué)會(huì)了 PUA 自己。

唐小引:這也是一個(gè)很好的技術(shù)人成長(zhǎng)路線(xiàn)。當(dāng)然這個(gè)我先不展開(kāi)了,因?yàn)闀r(shí)間關(guān)系,再加上您本身現(xiàn)在選擇的是技術(shù)管理的路線(xiàn)。

唐睿:對(duì),其實(shí)自己也還在寫(xiě)一些代碼,做一些科研。

唐小引:現(xiàn)在還在寫(xiě)代碼?

唐睿: 每天會(huì)花一兩個(gè)小時(shí)看論文,利用碎片化時(shí)間去實(shí)現(xiàn)一些 GitHub 上新的模型。


錨定空間智能:機(jī)遇、挑戰(zhàn)與“3D 界的 ImageNet”

唐小引:接著我們聊聊空間智能。錨定空間智能這個(gè)方向是從什么時(shí)候開(kāi)始的?節(jié)點(diǎn)是什么?接著,我很好奇今天看到很多以前做 CV 或者 AI 大佬都投身這個(gè)方向。這個(gè)方向?yàn)槭裁慈绱酥匾???dāng)前大家看到的機(jī)會(huì)和方向是什么?面臨的問(wèn)題又是什么?

唐睿:我們真正開(kāi)始投身到空間智能,起點(diǎn)應(yīng)該是 2017 年。我們開(kāi)始用自己的數(shù)據(jù)去塑造一些簡(jiǎn)單的空間智能體,比如自動(dòng)設(shè)計(jì)、自動(dòng)打光、自動(dòng)材質(zhì)編輯等。

那時(shí)候我們也是采用一種數(shù)據(jù)驅(qū)動(dòng)的方式。因?yàn)槲覀儼l(fā)現(xiàn)自己本身已經(jīng)收集了大量的數(shù)據(jù),可以拿這些數(shù)據(jù)去驅(qū)動(dòng)一個(gè)……那時(shí)候不能叫大模型,而是驅(qū)動(dòng)一個(gè)輔助設(shè)計(jì)算法。在 2017 年,這個(gè)輔助設(shè)計(jì)算法又能讓我們的工具更高效、更智能,從而形成一個(gè)飛輪。當(dāng)時(shí)沒(méi)意識(shí)到這是一個(gè)飛輪的概念,但現(xiàn)在來(lái)看,可以把它定義成一種飛輪。

唐小引:為什么是在這個(gè)時(shí)間點(diǎn)?當(dāng)時(shí)整個(gè)業(yè)內(nèi)在 AlphaGo 席卷之下,應(yīng)該很多是往識(shí)別方向去做的。當(dāng)時(shí)的一個(gè)契機(jī)是什么呢?

唐睿:當(dāng)時(shí)契機(jī)還是我們意識(shí)到 AlphaGo 之所以能打敗人類(lèi)圍棋高手,也是數(shù)據(jù)驅(qū)動(dòng)的。當(dāng)然,在強(qiáng)化學(xué)習(xí)里,它通過(guò)強(qiáng)化策略加上隨機(jī)擾動(dòng),能夠產(chǎn)生大量的數(shù)據(jù),通過(guò)這種數(shù)據(jù)驅(qū)動(dòng)的形式,去產(chǎn)生新的智能體。所以我們當(dāng)時(shí)沒(méi)有完全 follow 強(qiáng)化學(xué)習(xí)的思路,而是 follow 了一套數(shù)據(jù)驅(qū)動(dòng)的范式。

所以我們?cè)?2018 年提出了 “3D-Internet”,2019 年,我們和中國(guó)科學(xué)技術(shù)大學(xué)的劉立剛老師團(tuán)隊(duì)在頂會(huì)上提出了數(shù)據(jù)驅(qū)動(dòng)范式下的戶(hù)型自動(dòng)設(shè)計(jì)方案,后面也把它應(yīng)用到了我們的產(chǎn)品里。

唐小引:我看您前面說(shuō)要做 3D 界的 ImageNet。到現(xiàn)在實(shí)現(xiàn)的成果是什么樣的?

唐睿:從商業(yè)化落地來(lái)看,進(jìn)展非常順利。目前市面上許多頭部做具身智能或者 3D 空間生成的團(tuán)隊(duì),都是我們開(kāi)源數(shù)據(jù)集以及閉源商業(yè)化數(shù)據(jù)集的客戶(hù)。由于簽署了 NDA(保密協(xié)議),具體客戶(hù)名單不便在這里公開(kāi)。

唐小引:沒(méi)關(guān)系,我們理解保密需求。您只需分享那些可以公開(kāi)的技術(shù)進(jìn)展即可。

唐睿:撇開(kāi)商業(yè)客戶(hù)不談,從純技術(shù)和學(xué)術(shù)合作的角度來(lái)看,我們最近產(chǎn)出了大量成果。我們與字節(jié)跳動(dòng)、Adobe、谷歌以及浙江大學(xué)等機(jī)構(gòu)都有深度的論文合作,核心都是基于數(shù)據(jù)驅(qū)動(dòng)的方式,去探索空間智能的不同維度。

正如我這次演講所提到的,我們正在嘗試對(duì)“3D 空間”進(jìn)行解構(gòu)??臻g看似復(fù)雜,但拆解到最基礎(chǔ)的層級(jí),核心元素其實(shí)只有三樣:幾何、物理材質(zhì)和光。

以現(xiàn)在的熱門(mén)模型為例,像騰訊的“混元 3D”這類(lèi)大模型,主要解決的是“生成空間內(nèi)容”的問(wèn)題,也就是幾何和材質(zhì)的生成。但有了物體還不夠,這些幾何體和材質(zhì)需要通過(guò)特定的布局才能組合成一個(gè)有意義的空間。

所以,我們的研究重點(diǎn)主要分兩塊:

第一,是空間內(nèi)幾何體和材質(zhì)的高質(zhì)量生成;

第二,是研究空間內(nèi)物體的合理擺放與布局。

在此基礎(chǔ)上,我們與浙江大學(xué)的合作更進(jìn)一步。除了物體,我們還在研究“光的布局”——包括光線(xiàn)的擺放位置、照射方向。

更極客一點(diǎn)的探索是:我們是否能用 AI 大模型去擬合光線(xiàn)的物理傳播過(guò)程? 也就是用 AI 來(lái)模擬傳統(tǒng)物理渲染中的光照計(jì)算。


數(shù)據(jù)難題與未來(lái)圖景:室內(nèi)數(shù)據(jù)采集與硬件突破

唐小引:您在演講中提到一個(gè)觀點(diǎn)讓我印象深刻:相比室外自動(dòng)駕駛場(chǎng)景,室內(nèi)空間的數(shù)據(jù)獲取和標(biāo)注難度反而更大。我作為外行可能會(huì)覺(jué)得室內(nèi)環(huán)境相對(duì)封閉應(yīng)該更容易,為什么業(yè)內(nèi)會(huì)有這樣的判斷?難點(diǎn)究竟在哪里?

唐睿:這是一個(gè)非常好的問(wèn)題。我們可以對(duì)比一下室外自動(dòng)駕駛的數(shù)據(jù)獲取方式。像室外數(shù)據(jù),或者說(shuō)自動(dòng)駕駛行業(yè),它的數(shù)據(jù)獲取方式,就是車(chē)上搭著攝像頭。

唐小引:它跑著跑著就有了,我經(jīng)??吹?。

唐睿:對(duì),它就能收集數(shù)據(jù)了,可能你跟一個(gè)市政府、區(qū)政府簽一個(gè)許可就可以了。所以采集是一種產(chǎn)生數(shù)據(jù)的方式,我們稱(chēng)之為逆向捕獲重建。

另一種是正向設(shè)計(jì)。像自動(dòng)駕駛領(lǐng)域,就會(huì)拿《GTA 5》作為一個(gè)仿真場(chǎng)景,再讓一輛虛擬的車(chē)在《GTA 5》的世界里開(kāi),它也能夠產(chǎn)生數(shù)據(jù)。所以自動(dòng)駕駛使用這種方式,現(xiàn)在的具身智能其實(shí)也一直在用這種方式。

但是,真實(shí)數(shù)據(jù)的采集,第一,它的許可很難獲取,或者在家里采集的話(huà),會(huì)涉及到用戶(hù)隱私。當(dāng)然,像埃隆·馬斯克這種不差錢(qián)的,他們做 Optimus 的時(shí)候,我記得是在德州做了一個(gè)很大的場(chǎng)館,每個(gè)館里都有一個(gè)機(jī)器人,還有人類(lèi)操作員去給機(jī)器人下達(dá)任務(wù),然后機(jī)器人就去做抓取或者行動(dòng),以此來(lái)產(chǎn)生數(shù)據(jù)。但這里面一方面是剛才提到的隱私問(wèn)題。

另一方面,機(jī)器人任務(wù)可比車(chē)子復(fù)雜多了。車(chē)子操作的方式就是前后左右,它唯一的目標(biāo)就是不要碰到任何東西,并且能從 A 點(diǎn)到 B 點(diǎn)。但對(duì)于機(jī)器人來(lái)說(shuō),抓一個(gè)光滑的杯子和抓一個(gè)塑料的筆,其實(shí)都是兩種任務(wù),因?yàn)槟憬佑|到的物理屬性、物理對(duì)象的大小和形狀都不一樣。圓形的杯子你可能是這么抓,馬克杯你可能勾住把手就行了。所以,由于任務(wù)的多樣化,會(huì)導(dǎo)致數(shù)據(jù)的非集中化程度非常高,成本就會(huì)出現(xiàn)問(wèn)題。所以大家也是參照自動(dòng)駕駛領(lǐng)域,合成數(shù)據(jù)對(duì)于具身智能來(lái)說(shuō)是非常關(guān)鍵的一種數(shù)據(jù)產(chǎn)生范式。

唐小引:對(duì)于空間智能而言,下一步的進(jìn)化形態(tài)會(huì)是什么樣的? 比如過(guò)幾年,在我的室內(nèi)環(huán)境里,會(huì)發(fā)生哪些本質(zhì)的升級(jí)?

唐睿: 要回答機(jī)器人的升級(jí)路徑,我們得回歸本質(zhì)。撇開(kāi)具體的算法不談,機(jī)器人在空間中的核心鏈路一共分四步:第一是空間感知,第二是空間理解,第三是空間推理與決策,最后是空間行動(dòng)。

未來(lái)的升級(jí),也會(huì)沿著這四個(gè)維度逐層展開(kāi):

首先是“空間感知”的泛化。

感知設(shè)備正在經(jīng)歷一場(chǎng)從“高冷”到“普及”的下沉。早期的空間掃描設(shè)備只出現(xiàn)在軍工、航天或博物館數(shù)字化等國(guó)家級(jí)項(xiàng)目中;后來(lái)下放到了工廠和新能源車(chē)上(如激光雷達(dá));隨著硬件發(fā)展,未來(lái)空間感知設(shè)備最終會(huì)普及到每個(gè)人手里,甚至戴在眼睛上。 雖然現(xiàn)在大眾的目光主要聚焦在 ChatGPT、Agent 等軟件層面上,但其實(shí)硬件感知能力的進(jìn)化速度是非??斓模@塊板子很快會(huì)補(bǔ)齊。

其次是“空間理解”的質(zhì)變。

這正是我們?cè)诮衲辏?025 年) 3 月 GTC 大會(huì)上發(fā)布 Spatial-LM(空間語(yǔ)言模型) 的初衷。

它與傳統(tǒng)的 ChatGPT 或圖像理解模型最大的不同在于輸入數(shù)據(jù):我們不再處理平面的文本符號(hào)或像素圖片,而是直接處理由感知設(shè)備采集的 3D 點(diǎn)云或 3D 高斯數(shù)據(jù)。

在這個(gè)階段,AI 的任務(wù)不再是泛泛地識(shí)別,而是要精準(zhǔn)地感知幾何目標(biāo)。比如,它不僅要知道“這是一把椅子”,還要知道“這個(gè)空間的尺寸是否允許人類(lèi)通行”。它需要反饋給我們非常精準(zhǔn)的幾何結(jié)構(gòu)、顏色、光照乃至物理屬性的信息。

最后是“空間推理與交互”的智能化。

這也是我們開(kāi)源 Spatial-LM 也是希望呼吁整個(gè)社區(qū)關(guān)注的方向。到了這一步,我們需要通過(guò)仿真和合成數(shù)據(jù)的方式,去產(chǎn)生海量的高質(zhì)量交互數(shù)據(jù)。 只有這樣,我們的智能體才能真正學(xué)會(huì)如何在物理世界中順滑地行動(dòng),變得更加“聰明”。


技術(shù)路線(xiàn)之爭(zhēng):合成數(shù)據(jù)、2D 與 3D 的融合探索

唐小引:對(duì),仿真和合成數(shù)據(jù)。我最開(kāi)始聽(tīng)黃仁勛本人就在強(qiáng)調(diào)這個(gè)?,F(xiàn)在因?yàn)榛ヂ?lián)網(wǎng)數(shù)據(jù)耗盡的問(wèn)題,在直接的 AI 軟件層面,大家也在主攻這個(gè)方向。那相應(yīng)地,具身智能和空間智能也都在做這個(gè)方向,從技術(shù)挑戰(zhàn)上有什么不同點(diǎn)嗎?

唐睿:先講不同點(diǎn)還是相同點(diǎn)。我覺(jué)得技術(shù)是 Application-Driven(應(yīng)用驅(qū)動(dòng))的。

唐小引:我發(fā)現(xiàn)這是您的理念,您在始終強(qiáng)調(diào)這個(gè)。

唐睿:對(duì),因?yàn)樽黾夹g(shù)管理者需要連接技術(shù)和應(yīng)用。換句話(huà)說(shuō),資源是有限的,在有限的資源下怎么樣創(chuàng)造最大的價(jià)值?那就必須要把前面的應(yīng)用場(chǎng)景考慮清楚。

當(dāng)我們談?wù)摗翱臻g智能”的合成數(shù)據(jù)時(shí),它的復(fù)雜度是隨著應(yīng)用場(chǎng)景的需求分層級(jí)遞進(jìn)的:

第一層是“視覺(jué)級(jí)”需求。

比如做家裝設(shè)計(jì)或空間渲染,它的核心訴求是“看”。只要渲染得逼真、美觀就足夠了,這是一個(gè)靜態(tài)的維度。

第二層是“游戲級(jí)”需求。

如果是手機(jī)游戲或 VR 體驗(yàn),光“看”是不夠的,還需要基礎(chǔ)交互。比如不能出現(xiàn)“穿模”——你不能直接穿過(guò)桌子或墻壁;柜門(mén)要能打開(kāi);物體要能被拿起來(lái)。但在這一層,物理屬性往往是簡(jiǎn)化的,游戲引擎并不在乎你抓取一個(gè)物體用了多少牛頓的力,只要邏輯通順即可。

第三層,才是具身智能所需的“物理仿真級(jí)”需求,我們稱(chēng)之為“Sim-Ready”。

當(dāng)你需要生成數(shù)據(jù)去訓(xùn)練機(jī)器人時(shí),對(duì)物理屬性和交互準(zhǔn)確度的要求會(huì)呈指數(shù)級(jí)上升。機(jī)器人需要知道物體的摩擦力、質(zhì)量分布、形變屬性等。

所以,我們的工作也是層層遞進(jìn)的:

首先構(gòu)建一個(gè)靜態(tài)場(chǎng)景;

然后通過(guò)數(shù)據(jù)增強(qiáng)賦予其物理屬性,使其變成動(dòng)態(tài)的可交互場(chǎng)景;

最終達(dá)到“Sim-Ready”的標(biāo)準(zhǔn),即可以直接用于物理仿真訓(xùn)練的場(chǎng)景。

目前,我們團(tuán)隊(duì)的前沿研究正在主攻“Sim-Ready”方向,而我們的核心業(yè)務(wù)則更多聚焦在空間設(shè)計(jì)應(yīng)用層面。

最后補(bǔ)充一點(diǎn),雖然物理仿真的合成數(shù)據(jù)對(duì)具身智能至關(guān)重要,但這并非全部??臻g智能主要解決的是“數(shù)據(jù)短缺”和“空間理解”的問(wèn)題,充當(dāng)了機(jī)器人的“訓(xùn)練場(chǎng)”和“眼睛”。 但具身智能作為一個(gè)集大成的領(lǐng)域,還面臨著機(jī)械硬件、電路、電池能源等硬科技的挑戰(zhàn)。在我看來(lái),具身智能和太空探索一樣,都是人類(lèi)技術(shù)的終極形態(tài)之一。

唐小引:您認(rèn)為終極目標(biāo)是具身智能,而非空間智能?就是說(shuō)我們對(duì)于 AGI 的探索,終極目標(biāo)是落在具身智能上嗎?

唐睿:我覺(jué)得是在具身智能上。如果我自己來(lái)定義一個(gè) AGI,那它一定就是跟人一樣。如果這個(gè) AGI 只在屏幕空間里,那它可能會(huì)考慮到空間智能這些事情。但真正走進(jìn)物理世界,具身智能是和屏幕空間對(duì)應(yīng)的物理世界里的 AI,那它可能更高級(jí)。

唐小引:我看到當(dāng)前具身智能在構(gòu)建世界模型,空間智能也在做。有一個(gè)觀點(diǎn)說(shuō),空間智能是構(gòu)建世界模型的前提,然后通過(guò)世界模型才能到達(dá) AGI。您對(duì)這個(gè)邏輯有什么看法?或者可以分享一下您的觀點(diǎn)。

唐睿:我的觀點(diǎn)是,這還是一個(gè)對(duì) AGI 的定義問(wèn)題。如果這個(gè) AGI 是在屏幕空間里和人類(lèi)對(duì)話(huà)的,那他不需要空間智能。但如果他需要在屏幕空間里去創(chuàng)造 3D 世界,甚至像具身智能一樣走出屏幕空間,那空間智能或者說(shuō)世界模型就非 常關(guān)鍵了。

提到世界模型和空間智能的關(guān)系,我覺(jué)得目前業(yè)界其實(shí)并沒(méi)有一個(gè)統(tǒng)一的標(biāo)準(zhǔn)定義。

如果我們將世界模型定義為“能夠預(yù)測(cè)世界的下一個(gè)狀態(tài)”或者“能夠創(chuàng)造一個(gè)新世界”的能力,那么鑒于人類(lèi)本身是三維生物,構(gòu)建世界模型的路徑自然分化為兩派:一派是基于視頻生成,另一派是基于 3D 結(jié)構(gòu)構(gòu)造。當(dāng)然,這兩者的基座往往都離不開(kāi)大語(yǔ)言模型。

值得注意的是,這兩條技術(shù)路線(xiàn)并非割裂,而在互相借鑒與融合。

首先是“視頻輔助 3D”:

比如我們?cè)谧銮梆伿降母咚股蓵r(shí),如果初始輸入只有一張單圖,要重建出高質(zhì)量的 3D 高斯體,必須先有多視角的圖像信息。這時(shí),我們就會(huì)借用 Video Diffusion 模型,先生成多視角的視頻幀作為中間素材,再喂給 3D 算法進(jìn)行重建。

反過(guò)來(lái)是“3D 反哺視頻”:

大家發(fā)現(xiàn)純視頻模型有一個(gè)致命弱點(diǎn):當(dāng)時(shí)間線(xiàn)拉長(zhǎng)后,視頻內(nèi)容的一致性很難維持。比如你在視頻里向前走了一段路再回頭,原來(lái)的物體可能變樣甚至消失了。

為了解決這個(gè)問(wèn)題,大家開(kāi)始引入 3D 概念。嘗試將 3D 表征或 3D 隱空間作為中間媒介。利用 3D 天然的結(jié)構(gòu)穩(wěn)定性,來(lái)強(qiáng)制約束視頻生成過(guò)程,確保其在空間和時(shí)間維度上保持高度一致。

所以,這并不是 誰(shuí)是誰(shuí)的前提,更像是一個(gè)螺旋上升、互為支撐的過(guò)程。

唐小引:我聽(tīng)到對(duì) 于空間智能技術(shù)路線(xiàn)的爭(zhēng)議,比如大家提到的空間一致性,以及視頻生成和 3D 場(chǎng)景生成的路線(xiàn)之爭(zhēng)。您是 3D 這條路線(xiàn)的支持者是吧?

唐睿:也不能算,我兩個(gè)都在做。

唐小引:都會(huì)用,所以是融合派。

唐睿:是。其實(shí)不管我們做 2D 的 Diffusion,還是做 Video Diffusion,大家會(huì)發(fā)現(xiàn)你要把分辨率拉大,或者把視頻的長(zhǎng)度拉長(zhǎng),顯存就不夠了。我們做 3D 的時(shí)候也會(huì)出現(xiàn)這個(gè)問(wèn)題。所以它其實(shí)還是一個(gè)資源限制導(dǎo)致我們現(xiàn)在必須以一種融合的方式去進(jìn)行。

未來(lái)如果 GPU 顯存無(wú)限大,或者我們有一種新的、不是 Transformer 這樣的算法,甚至我稱(chēng)之為一種 3D 的……如果我們定義一個(gè) 3D 的 Killer concept 出現(xiàn),那可能原來(lái)的基礎(chǔ)算法就翻篇了。就像以前大家做圖像會(huì)用 CNN,當(dāng)然 CNN 在某些領(lǐng)域還非常好用,但是當(dāng) Transformer 出現(xiàn)以后,原來(lái)大家用 CNN 甚至 RNN 的很多方法,其實(shí)真的已經(jīng)翻篇了。大家為什么現(xiàn)在還在融合,或者說(shuō)為什么還在探索,其實(shí)也是在找一個(gè) Killer concept 。

唐小引:那圍繞空間智能還有哪些技術(shù)路線(xiàn)的爭(zhēng)議嗎?我發(fā)現(xiàn)大家的各種討論都還蠻有意思的。

唐睿:圍繞空間智能,我覺(jué)得不存在爭(zhēng)議,因?yàn)楝F(xiàn)在大家還在一條船上探索。

唐小引:那在探索中有什么共識(shí)和非共識(shí)嗎?在技術(shù)這個(gè)維度上。

唐睿:共識(shí)是數(shù)據(jù)都缺少。非共識(shí),我覺(jué)得也不能叫非共識(shí),因?yàn)檫@個(gè)領(lǐng)域還是比較前沿的,你會(huì)發(fā)現(xiàn)還有很多論文在做,這里面 還有很多探索空間。當(dāng)一個(gè)領(lǐng)域不怎么出現(xiàn)新論文時(shí),可 能已經(jīng)去泡沫化了?,F(xiàn)在這 里面還有泡沫,就說(shuō)明還有很多事情有價(jià)值,不管是商業(yè)價(jià)值還是技術(shù)探索價(jià)值,還能去做。

唐小引:您剛才說(shuō)的都缺數(shù)據(jù),這是痛點(diǎn)。那相應(yīng)地有什么解決方案?這些方案因?yàn)楸旧硪苍诿?,有什么是可行的,有什么是可能是各?zhí)己見(jiàn)的?

唐睿:可行的方案,我覺(jué)得就是早上說(shuō)的正向設(shè)計(jì)和逆向設(shè)計(jì)的方式。正向設(shè)計(jì)讓設(shè)計(jì)師通過(guò)設(shè)計(jì)軟件去創(chuàng)作一個(gè) 3D 空間或物體,它的成本和代價(jià)還是比較高的。我們的做法是,因?yàn)槲覀冇惺覂?nèi)空間設(shè)計(jì)這個(gè)業(yè)務(wù),設(shè)計(jì)師在我們平臺(tái)去創(chuàng)造空間的時(shí)候,它不僅僅是為 AI 訓(xùn)練產(chǎn)生價(jià)值,它最主要、最直接的價(jià)值是服務(wù)于空間設(shè)計(jì)、空間展示、空間交互這樣的需求。所以那部分價(jià)值已經(jīng)在市場(chǎng)上浮現(xiàn)出來(lái),設(shè)計(jì)師也能夠通過(guò)這個(gè)獲得回報(bào)。

我們所以有這個(gè)數(shù)據(jù),但我個(gè)人覺(jué)得從數(shù)據(jù)的角度來(lái)說(shuō),它不是一個(gè)最高效的產(chǎn)生數(shù)據(jù)的方式。最高效的方式應(yīng)該是,就像我們戴手表或者用手機(jī)的時(shí)候,你在日常生活的每一個(gè)行為、每一個(gè)動(dòng)作,都能產(chǎn)生數(shù)據(jù),那才是解決數(shù)據(jù)問(wèn)題的最終之道。所以我們也在跟不同的硬件去生態(tài)合作。

所以,至少在空間智能領(lǐng)域,我們是不會(huì)去忽視硬件發(fā)展的。當(dāng)我的眼鏡、手機(jī)甚至手表都能采集空間數(shù)據(jù)時(shí),這可能是解決空間數(shù)據(jù)不足的最終解決方案。這是我的一個(gè)認(rèn)知。至于分歧,如果說(shuō)技術(shù)上有分歧,那就是把 2D Diffusion 和3D Diffusion 哪個(gè)作為中間媒介來(lái)做。你用不同的中間媒介,比如 3D 作為中間媒介,那視頻就是最終的成品;如果你說(shuō) 2D 作為中間媒介,那 3D 就是最終的成品。


開(kāi)源的力量:共建空間智能生態(tài)

唐小引:可以再談?wù)勯_(kāi)源。群核在開(kāi)源方面做了很多,可以講講嗎?比如您和公司管理層對(duì)于開(kāi)源策略的思考,以及群核開(kāi)源策略的演進(jìn)。

唐睿:我們也有點(diǎn)照貓畫(huà)虎,硅谷這邊很流行開(kāi)源文化。從我做技術(shù)的角度,如果不談技術(shù)國(guó)界和邊界,我們最希望的是開(kāi)源。當(dāng)然也要從商業(yè)化的角度去思考,因?yàn)楝F(xiàn)在至少在世界模型或者空間智能這個(gè)角度,還沒(méi)有一個(gè)核心概念出現(xiàn)。在這種情況下,我們選擇把數(shù)據(jù)和模型開(kāi)源出去,本質(zhì)上是拋磚引玉,希望能集結(jié)整個(gè)社區(qū)的智慧,共同探索和定義這個(gè)領(lǐng)域的未來(lái)標(biāo)準(zhǔn)。

另一個(gè)角度,開(kāi)源和我們服務(wù)的生態(tài)定位有關(guān)。打個(gè)比方,我們的三維空間數(shù)據(jù),大家也會(huì)拿來(lái)去訓(xùn)練 Embodied AI,也會(huì)訓(xùn)練 3D 世界模型。那以 Embodied AI 為例,我們會(huì)發(fā)現(xiàn)在市場(chǎng)上,全球角度來(lái)說(shuō),真正能夠去訓(xùn)練機(jī)器人對(duì)空間理解、空間交互的團(tuán)隊(duì)是非常少的。但是又有很多小型團(tuán)隊(duì)希望參與到這個(gè)游戲里面來(lái)。

這就是我們?yōu)槭裁慈ラ_(kāi)源 Spatial-LM 這樣一個(gè)空間理解模型的意義。你可能自己沒(méi)辦法去訓(xùn)練一個(gè)這樣的模型,但是我把 API 做好,甚至我把我們已經(jīng)訓(xùn)練好的模型先放出來(lái),然后你自己有一些數(shù)據(jù)以后,也能夠在我的模型基礎(chǔ)上去微調(diào)出一個(gè)符合你業(yè)務(wù)場(chǎng)景的模型,讓更多的人參與到這個(gè)游戲里面來(lái)。這是我們?cè)诳臻g理解這塊做的。就像空間生成,其實(shí)我們也會(huì)在年底的時(shí)候發(fā)布一個(gè)跟空間生成相關(guān)的大模型出來(lái)。

也是同樣的邏輯,并非一定要技術(shù)人員才能創(chuàng)業(yè)。我們希望更多的產(chǎn)品經(jīng)理也能夠跳出來(lái)用起來(lái),然后把商業(yè)模式……因?yàn)槠鋵?shí)在 AI 時(shí)代,技術(shù)很關(guān)鍵,但是另外,對(duì)產(chǎn)品的定義、對(duì)用戶(hù)的定義,以及用戶(hù)數(shù)據(jù)和模型的飛輪,其實(shí)也是一個(gè) AI 企業(yè),尤其是 AI 初創(chuàng)企業(yè),能夠成功的關(guān)鍵。

唐小引:最后總結(jié)一下。從空間智能的技術(shù)發(fā)展上來(lái)看,比如數(shù)據(jù)、算力、模型這些方面,在接下來(lái)的一段時(shí)間(可以是短期或長(zhǎng)期),還會(huì)有哪些關(guān)鍵的突破?這是技術(shù)發(fā)展。然后相應(yīng)地體現(xiàn)到人,回歸到人身上。

現(xiàn)在我理解空間智能開(kāi)始被越來(lái)越多的開(kāi)發(fā)者知道,這可能核心得益于比如群核是杭州六小龍之一,比如李飛飛這位知名的 AI 學(xué)者也在投身這個(gè)方向。但很多人可能剛從陌生到逐漸了解,您有哪些思考和建議,可以分享給希望投身空間智能領(lǐng)域的人?

唐睿:這很難說(shuō)。在前 AI 時(shí)代,或者說(shuō)再往前一兩年,都是人在開(kāi)發(fā) AI,現(xiàn)在你已經(jīng)能夠看到……就像 xAI 他們已經(jīng)在做的一些事情,包括我覺(jué)得這可能也是 CSDN 在致力研究的一些事情,就是 AI 真的是在參與到 AI 的開(kāi)發(fā)過(guò)程里面去了。所以當(dāng)這個(gè)循環(huán)轉(zhuǎn)起來(lái)以后,AI 的發(fā)展技術(shù)是非??膳碌摹?/p>

當(dāng)然,提到空間智能它的突破點(diǎn),我覺(jué)得等硬件。

從軟件的角度說(shuō),AI 已經(jīng)能開(kāi)發(fā) AI 了。算力不由我們決定,我們搞不了芯片。然后從數(shù)據(jù)的角度來(lái)說(shuō),如果要產(chǎn)生一個(gè)爆點(diǎn),這個(gè)爆點(diǎn)一定是在我們對(duì)現(xiàn)實(shí)的創(chuàng)作,或者說(shuō)我們創(chuàng)作 3D 空間的方式上。原來(lái)創(chuàng)作 3D 空間的方式,剛才提到只能是設(shè)計(jì)師去設(shè)計(jì)。當(dāng)每個(gè)人都可以對(duì)空間進(jìn)行捕獲、進(jìn)行還原的時(shí)候,它會(huì)是一個(gè)爆點(diǎn)。這個(gè)爆點(diǎn)我覺(jué)得應(yīng)該兩年,可能 24 個(gè)月。

第二個(gè)問(wèn)題其實(shí)這也是我們團(tuán)隊(duì)里搞科研時(shí)會(huì)定義的一個(gè)態(tài)度。一個(gè)思維態(tài)度是Be Critical, Be Creative,就是用批判和創(chuàng)造性的態(tài)度去看問(wèn)題。另外,在能力角度,不能光想,想法本身不值錢(qián),你一定要去做實(shí)現(xiàn)。

所以做空間智能的時(shí)候,可能也跟我自身的經(jīng)歷有關(guān),我做過(guò)圖形學(xué)。圖形學(xué)里面我們不光是像 CV 里看到這個(gè)東西是藍(lán)色就是藍(lán)色,當(dāng)我這個(gè)燈換成一個(gè)紅色的光時(shí),它照下來(lái)就是紫色了。所以把這種批判和創(chuàng)造性的理念放到多個(gè)領(lǐng)域里面去,會(huì)有很大的幫助。

唐小引:所以我理解還是思維上的轉(zhuǎn)變。

唐睿:其實(shí)也不是,咱們科研工作者都得持續(xù)地保持這樣一種,說(shuō)白了就是進(jìn)取的態(tài)度。

唐小引: 好的,謝謝唐老師為我們帶來(lái)的精彩分享。謝謝大家,下次再見(jiàn)。( 投稿或?qū)で髨?bào)道:zhanghy@csdn.net )

↓想要觀看完整視頻的小伙伴可戳~

關(guān)于《萬(wàn)有引力》:

這是由 CSDN &《新程序員》執(zhí)行總編唐小引主理的對(duì)話(huà)欄目。技術(shù)趨勢(shì)多變,一不留神總擔(dān)心錯(cuò)過(guò)。正在發(fā)生的技術(shù)事件,對(duì)于我們開(kāi)發(fā)者意味著什么?我們面臨的諸多困惑從何尋找答案?《萬(wàn)有引力》即志在于此,直面事件與困惑,抽絲剝繭,解讀技術(shù)真相。

  • 欄目定位:一檔面向開(kāi)發(fā)者群體,聚焦解讀技術(shù)真相的對(duì)話(huà)欄目。

  • 視頻觀看平臺(tái):CSDN 視頻號(hào)、CSDN 網(wǎng)站 & App

  • 多形式:文章、視頻、音頻都會(huì)有,持續(xù)關(guān)注 CSDN 公眾號(hào)都可獲取,歡迎大家關(guān)注!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
直擊AI短劇|演員會(huì)被淘汰嗎?葉璇:AI會(huì)令好演員更值錢(qián)

直擊AI短劇|演員會(huì)被淘汰嗎?葉璇:AI會(huì)令好演員更值錢(qián)

揚(yáng)子晚報(bào)
2026-03-07 19:18:24
我和妻子約定丁克,60歲去體檢時(shí),醫(yī)生:您當(dāng)年做手術(shù)是自愿的嗎

我和妻子約定丁克,60歲去體檢時(shí),醫(yī)生:您當(dāng)年做手術(shù)是自愿的嗎

青青會(huì)講故事
2026-02-11 14:05:03
盤(pán)錦一人干翻整小區(qū),叔叔蹲守后主力找監(jiān)控,小區(qū)曝光,群里炸鍋

盤(pán)錦一人干翻整小區(qū),叔叔蹲守后主力找監(jiān)控,小區(qū)曝光,群里炸鍋

奇思妙想草葉君
2026-03-06 19:05:37
離譜! 男子花近5000元網(wǎng)購(gòu)200g銀條, 含銀量卻只有0.41%! 商家失聯(lián)

離譜! 男子花近5000元網(wǎng)購(gòu)200g銀條, 含銀量卻只有0.41%! 商家失聯(lián)

揚(yáng)子晚報(bào)
2026-03-07 10:44:37
10萬(wàn)億窟窿!比恒大更坑的民企來(lái)了,曾力壓許家印,位居第一

10萬(wàn)億窟窿!比恒大更坑的民企來(lái)了,曾力壓許家印,位居第一

孤單是寂寞的毒
2026-03-04 15:38:03
15年前,那個(gè)當(dāng)著全世界喝下核污染水的日本官員,如今還活著嗎

15年前,那個(gè)當(dāng)著全世界喝下核污染水的日本官員,如今還活著嗎

小蜜情感說(shuō)
2026-03-06 16:52:42
出軌、凈身出戶(hù)?這次,74歲的梁錦松,終究在伏明霞身上栽了跟頭

出軌、凈身出戶(hù)?這次,74歲的梁錦松,終究在伏明霞身上栽了跟頭

秋姐居
2026-02-10 09:19:42
新秀看三年!22歲的探花亨德森,已經(jīng)水掉了?

新秀看三年!22歲的探花亨德森,已經(jīng)水掉了?

籃球?qū)嶄?/span>
2026-03-08 00:06:27
賈國(guó)龍退居幕后,西貝自救失敗,新高管能否力挽狂瀾?

賈國(guó)龍退居幕后,西貝自救失敗,新高管能否力挽狂瀾?

燕梳樓頻道
2026-03-07 20:46:18
很遺憾這兩位沒(méi)有在一起,多么郎才女貌,天作之合,好般配呀

很遺憾這兩位沒(méi)有在一起,多么郎才女貌,天作之合,好般配呀

草莓解說(shuō)體育
2026-03-06 14:49:46
美國(guó)準(zhǔn)備滅國(guó)之戰(zhàn)!以色列真敢丟核彈?外媒:發(fā)現(xiàn)伊朗背后的高人

美國(guó)準(zhǔn)備滅國(guó)之戰(zhàn)!以色列真敢丟核彈?外媒:發(fā)現(xiàn)伊朗背后的高人

好賢觀史記
2026-03-07 14:47:18
田馥甄逼周杰倫離婚???

田馥甄逼周杰倫離婚!?

八卦瘋叔
2026-03-07 10:20:42
玩家磨磨唧唧不肯走,BOSS等不及直接去新手村滅團(tuán)

玩家磨磨唧唧不肯走,BOSS等不及直接去新手村滅團(tuán)

街機(jī)時(shí)代
2026-03-07 18:00:03
揭秘亞洲最窮國(guó):當(dāng)?shù)嘏泽@人開(kāi)放,游客秒變土豪,無(wú)不想去定居

揭秘亞洲最窮國(guó):當(dāng)?shù)嘏泽@人開(kāi)放,游客秒變土豪,無(wú)不想去定居

明天后天大后天
2026-02-07 11:10:14
我見(jiàn)過(guò)最傻的父母,攥著大把的存款和退休金,卻等著給子女當(dāng)遺產(chǎn)

我見(jiàn)過(guò)最傻的父母,攥著大把的存款和退休金,卻等著給子女當(dāng)遺產(chǎn)

i書(shū)與房
2026-02-25 17:22:34
韓國(guó)教授警告:世界上只有韓國(guó)看不起中國(guó),但中國(guó)眼里卻沒(méi)有韓國(guó)

韓國(guó)教授警告:世界上只有韓國(guó)看不起中國(guó),但中國(guó)眼里卻沒(méi)有韓國(guó)

朗威談星座
2026-03-07 19:13:19
別再瞎買(mǎi)!2026年A股真正的核心賽道,只有這3條

別再瞎買(mǎi)!2026年A股真正的核心賽道,只有這3條

小白鴿財(cái)經(jīng)
2026-03-07 20:30:03
全英賽最新戰(zhàn)報(bào)!國(guó)羽連丟2金:混雙衛(wèi)冕冠軍先贏后輸,無(wú)緣決賽

全英賽最新戰(zhàn)報(bào)!國(guó)羽連丟2金:混雙衛(wèi)冕冠軍先贏后輸,無(wú)緣決賽

劉姚堯的文字城堡
2026-03-07 19:16:14
江蘇省副省長(zhǎng):今年蘇超將全程使用VAR,登場(chǎng)11人至少6名U22

江蘇省副省長(zhǎng):今年蘇超將全程使用VAR,登場(chǎng)11人至少6名U22

懂球帝
2026-03-07 15:47:51
武漢見(jiàn)!中國(guó)女籃VS捷克,開(kāi)球時(shí)間出爐,央視鏡頭為何總給女觀眾

武漢見(jiàn)!中國(guó)女籃VS捷克,開(kāi)球時(shí)間出爐,央視鏡頭為何總給女觀眾

體育大學(xué)僧
2026-03-07 10:17:29
2026-03-08 06:52:49
AI科技大本營(yíng) incentive-icons
AI科技大本營(yíng)
連接AI技術(shù)的創(chuàng)造者和使用者
2639文章數(shù) 7660關(guān)注度
往期回顧 全部

科技要聞

OpenClaw爆火,六位"養(yǎng)蝦人"自述與AI共生

頭條要聞

伊朗啟動(dòng)“真實(shí)承諾4”第27輪軍事行動(dòng)

頭條要聞

伊朗啟動(dòng)“真實(shí)承諾4”第27輪軍事行動(dòng)

體育要聞

塔圖姆298天走完這段路 只用27分鐘征服這座城

娛樂(lè)要聞

汪小菲曝親媽猛料,張?zhí)m公開(kāi)財(cái)產(chǎn)分配

財(cái)經(jīng)要聞

針對(duì)"不敢休、不讓休"怪圈 國(guó)家出手了

汽車(chē)要聞

逃離ICU,上汽通用“止血”企穩(wěn)

態(tài)度原創(chuàng)

健康
教育
家居
手機(jī)
軍事航空

轉(zhuǎn)頭就暈的耳石癥,能開(kāi)車(chē)上班嗎?

教育要聞

新華社消息|教育部部長(zhǎng):將深入開(kāi)展“校園餐”、教輔征訂等專(zhuān)項(xiàng)治理

家居要聞

暖棕撞色 輕法奶油風(fēng)

手機(jī)要聞

vivo X300 Max真機(jī)曝光,圓形后攝方案

軍事要聞

美第三個(gè)航母打擊群據(jù)稱(chēng)準(zhǔn)備部署至中東

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版