国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

《現(xiàn)代電影技術(shù)》|陳焱松等:空間智能技術(shù)在VR電影空間映射中的應用探索

0
分享至

本文刊發(fā)于《現(xiàn)代電影技術(shù)》2025年第2期

專家點評

人工智能(AI)的第三次浪潮正以空間智能(Spatial Intelligence)為核心掀起新一輪變革。空間智能即AI在三維空間中感知、推理和行動的能力,其核心在于賦予機器理解物理世界的深度、距離、方位及動態(tài)關(guān)系,從而在復雜環(huán)境中實現(xiàn)自主決策。VR電影作為空間智能技術(shù)的重要應用場景,其借助計算機系統(tǒng)及傳感器技術(shù)生成三維環(huán)境,創(chuàng)造出一種嶄新的人機交互方式,模擬人的視覺、聽覺、觸覺等感官功能,使觀眾沉浸在虛擬境界中。VR電影的全景式立體成像、環(huán)繞音響和人景交互,徹底沖破了傳統(tǒng)影院的維度,使觀眾在視覺和聽覺上完全浸潤于影片內(nèi)容,為觀眾帶來嶄新的沉浸式交互式觀影體驗。隨著空間智能技術(shù)的發(fā)展與應用,AI技術(shù)與VR技術(shù)的耦合程度越來越深,未來VR電影將通過復雜運動模擬、多模態(tài)數(shù)據(jù)融合和智能體動態(tài)敘事等技術(shù)的綜合應用,推動其走向更加交互、更加沉浸和更富個性化的影像體驗,并持續(xù)推動敘事方式和交互模式的革新。《空間智能技術(shù)在VR電影空間映射中的應用探索》一文針對VR電影創(chuàng)制中面臨的如何在虛擬空間中實現(xiàn)對現(xiàn)實空間的動態(tài)映射這一困境,基于空間定位、空間認知和空間涌現(xiàn)的邏輯層級,從實時追蹤、多模態(tài)映射、三維生成和空間推理等維度,構(gòu)建VR電影的空間智能技術(shù)路徑,為VR電影中虛擬空間與現(xiàn)實空間的復雜交互問題提供了解決思路,對相關(guān)研究人員具有較高的參考價值。

——潘志庚

教授

南京信息工程大學人工智能學院院長

作 者 簡 介

陳焱松

北京師范大學藝術(shù)與傳媒學院數(shù)字媒體系助理研究員、勵耘博士后,主要研究方向:數(shù)字影像技術(shù)與藝術(shù)、AI生成藝術(shù)。

北京師范大學藝術(shù)與傳媒學院碩士研究生在讀,主要研究方向:數(shù)字媒體。

蔡若彤

伴隨人工智能技術(shù)的持續(xù)發(fā)展迭代,以空間智能為核心的技術(shù)集群逐漸改變虛擬現(xiàn)實(VR)電影中對于現(xiàn)實空間和虛擬空間的雙重認知方式,使VR電影創(chuàng)制進入全新階段。為解決VR電影創(chuàng)制面臨的運動映射、身體映射、動態(tài)交互映射等空間困境,本文通過對空間智能技術(shù)與VR電影間的關(guān)系梳理,基于空間定位技術(shù)、空間認知技術(shù)與空間涌現(xiàn)技術(shù)的邏輯層級,從實時追蹤技術(shù)、多模態(tài)映射技術(shù)、三維生成技術(shù)、空間推理技術(shù)等維度,初步構(gòu)建VR電影的空間智能技術(shù)路徑,一定程度上解決了VR電影中虛擬空間與現(xiàn)實空間的復雜交互問題,有助于持續(xù)推動VR電影創(chuàng)制技術(shù)在空間映射中的革新,構(gòu)筑一個更富沉浸性的虛擬空間環(huán)境。

關(guān)鍵詞

空間智能;VR電影;空間映射;空間涌現(xiàn);智能體(AI Agent)

1 引言

2024年4月,斯坦福大學教授李飛飛在溫哥華TED大會上首次向公眾詳細闡釋了空間智能(Spatial Intelligence)的相關(guān)概念[1]。這一概念最初來源于心理學,由霍華德·加德納(Howard Gardner)在其著作《心智框架》(Frames of Mind: The Theory of Multiple Intelligences, 1983)中的多元智能理論[2]所提出,主要指人類理解和利用空間關(guān)系的能力,包括空間感知、空間推理、空間表征和空間想象等。此后在人工智能技術(shù)與心理學的耦合下,結(jié)合計算機視覺(CV)、圖像處理、深度感知、空間映射以及機器學習(ML)和神經(jīng)網(wǎng)絡等技術(shù),賦予機器感知、理解和導航物理世界的能力。與以往人工智能技術(shù)主要處理二維圖像(包含靜態(tài)和動態(tài))不同,空間智能相關(guān)概念及其支撐技術(shù)將人工智能技術(shù)帶入新的深水區(qū),逐步發(fā)展出能夠解釋和推理三維空間的算法能力,邁向?qū)τ趧討B(tài)實時環(huán)境的深度感知與交互。

空間智能的認知過程涉及對現(xiàn)實世界與抽象世界中的視覺信息進行理解,以及對信息進行想象的能力,其技術(shù)突破不僅推動了智能導航、自動駕駛和虛擬現(xiàn)實(VR)等領域的迅速發(fā)展,還為從科學研究到藝術(shù)創(chuàng)作的廣泛應用場景提供了更多可能。尤其對VR電影而言,深度感知和空間映射技術(shù)為其提供了高度逼真的場景建模能力,機器學習則提升了VR電影系統(tǒng)實時優(yōu)化內(nèi)容生成與交互方式的能力??梢哉f,以空間智能為核心的系列技術(shù)逐漸改變了VR電影中對于現(xiàn)實空間和虛擬空間的雙重認知方式,同時為各類媒介與技術(shù)的融合帶來深遠影響。正如當前的電影概念不再被簡單定義為圖像與聲音的組合,不再局限于傳統(tǒng)線性敘事或非線性敘事,而是成為一個更具開放屬性、更富多維動態(tài)、更能復雜交互的涌現(xiàn)性影像系統(tǒng)[3]。VR電影的表達形式也伴隨技術(shù)發(fā)展不斷迭代,通過整合實時空間計算、人工智能及多模態(tài)交互技術(shù),全面步入空間智能的新階段。

2 VR電影的空間困境

虛擬現(xiàn)實電影作為一種新興媒介,其核心在于構(gòu)建一個獨特且具備影像吸引力的數(shù)字世界,使觀眾能產(chǎn)生身臨其境的感受。然而,這種沉浸感的實現(xiàn)并非簡單依賴于VR媒介本身的技術(shù)特性,而是建立在虛擬空間與現(xiàn)實空間之間復雜的交互技術(shù)機制之上。從認知科學角度來看,沉浸感并非單純來源于虛擬空間所提供的構(gòu)想屬性,而是需建立在現(xiàn)實空間感知與大腦映射的和諧統(tǒng)一基礎之上。相關(guān)研究表明,無論是通過觸覺增強模擬物理觸感以提升虛擬環(huán)境中的真實感[4],還是通過虛擬空間與現(xiàn)實空間的動態(tài)對齊以減輕認知負擔[5],虛擬對象與物理對象的雙向交互能夠?qū)崿F(xiàn)真實行為映射,進而顯著增強沉浸感。

因此,當前VR電影創(chuàng)制中面臨的重要空間困境在于如何在虛擬空間中實現(xiàn)對現(xiàn)實空間的動態(tài)映射,即當VR創(chuàng)造出完全虛擬的環(huán)境時,觀眾的真實身體仍存在于現(xiàn)實世界中,如何彌合這種虛擬與現(xiàn)實、具身性與意向性之間的裂隙。從本質(zhì)來看,VR電影的空間困境實際是一個系統(tǒng)性的問題,涉及計算機科學、認知科學、電影學等多重領域,當前空間智能技術(shù)能夠從空間定位、空間認知、空間涌現(xiàn)等方面對VR電影空間進行優(yōu)化設計,使觀眾能夠清晰地認識“我”在虛擬情境中的位置、角色及規(guī)則,解決“觀眾是誰、觀眾在哪、觀眾要到哪里去”等問題。

2.1 空間定位技術(shù)與運動映射

運動映射是指將觀眾在現(xiàn)實世界中的運動行為(如行走、旋轉(zhuǎn)、跳躍)映射到虛擬環(huán)境中,使虛擬角色運動、視角等保持與真實運動一致。在VR電影的空間移動中,由于VR定位和追蹤技術(shù)的限制,觀眾常被限制為一個靜態(tài)的觀察者,對于360°影像進行全景觀看,缺少觀眾在這一空間中的位置感知與運動映射。此后,部分VR電影采用“瞬移式”交互,通過手柄點擊完成位置跳轉(zhuǎn),以實現(xiàn)在VR空間中的大幅度移動。這樣設計雖可解決虛擬空間的運動問題,但缺乏現(xiàn)實運動的連續(xù)性,可能降低沉浸感,同時也容易引發(fā)觀眾的眩暈感或暈動癥[6],從而影響觀眾的體驗。因此,靜態(tài)式觀察、程序化交互都限制了觀眾身體在VR空間中的實際移動,從而降低了觀眾的運動映射感。

空間定位技術(shù)集群引入VR電影后,能將觀眾的真實運動與在虛擬空間中的運動進行精準映射,實現(xiàn)觀眾與虛擬世界間的空間一致性,被廣泛用于解決“觀眾在哪”的問題,極大地推動觀眾在場感的塑造。一般而言,空間定位技術(shù)涉及感知空間中的物體位置、自己的運動軌跡以及相對于周圍環(huán)境的關(guān)系。在基于人體的運動映射中,涉及旋轉(zhuǎn)、跳躍等復雜肢體運動的檢測,對精準動作捕捉技術(shù)提出了更高要求。然而,這種高精度追蹤往往需要額外的硬件支持,比如多個傳感器、攝像頭、慣性測量單元(IMU)或外骨骼設備。這會導致觀眾需佩戴較笨重的設備,可能也會限制觀眾的運動范圍,影響自然的跳躍或旋轉(zhuǎn)動作。

2.2 空間認知技術(shù)與身體映射

身體映射是指將觀眾在現(xiàn)實世界中的身體感知(如視覺、聽覺、觸覺等感覺)行為映射到虛擬環(huán)境中,使虛擬角色的感知過程與觀眾的真實感知類似。在VR技術(shù)發(fā)展的初期,身體映射的設計和實現(xiàn)能力有限,尤其感官一致性是身體映射的難題之一。以觸覺設備為例,早期觸覺設備的功能多采用簡單的振動反饋,主要用于模擬單一的觸碰事件或物體邊緣的感知,缺乏對物體紋理、形狀和動態(tài)變化的精細模擬,使觀眾的觸覺體驗片面而生硬。而在觸覺之外的視覺、聽覺等其他感官,也常會出現(xiàn)感知不同步的問題。例如,觀眾在虛擬環(huán)境中抓取物體時,視覺上物體已移動,但觸覺反饋可能延遲或完全缺失。這種感官不協(xié)調(diào)削弱了觀眾的沉浸感,甚至引發(fā)不適[7]。

當空間定位技術(shù)解決了“觀眾在哪”的問題之后,空間認知技術(shù)需解決“觀眾是誰”的問題??臻g認知技術(shù)集群引入VR電影可增強觀眾對虛擬世界空間結(jié)構(gòu)、虛擬物品等之間的理解與感知。通過諸如認知地圖映射[8]等技術(shù)框架,空間認知技術(shù)能夠?qū)τ脩舾兄J胶驼J知偏好進行建模,實現(xiàn)虛擬場景的實時生成。例如,根據(jù)觀眾的視線焦點和注意力模式,動態(tài)調(diào)整虛擬場景中的燈光、色彩或布局,確保觀眾的注意力集中在關(guān)鍵敘事點上。

2.3 空間涌現(xiàn)技術(shù)與動態(tài)交互映射

動態(tài)交互映射是指將觀眾在現(xiàn)實世界中的交互邏輯、交互動作映射至動態(tài)變化的虛擬環(huán)境及虛擬角色之上。以往 VR電影往往是運用單一的交互反饋來表現(xiàn)虛擬環(huán)境的動態(tài)屬性,但虛擬環(huán)境并非單一“觸發(fā)-反饋”的線性世界,而是隨著觀眾行為和敘事進程實時變化的開放世界。然而,構(gòu)建一個能夠動態(tài)交互的虛擬空間,不僅需要龐大的數(shù)字資產(chǎn)支持,還要依托強大的計算能力,以實現(xiàn)從空間設計到交互響應的完整功能。

當空間定位技術(shù)解決了“觀眾在哪”問題,空間認知技術(shù)解決“觀眾是誰”問題之后,空間涌現(xiàn)技術(shù)實際上解決了“觀眾要到哪里去”的問題??臻g涌現(xiàn)技術(shù)集群引入VR電影后,通過實時的數(shù)據(jù)分析與模擬算法,提前預測出虛擬世界中的變化,并生成合適的環(huán)境反饋;與此同時,虛擬角色通過實時感知觀眾行為并生成相應反饋,可使虛擬敘事系統(tǒng)更具沉浸感和交互性。然而,這種高度動態(tài)、個性化的敘事反饋對開發(fā)者提出了極高的技術(shù)要求,尤其是在復雜的交互場景下,如何保持動態(tài)空間的一致性和降低復雜性,是一項技術(shù)難題。

3 構(gòu)建VR電影的空間智能技術(shù)路徑

針對VR電影的空間困境,本文基于空間智能技術(shù)集群進行梳理,并從空間定位、空間認知和空間涌現(xiàn)三個維度展開探討。通過實時追蹤技術(shù)實現(xiàn)精確的空間定位,借助多模態(tài)映射技術(shù)優(yōu)化空間認知,結(jié)合三維生成與空間推理技術(shù)推動空間涌現(xiàn)?;诖?,本文構(gòu)建了VR電影的空間智能技術(shù)路徑,為VR電影的空間制作提供了系統(tǒng)性的技術(shù)框架(圖1)。

圖1 構(gòu)建VR電影的空間智能技術(shù)路徑

3.1 實時追蹤技術(shù)完成空間定位與地圖生成

在虛擬現(xiàn)實環(huán)境中,高精度實時追蹤技術(shù)是實現(xiàn)沉浸式體驗的核心,其可通過追蹤觀眾的頭部、手部及全身姿態(tài),定位觀眾在VR電影場景中的位置和方向,還可根據(jù)觀眾在虛擬環(huán)境中自由走動、隨機運動和視角動態(tài)調(diào)整進行自適應變化,將觀眾的物理運動與虛擬世界進行精準對接,從而保證虛擬環(huán)境與現(xiàn)實世界之間的無縫交互。

從技術(shù)路線上看,實時追蹤技術(shù)包含定位(Localization)、建圖(Mapping)、同步(Simultaneous)三個邏輯層級。以新近出現(xiàn)的VR SLAM算法為例,VR/AR代表性產(chǎn)品中微軟HoloLens、谷歌ProjectTango以及Magic Leap都應用了同步定位與建圖(Simultaneous Localization and Mapping, SLAM)技術(shù)作為視覺增強手段,SLAM算法生成VR空間地圖的過程涉及感知環(huán)境、構(gòu)建地圖和優(yōu)化位姿等多個步驟[9]。

(1)定位,即確定VR頭顯在真實環(huán)境中的具體位置和方向。一方面需感知環(huán)境,SLAM在生成VR空間地圖時需采集環(huán)境信息,可通過深度相機、激光雷達等傳感器提供空間內(nèi)的環(huán)境數(shù)據(jù),消費級VR設備主要通過RGB攝像頭和IMU采集環(huán)境數(shù)據(jù)、幾何特征和位置關(guān)系。另一方面是特征提取與匹配,SLAM通過分析采集的數(shù)據(jù),在深度學習(DL)支持下提取環(huán)境中的關(guān)鍵特征點,并進行匹配以實現(xiàn)定位和建圖。

(2)建圖,即根據(jù)環(huán)境中的傳感器數(shù)據(jù),構(gòu)建環(huán)境的動態(tài)空間地圖?;趥鞲衅鲾?shù)據(jù)和特征匹配結(jié)果,使用深度信息與位置數(shù)據(jù)將環(huán)境特征轉(zhuǎn)換為三維點云,并通過逐幀疊加生成初步的三維模型,再進行網(wǎng)格化處理,逐步完善VR大空間地圖,同時通過算法優(yōu)化提高地圖和定位的精度。

(3)同步,即定位和建圖是同步進行的,建圖依賴定位的準確性,而定位需基于實時更新的地圖。SLAM基于地圖建圖階段所輸出的三種類型地圖,包括三維點云地圖(記錄空間中每個點的位置和顏色信息)、網(wǎng)格地圖(適用于VR系統(tǒng),提供連續(xù)的三角化表面)、語義地圖(標注區(qū)域功能和物體類別,便于交互設計)。隨后,相關(guān)地圖被導入VR引擎(如Unity或Unreal Engine),結(jié)合設備的實時位置和方向,實現(xiàn)用戶在虛擬空間中的精準定位與交互[10,11]。

以VR大空間體驗《消失的法老》(Horizon of Khufu)為例,整個體驗區(qū)域超過500平方米,可同時容納80余名觀眾在以1∶1比例還原的金字塔內(nèi)部場景中自由探索,與其他參與者實時交互,這需要實時精準的空間定位、高效的網(wǎng)絡同步和低延遲的數(shù)據(jù)傳輸技術(shù),以確保多人體驗的流暢性和一致性。此后,2024年國內(nèi)相繼推出的VR大空間項目如《巴黎舞會》《永遠的巴黎圣母院》《蒼蘭決》《秦潮覺醒》等都采用了空間定位技術(shù),體驗空間達幾十到幾百平方米不等。SLAM系統(tǒng)的空間支持范圍從數(shù)十平方米的室內(nèi)環(huán)境到數(shù)千平方米的室外場景,隨著技術(shù)的不斷進步,SLAM在更大空間中的應用也在持續(xù)拓展。

3.2 多模態(tài)映射技術(shù)增強空間映射的具身體驗

在虛擬現(xiàn)實環(huán)境中,感知空間映射是一項關(guān)鍵的設計與技術(shù)挑戰(zhàn)。從根本上來說,人類感知空間的過程深受海馬體映射的影響,諸如Aronov等[12]、Bao等[13]和Killian等[14]的研究表明,海馬體不僅可處理空間導航信息,還可結(jié)合多種感官輸入(如視覺圖像、聲音頻率、氣味等),將這些信息嵌入一個由感知特性定義的多維感知空間中。而從技術(shù)層面來看,前述對海馬體的影響實際上是以多模態(tài)映射的技術(shù)完成的,尤其是通過多模態(tài)感覺的輸入(如視覺、聽覺、觸覺等)構(gòu)建沉浸式空間體驗,幫助觀眾形成更自然的空間知覺,從而為VR環(huán)境中的感知空間映射提供了理論基礎。

(1)在視覺模態(tài)上,高分辨率圖像、動態(tài)光影效果和三維深度感知技術(shù),能夠增強視覺輸入與虛擬空間之間的位置關(guān)系,而實時調(diào)整視點、焦距和透視投影,可使用戶感受到真實的空間深度和物體間的距離關(guān)系。

(2)在聽覺模態(tài)上,基于頭相關(guān)傳遞函數(shù)(HRTF)的三維音頻技術(shù),VR系統(tǒng)能夠模擬聲音的空間位置及其在環(huán)境中的傳播特性[15];在低光照或視覺信息不完整的情況下,空間化聽覺可增強觀眾定向感,通過聲音的方向、強度和頻率變化來感知物體的遠近和方位[16];此外,動態(tài)聲音設計還可引導觀眾的注意力到特定的虛擬場景區(qū)域,優(yōu)化空間探索體驗。

(3)在觸覺模態(tài)上,通過力反饋設備和觸覺模擬技術(shù),為觀眾提供與虛擬物體的直接觸感。例如,當用戶在虛擬環(huán)境中觸碰墻壁、拾取物體或感受水流時,觸覺設備可實時傳遞對應的振動、壓力或溫度信息。這種感知不僅增強了觀眾的具身體驗,還能通過觸覺的反饋細節(jié)進一步豐富感知空間的層次感。

(4)在其他感官模態(tài)上,諸如嗅覺上,通過氣味模擬技術(shù),能夠?qū)⒂筛惺芷骷せ畹碾娦盘杺鬟f至大腦,并調(diào)節(jié)大腦功能,包括記憶、想象與情緒等[17]。

正如早期的VR技術(shù)大多僅提供沉浸式的視覺體驗,受制于有限的物理空間及無法充分發(fā)揮的交互技術(shù)之間的矛盾,而在沉浸式大空間創(chuàng)制中,觀者的身體動作,如腳步行走、奔跑、跳躍等,都能通過觸覺和視覺的動態(tài)協(xié)作映射至虛擬空間,從而生成一種空間知覺與身體運動的真實整合。以VR大空間作品《風起洛陽》為例,燈光爆閃,震動模擬爆炸,風感模擬風雪和下降,溫感與氣味模擬環(huán)境變化等多模態(tài)感官刺激與映射,加速了敘事的情緒節(jié)奏。綜上所述,通過整合視覺、聽覺、觸覺、嗅覺等多模態(tài)感知輸入,VR環(huán)境能夠幫助觀眾建立一個動態(tài)而多維的感知空間。這種感知空間映射不僅提升了觀眾的沉浸感和存在感,還可優(yōu)化虛擬敘事與交互體驗。但多模態(tài)輸入的同步性與實時性需要更高效的技術(shù)支持,跨模態(tài)感知的設計還需深入研究觀眾的認知特性,如何避免感官過載以優(yōu)化觀眾體驗也是關(guān)鍵問題之一。

3.3 三維生成技術(shù)構(gòu)建虛擬影像場景

VR電影中的虛擬影像場景綜合文本、圖像、視頻和三維模型等多種媒介形式,是一個融合多種媒介特征的復雜信息場域。其除了算力、資源、網(wǎng)絡等基礎要求外,往往同時需要算法驅(qū)動,來完成快速生成高質(zhì)量的虛擬場景、動態(tài)角色以及環(huán)境細節(jié),從而為VR電影創(chuàng)造了可流動、可動態(tài)、可涌現(xiàn)的虛擬世界。當前的空間智能技術(shù)集群為三維生成技術(shù)構(gòu)建虛擬影像場景提供了多重解決方案。

(1)圖像轉(zhuǎn)三維模型的技術(shù)集群,包括運用攝影測量(Photogrammetry)、深度映射(Depth Mapping)、基于圖像的建模(Image?Based Modeling)等方式,以實現(xiàn)將二維圖像轉(zhuǎn)換為三維模型。首先,攝影測量通過拍攝多角度的照片來重建三維模型,算法通過識別單張圖像中的共視點和特征點,推算出它們在三維空間中的位置,進而重建物體的三維形態(tài),同時為了提高精度,使用多張圖片的結(jié)合最終構(gòu)建出完整的三維模型。其次,深度映射則通過為每個像素賦予一個深度值(即從觀察點到物體的距離),實現(xiàn)二維圖像向三維圖像的轉(zhuǎn)換。常見的深度映射方法包括立體視覺技術(shù)(Stereo Vision)和結(jié)構(gòu)光(Structured Light)掃描?;趫D像的建模技術(shù)通過分析單一或多張圖像的紋理、形狀和光照變化,推斷物體的深度和幾何特征,最終生成三維模型。這些技術(shù)通常依賴于計算機視覺和機器學習算法來識別和匹配圖像中的關(guān)鍵特征點,進而推算三維結(jié)構(gòu)。再次,基于圖像的建模是將一組照片轉(zhuǎn)化為三維空間的邏輯,一方面它依賴于運動恢復結(jié)構(gòu)(Structure from Motion, SfM)[18],即一種基于多個二維圖像推導三維結(jié)構(gòu)的技術(shù),通過檢測圖像間的匹配特征點來估算相機的相對位置和姿態(tài)以恢復場景中的三維點云或粗略表面模型。另一方面,它依賴于多視圖立體視覺(Multi?View Stereo, MVS)[19]底層算法,MVS在SfM基礎上進一步優(yōu)化,通過對多個視角圖像中的每個像素高精度深度計算,生成更高分辨率的三維模型。兩種技術(shù)結(jié)合顯著提高了圖像到三維模型的轉(zhuǎn)換精度和效率。

(2)自然語言轉(zhuǎn)化為三維空間的技術(shù)集群。密歇根大學的研究人員提出了一個名為VRCopilot的系統(tǒng),將預先訓練的生成式 AI 模型集成至沉浸式創(chuàng)作中,以促進 VR 中的人機共創(chuàng)[20]。VRCopilot系統(tǒng)利用自然語言處理(NLP)技術(shù)將人類語言描述轉(zhuǎn)化為三維空間布局。例如,用戶可通過語音命令描述“創(chuàng)建一把椅子”,系統(tǒng)會基于AI模型生成多個供用戶選擇的模型線框,用戶隨后可通過語音命令進一步優(yōu)化設計,或在虛擬地板使用手柄調(diào)整線框細節(jié),最后將線框變成具體的椅子。目前的生成系統(tǒng)還處于需多模態(tài)規(guī)范生成內(nèi)容的階段,三維影像生成AI技術(shù)仍需更進一步提升對人類自然語言描述的理解能力,以識別空間概念、物體關(guān)系以及布局要求。

(3)以神經(jīng)輻射場(NeRF)為代表的基于深度學習的三維空間生成方法。其通過神經(jīng)網(wǎng)絡建模場景中每個點的輻射屬性,從稀疏的二維圖像中重建逼真的三維場景,是完全區(qū)別于傳統(tǒng)三維模型生成路徑的電影空間場景建構(gòu)新方式。

3.4 空間推理技術(shù)模擬復雜運動與路徑

空間推理的核心是使模型能夠理解并處理關(guān)于物體、環(huán)境及其相互關(guān)系的三維空間信息,尤其是其賦予智能體(如虛擬角色、機器人或其他虛擬對象)理解三維空間環(huán)境、識別物體及其相互關(guān)系的能力,這不僅包括物體的靜態(tài)位置和方向,還涵蓋了動態(tài)場景中的物體運動趨勢、路徑規(guī)劃及與環(huán)境的交互。在VR電影中,智能體(AI Agent)的行為模擬與運動路徑生成是增強沉浸感和交互性的關(guān)鍵因素之一,虛擬角色通常需在復雜的三維環(huán)境中自由移動,并與其他物體或角色進行交互。整體而言,空間推理技術(shù)通過深度學習、強化學習以及視覺-語言模型的結(jié)合,能夠?qū)崟r生成合理的運動軌跡和行為路徑。

(1)大模型空間語義推理。大語言模型不僅需識別圖像或視頻中的物體,還需基于語言指令或語境描述推斷物體的空間關(guān)系,如位置、方向、距離等。在動態(tài)場景中,模型需進一步理解物體的運動趨勢、預測未來位置,并結(jié)合時間序列信息進行邏輯推理,為虛擬場景中的復雜行為生成提供了可能性。在這些能力的基礎上,空間技術(shù)可進一步融合視覺信息與語言模態(tài),通過多模態(tài)預訓練架構(gòu)(如CLIP或Flamingo)學習跨模態(tài)的語義對齊關(guān)系,從而理解諸如“紅色蘋果在桌子上”這樣的描述[21,22]。這種語義理解不僅限于靜態(tài)認知,還可用于動態(tài)推理。例如,模型可基于語句“跟隨那個移動的黃色方塊”實時生成跟蹤路徑,展現(xiàn)對場景的動態(tài)感知與反應能力。

(2)機器人語言智能交互。目前最大的開源真實機器人數(shù)據(jù)集Open X?Embodiment Dataset[23],由 DeepMind 和斯坦福大學等機構(gòu)聯(lián)合開發(fā),整合了來自全球 34 個實驗室的 60 個機器人數(shù)據(jù)集?;谠摂?shù)據(jù)集,研究人員訓練了兩個核心模型:一是RT?1 (Robotics Transformer 1)[24],一個基于 Transformer 的高效架構(gòu),專為機器人控制設計,能夠通過傳感器輸入和環(huán)境狀態(tài)計算智能體的最佳行動路徑。圖2展示了RT?1模型從多個機器人收集數(shù)據(jù)時的訓練方法,其中,藍色框內(nèi)表示機器人在日常任務(如桌面整理或物品分類)中收集視覺數(shù)據(jù),紅色框表示使用 KUKA 機械臂收集的抓取任務數(shù)據(jù)。二是RT?2 (Robotics Transformer 2)[25],一種視覺-語言模型,將機器人動作與自然語言相結(jié)合,不僅生成運動路徑,還能生成與這些動作相關(guān)的自然語言描述,提升了模型的理解和交互能力。利用這一模型,研究人員可在3D環(huán)境中訓練機器人學習基于語言指令的操作(如“把蘋果放在布料旁邊、上面、罐頭和橙子中間”)。在這一訓練過程中,機器人不僅能夠識別環(huán)境中的空間結(jié)構(gòu),還能動態(tài)規(guī)劃路徑,根據(jù)實時環(huán)境的變化完成復雜任務。這項技術(shù)為虛擬角色(如機器人或其他虛擬智能體)提供類似人類的空間認知能力,有助于其在VR電影等復雜環(huán)境中自然移動和交互。

圖2 RT?1模型從多個機器人收集數(shù)據(jù)時的訓練方法[24]

(3)AI驅(qū)動的智能體交互。智能體行為驅(qū)動技術(shù)通過空間推理能力賦予虛擬角色類似人類的行動能力。在虛擬環(huán)境中,智能體可根據(jù)劇情需求和場景特性生成動態(tài)行為。例如,在VR電影或游戲中,角色行為可基于空間推理技術(shù)實時調(diào)整,如在追逐、探索或戰(zhàn)斗場景中,智能體會根據(jù)環(huán)境變化(如障礙物、目標位置)生成合理的行為路徑。智能體不僅依賴于視覺信息來感知空間,還能通過多模態(tài)的聽覺輸入(如指令或?qū)υ挘?qū)動行為,使角色的動作更具交互性和情感表達。在多人交互場景中,智能體之間的協(xié)同動作更依賴于空間推理技術(shù),確保多個角色間協(xié)調(diào)并高效完成復雜任務。在VR作品《半衰期:愛莉克斯》(Half?Life: Alyx)中,每個智能體都擁有各自的記憶模塊,能夠?qū)Ⅲw驗玩家與其交互的方式(如選擇對話的內(nèi)容、玩家的情緒反應)進行記憶儲存,同時反饋出個性化的對話選項和動態(tài)反應。

4 VR電影技術(shù)展望

隨著人工智能技術(shù)與虛擬現(xiàn)實技術(shù)的耦合程度越來越深,未來VR電影技術(shù)將通過復雜運動模擬、多模態(tài)數(shù)據(jù)融合和智能體動態(tài)敘事等技術(shù)的綜合應用,推動其走向更加交互、更加沉浸和更富個性化的影像體驗,并持續(xù)推動敘事方式和交互模式的革新。尤其是在虛擬世界復雜性不斷增強的當下,如何在保證沉浸感的同時提升交互的連貫性和響應速度,成為VR電影技術(shù)發(fā)展的關(guān)鍵挑戰(zhàn)。

(1)人工智能技術(shù)實現(xiàn)對觀眾運行路徑的預測及預渲染。在VR電影空間中,系統(tǒng)可基于觀眾的歷史行為數(shù)據(jù)(如移動路徑、交互頻率、動作偏好)和當前的動態(tài)空間交互運載環(huán)境,建立個性化的觀眾行為模型,預測觀眾將要轉(zhuǎn)向、駐足觀察某物體或繼續(xù)前行的可能性,進而基于路徑預測的結(jié)果,提前渲染觀眾可能接觸到的虛擬場景和反饋機制,從而避免因加載延遲導致的視覺卡頓、反饋錯位及沉浸感下降等問題,提升交互連貫性和沉浸感。

(2)動作捕捉技術(shù)持續(xù)提升模擬復雜運動的能力。傳統(tǒng)VR電影的運動映射十分有限,只能停留在相對小幅度的運動范圍,如行走、骨骼運動等。而VR大空間則運用了線下大空間娛樂技術(shù)(Location?Based Entertainment, LBE),其運動映射體驗涉及射擊、大規(guī)模行走、跳躍等更為復雜的肢體動作,但現(xiàn)有動作捕捉技術(shù)存在精準性和實時性等問題,難以支撐具有復雜人物運動的敘事情節(jié),如奔跑、跳躍、旋轉(zhuǎn)等。未來的運動映射技術(shù)需更加關(guān)注虛擬空間中運動的連續(xù)性,通過引入更先進的路徑規(guī)劃算法與場景自適應技術(shù),以實現(xiàn)虛擬角色在空間中的平滑運動。當然,在技術(shù)發(fā)展的同時相關(guān)設備需向小型化和輕量化方向邁進。例如,通過整合可穿戴傳感器與嵌入式IMU,減少對外部攝像頭的依賴,實現(xiàn)更便捷的動作捕捉。同時,探索無接觸的動作識別技術(shù),以顯著減少觀眾的佩戴負擔,為自由運動提供更大的可能性。

(3)智能體驅(qū)動實現(xiàn)涌現(xiàn)敘事。智能體可結(jié)合真實機器人軌跡與虛擬環(huán)境,模擬復雜運動模式,學習如何繞過障礙物、與物體或角色交互,或依據(jù)虛擬場景特征(如重力、地形)調(diào)整行動策略。這使VR電影敘事中的動態(tài)行為生成成為可能。進一步而言,智能體可根據(jù)劇情實時生成行動路徑,并同時生成與這些行為相關(guān)的語言描述(如指令或?qū)υ挘?。例如,在追逐、逃跑、探索等場景中,角色的行為可由模型動態(tài)生成,使敘事更具交互性和隨機性。

5 結(jié)語

在空間智能技術(shù)的驅(qū)動下,VR電影正在逐漸突破傳統(tǒng)影像的“空間困境”,構(gòu)建起與人類感知深度耦合的敘事范式,并通過實時追蹤技術(shù)、多模態(tài)映射技術(shù)、三維生成技術(shù)及空間推理技術(shù)等手段,使虛擬環(huán)境能夠更加自然地與觀眾的感知模型對接,從而帶來更加真實、連貫的沉浸體驗。面向未來,在可持續(xù)發(fā)展與跨學科協(xié)作的深度框架下,VR電影也將不斷與人工智能、計算機視覺、空間計算、多模態(tài)交互等多領域技術(shù)相融合,并真正意義地全面邁入空間智能的新階段,成為VR電影創(chuàng)制的重要驅(qū)動力。尤其是伴隨以DeepSeek為代表的AI大模型與多模態(tài)交互的底層技術(shù)轉(zhuǎn)型,空間智能技術(shù)集群不僅使虛擬世界能夠“理解”并“適應”觀眾的凝視邏輯,更在深層次上重構(gòu)影像創(chuàng)作的本體論框架,為影像藝術(shù)的發(fā)展注入更多的前沿科技屬性。

參考文獻

(向下滑動閱讀)

[1] LI F. With spatial intelligence, AI will understand the real world[EB/OL]. [2025?01?03].https://www.ted.com/talks/fei_fei_li_with_spatial_intelligence_ai_will_

understand_the_real_world?subtitle=en.

[2] GARDNER H. Frames of Mind: The Theory of Multiple Intelligences. 10th Anniversary Edition (2nd ed.) [M]. New York: Basic Books, 1983: 179?215.

[3] 陳焱松,周雯.人工智能影像敘事的涌現(xiàn)化生成[J].當代電影,2024(05):14?20.

[4] HOFFMAN H G. Physically touching virtual objects using tactile augmentation enhances the realism of virtual environments[C]//IEEE Virtual Reality Annual International Symposium. Atlanta, GA, USA: IEEE, 1998:59?63.

[5] THOMAS J, ROSENBERG E S. Reactive Alignment of Virtual and Physical Environments Using Redirected Walking[C]//IEEE Conference on Virtual Reality and 3D User Interfaces Abstracts and Workshops. Atlanta, GA, USA: IEEE, 2020:317?323.

[6] HEESEOK O, WOOKHO S. Cybersickness and Its Severity Arising from Virtual Reality Content: A Comprehensive Study[J]. Sensors (Basel), 2022, 22(4):1314.

[7] CREEM-REGEHR S H, STEFANUCCI J K, BODENHEIMER B. Perceiving distance in virtual reality: theoretical insights from contemporary technologies[J]. Philosophical Transactions of the Royal Society B: Biological Sciences, 2023, 378.

[8] 吳際,李會杰.認知空間映射及其神經(jīng)機制[J].心理科學進展,2025,33(01):62?76.

[9] KAUR D P, BHARDWAJ V, MALHOTRA P, et al. Vision?based intelligent systems: State of the art and perspectives[J]. AIP Conf. Proc., 2024, 3209(1).

[10] NGUYEN T H, YUAN S, XIE L. VR?SLAM: A Visual?Range Simultaneous Localization and Mapping System using Monocular Camera and Ultra?wideband Sensors[EB/OL].[2025?01?21]. https://arxiv.org/pdf/2303.10903.

[11] LAI T. A Review on Visual?SLAM: Advancements from Geometric Modelling to Learning?based Semantic Scene Understanding[EB/OL].[2025?01?21]. https://arxiv.org/pdf/2209.05222.

[12] ARONOV D, NEVERS R, TANK D W. Mapping of a non?spatial dimension by the hippocampal?entorhinal circuit[J]. Nature, 2017, 543(7647):719?722.

[13] BAO X, GJORGIEVA E, SHANAHAN L K, et al. Grid?like neural representations support olfactory navigation of a two?dimensional odor space[J]. Neuron, 2019, 102(5).

[14] KILLIAN N J, JUTRAS M J, BUFFALO E A. A map of visual space in the primate entorhinal cortex[J]. Nature, 2012, 491(7426):761?764.

[15] ZHAO J, ZHANG C. Acoustic rendering and spatialization of 3D sound in virtual environments[C]// Proceedings of the 11th Sound and Music Computing Conference, 2015: 85?91.

[16] KUMAR S, GREEN M. The impact of binaural audio cues on spatial perception in virtual reality[J]. Journal of Virtual Reality and Broadcasting, 2020, 17(2): 61?73.

[17] 陳焱松,王之綱.嗅覺的景觀:“氣味電影”的記憶、情感與敘事[J].藝術(shù)傳播研究, 2022(01):31?38.

[18] SNAVELY N, SEITZ S M, SZELISKI R. Photo tourism: Exploring photo collections in 3D[C]//ACM SIGGRAPH 2006 Papers. ACM, 2006:835?846.

[19] GOESELE M, SCHINDLER K. Multi?View Stereo[J].IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(3):625?633.

[20] ZHANG L, PAN J, GETTIG J, et al. VRCopilot: Authoring 3D Layouts with Generative AI Models in VR[EB/OL].(2024?08?18)[2025?01?21].https://arxiv.org/pdf/2408.09382.

[21] RADFORD A, KIM J W, HALLACY C, et al. Learning transferable visual models from natural language supervision[C]//International conference on machine learning. PMLR, 2021: 8748?8763.

[22] ALAYRAC J B, DONAHUE J, LUC P, et al. Flamingo: a visual language model for few?shot learning[J]. Advances in neural information processing systems, 2022, 35: 23716?23736.

[23] O'NEILL A, REHMAN A, GUPTA A, et al. Open x?embodiment: Robotic learning datasets and rt?x models[EB/OL].[2025?01?21]. https://arxiv.org/pdf/2310.08864.

[24] BROHAN A, BROWN N, CARBAJAL J, et al. Rt?1: Robotics transformer for real?world control at scale[EB/OL].[2025?01?21]. https://arxiv.org/pdf/2212.06817.

[25] BROHAN A, BROWN N, CARBAJAL J, et al. Rt?2: Vision?language?action models transfer web knowledge to robotic control[EB/OL].[2025?01?21]. https://arxiv.org/pdf/2307.15818.

【項目信息】中央高?;究蒲袠I(yè)務費專項資金資助項目“智能媒體時代中國文化對外傳播敘事策略與效果研究”(123330009)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
官宣辟謠!鹿晗這波操作,關(guān)曉彤顏面何存?

官宣辟謠!鹿晗這波操作,關(guān)曉彤顏面何存?

搞笑娛樂笑話
2026-01-08 22:12:49
有效瘦肚子方法:不是跑步卷腹,堅持4周,內(nèi)臟脂肪降低20%!

有效瘦肚子方法:不是跑步卷腹,堅持4周,內(nèi)臟脂肪降低20%!

增肌減脂
2025-10-10 20:39:12
日本知名女星上圍豐滿火辣,被曝下海拍AV,曾全裸出演《花與蛇》

日本知名女星上圍豐滿火辣,被曝下海拍AV,曾全裸出演《花與蛇》

翰飛觀事
2025-12-29 21:19:30
他9歲成童星,爸媽去世他敗光千萬家產(chǎn),現(xiàn)成精神病靠撿垃圾為生

他9歲成童星,爸媽去世他敗光千萬家產(chǎn),現(xiàn)成精神病靠撿垃圾為生

有趣的胡侃
2026-01-10 09:52:38
北京樓市,亦莊標桿金茂府已跌破發(fā)行價

北京樓市,亦莊標桿金茂府已跌破發(fā)行價

焦點直擊
2026-01-09 08:57:35
6.3分暴漲至8.0分,這部美劇真神了

6.3分暴漲至8.0分,這部美劇真神了

天天美劇吧
2026-01-09 17:40:03
潮汕出了個“喬布斯”,干出年入120億小電驢!擬2026年赴港上市

潮汕出了個“喬布斯”,干出年入120億小電驢!擬2026年赴港上市

文史旺旺旺
2026-01-03 19:08:03
活久見!網(wǎng)傳河南一小學通知考試為“診斷”,網(wǎng)友:是某些人病了

活久見!網(wǎng)傳河南一小學通知考試為“診斷”,網(wǎng)友:是某些人病了

火山詩話
2026-01-09 07:56:38
“普飛”上線“i茅臺”9天,成交用戶超40萬!茅臺集團董事長陳華這樣解讀

“普飛”上線“i茅臺”9天,成交用戶超40萬!茅臺集團董事長陳華這樣解讀

每日經(jīng)濟新聞
2026-01-10 17:24:15
先嫁2人未離婚,再與9人結(jié)婚又離婚!女子利用大齡男想結(jié)婚騙財被判5年

先嫁2人未離婚,再與9人結(jié)婚又離婚!女子利用大齡男想結(jié)婚騙財被判5年

紅星新聞
2026-01-10 19:39:16
終于輪到日本“強烈抗議”了:130年來,日本從未像今天這樣憋屈

終于輪到日本“強烈抗議”了:130年來,日本從未像今天這樣憋屈

胖哥不胡說
2026-01-08 13:12:20
江蘇江陰一女銷售出軌客戶四年,聊天記錄曝光,讓人看了三觀盡毀

江蘇江陰一女銷售出軌客戶四年,聊天記錄曝光,讓人看了三觀盡毀

三農(nóng)老歷
2026-01-05 06:31:56
有高人預測:中國手握“兩套房”的家庭,未來將迎來3個結(jié)果!

有高人預測:中國手握“兩套房”的家庭,未來將迎來3個結(jié)果!

科學發(fā)掘
2026-01-10 04:18:55
別墅搜出23件國寶,全家集體失聯(lián)!徐湖平案落幕,17年舉報有結(jié)果

別墅搜出23件國寶,全家集體失聯(lián)!徐湖平案落幕,17年舉報有結(jié)果

詩意世界
2026-01-03 15:19:25
央視曝偽科普變現(xiàn)套路:身穿白大褂的“專家”,用“絲瓜瓤煮雞蛋,賽過人參千千萬”等話術(shù)博眼球,引流帶貨

央視曝偽科普變現(xiàn)套路:身穿白大褂的“專家”,用“絲瓜瓤煮雞蛋,賽過人參千千萬”等話術(shù)博眼球,引流帶貨

魯中晨報
2026-01-10 21:57:03
真相很殘忍:為何有些子女到了五六十歲后,都慢慢變得不孝了

真相很殘忍:為何有些子女到了五六十歲后,都慢慢變得不孝了

黑貓故事所
2026-01-10 22:48:29
馬斯克逆天發(fā)言:如能「改寫」設定程序,人類可實現(xiàn)半永生

馬斯克逆天發(fā)言:如能「改寫」設定程序,人類可實現(xiàn)半永生

鞭牛士
2026-01-10 13:05:09
臺灣問題是中國內(nèi)政,怎么解決,當然是由中國人自己說了算

臺灣問題是中國內(nèi)政,怎么解決,當然是由中國人自己說了算

環(huán)球時報國際
2026-01-09 17:41:44
越南不恨美國,不恨日本,連殖民幾十年的法國都不恨,就只恨中國

越南不恨美國,不恨日本,連殖民幾十年的法國都不恨,就只恨中國

我心縱橫天地間
2026-01-07 19:17:18
濟南地鐵放大招了,直接改變了全城上班族的通勤模式

濟南地鐵放大招了,直接改變了全城上班族的通勤模式

內(nèi)方外圓
2026-01-10 09:49:26
2026-01-11 02:20:49
電影技術(shù)微刊 incentive-icons
電影技術(shù)微刊
電影技術(shù)微刊
633文章數(shù) 209關(guān)注度
往期回顧 全部

科技要聞

必看 | 2026開年最頂格的AI對話

頭條要聞

特朗普簽署行政令 宣布進入國家緊急狀態(tài)

頭條要聞

特朗普簽署行政令 宣布進入國家緊急狀態(tài)

體育要聞

怒摔水瓶!杜蘭特30+12 難阻火箭遭雙殺

娛樂要聞

吳速玲曝兒子Joe是戀愛腦

財經(jīng)要聞

這不算詐騙嗎?水滴保誘導扣款惹眾怒

汽車要聞

寶馬25年全球銷量246.3萬臺 中國仍是第一大市場

態(tài)度原創(chuàng)

手機
時尚
旅游
游戲
軍事航空

手機要聞

魅族22Air、22 Next不開售發(fā)布,魅族23確認

伊姐周六熱推:電視劇《小城大事》;電視劇《軋戲》......

旅游要聞

12.7億元營收、15倍增長背后:誰在操盤萬歲山武俠城?頂流景區(qū)直面“長紅”之困|主題樂園資本論

《地平線6》首發(fā)為何沒PS5版?原來只是沒做完!

軍事要聞

??沼⑿鄹呦枋攀?曾駕駛殲-6打爆美軍機

無障礙瀏覽 進入關(guān)懷版