国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

OpenClaw帶火AI記憶,DeepMind用混合記憶把3D重建拉到近2萬(wàn)幀

0
分享至



編輯|杜偉

過(guò)去兩天,全球爆火的 Agent 私人助手 OpenClaw,接連更新了兩個(gè)版本,讓人直呼「開(kāi)發(fā)團(tuán)隊(duì)是不睡覺(jué)了嗎?」

之所以如此爆火,很大程度上歸功于 OpenClaw 的長(zhǎng)期記憶能力,它能夠記住用戶(hù)的對(duì)話(huà)歷史、偏好設(shè)置、任務(wù)上下文、個(gè)性化調(diào)整、常用信息和數(shù)據(jù)、交互偏好,等等。更新之后,OpenClaw 實(shí)現(xiàn)了上下文管理(記憶)的自由插拔。

記憶機(jī)制是大模型處理復(fù)雜任務(wù)的重要能力之一。在聊天對(duì)話(huà)、自動(dòng)化工作流等場(chǎng)景中,模型需要通過(guò)記憶保持長(zhǎng)期上下文。而在 3D 重建領(lǐng)域,尤其是大范圍場(chǎng)景或長(zhǎng)序列視頻重建,跨幀信息的持續(xù)傳播同樣至關(guān)重要,記憶機(jī)制正是實(shí)現(xiàn)這一能力的重要手段。

現(xiàn)有的前饋 3D 重建模型往往依賴(lài)短時(shí)上下文窗口,難以有效建模長(zhǎng)序列中的依賴(lài)關(guān)系。隨著幾何基礎(chǔ)模型(如 DUSt3R、MonST3R、VGGT)的出現(xiàn),可以從大規(guī)模數(shù)據(jù)中提煉復(fù)雜的幾何先驗(yàn),使得即便在傳統(tǒng)方法較難處理的場(chǎng)景中,仍能實(shí)現(xiàn)穩(wěn)健的前饋推理。不過(guò),當(dāng)前模型仍然存在一個(gè)關(guān)鍵空白:盡管經(jīng)典處理流程可以擴(kuò)展到城市級(jí)別,但現(xiàn)有的前饋模型在處理更大規(guī)模的場(chǎng)景時(shí),仍然受到限制。

主要障礙源自?xún)蓚€(gè)方面,即當(dāng)前架構(gòu)中固有的上下文壁壘和訓(xùn)練過(guò)程中嚴(yán)重的數(shù)據(jù)壁壘。從架構(gòu)角度看,雖然雙向注意力對(duì)于學(xué)習(xí)復(fù)雜的幾何先驗(yàn)至關(guān)重要,但其二次復(fù)雜度使得它只能應(yīng)用于短時(shí)上下文窗口。而從數(shù)據(jù)角度看,當(dāng)前的模型主要在短時(shí)上下文「氣泡」(幾十到一百多幀)上進(jìn)行訓(xùn)練,這使得它們?cè)谕评頃r(shí)無(wú)法有效整合長(zhǎng)距離依賴(lài)(數(shù)千到數(shù)萬(wàn)幀)。因此,像 FastVGGT 這樣的推理時(shí)啟發(fā)式方法,雖然成功緩解了內(nèi)存瓶頸,但仍無(wú)法在大規(guī)模 VBR 數(shù)據(jù)集上進(jìn)行泛化。

針對(duì)這一痛點(diǎn),近日,谷歌 DeepMind 聯(lián)合加州大學(xué)伯克利分校提出了 LoGeR(長(zhǎng)時(shí)上下文幾何重建)。這是一種新穎的架構(gòu),在無(wú)需后期優(yōu)化的情況下將密集的 3D 重建擴(kuò)展到極長(zhǎng)的序列。過(guò)程中,LoGeR 通過(guò)將視頻流分塊處理,利用強(qiáng)大的雙向先驗(yàn)進(jìn)行高保真度的塊內(nèi)推理。

為了應(yīng)對(duì)跨塊邊界一致性的挑戰(zhàn),研究者提出了一種基于學(xué)習(xí)的混合記憶模塊。這個(gè)雙組件系統(tǒng)結(jié)合了參數(shù)化的測(cè)試時(shí)訓(xùn)練(TTT)記憶模塊,用于錨定全局坐標(biāo)框架并防止尺度漂移,同時(shí)使用非參數(shù)化的滑動(dòng)窗口注意力(SWA)機(jī)制來(lái)保持未壓縮的上下文,從而實(shí)現(xiàn)高精度的相鄰塊對(duì)齊。



  • 論文標(biāo)題:LoGeR: Long-Context Geometric Reconstruction with Hybrid Memory
  • arXiv 鏈接:https://arxiv.org/pdf/2603.03269
  • 項(xiàng)目地址:https://loger-project.github.io/

值得注意的是,這種記憶架構(gòu)使得 LoGeR 能夠在 128 幀的序列上進(jìn)行訓(xùn)練,并在推理過(guò)程中泛化到數(shù)千幀。

在標(biāo)準(zhǔn)基準(zhǔn)測(cè)試和重新設(shè)計(jì)的 VBR 數(shù)據(jù)集(包含最多 19000 幀的序列)上進(jìn)行評(píng)估時(shí),LoGeR 明顯超越了先前的前饋方法,在 KITTI 數(shù)據(jù)集上將絕對(duì)軌跡誤差(ATE)降低了超過(guò) 74%,并且在前所未有的時(shí)間跨度上實(shí)現(xiàn)了穩(wěn)健、全球一致的重建。



視覺(jué)展示,在大規(guī)模真實(shí)場(chǎng)景(in-the-wild)以及 VBR 序列上的定性結(jié)果。本文的全前饋方法能夠在數(shù)千幀的長(zhǎng)序列中準(zhǔn)確保持大尺度結(jié)構(gòu),并實(shí)現(xiàn)穩(wěn)定的回環(huán)閉合。

方法概覽

為了將前饋密集型 3D 重建擴(kuò)展到分鐘級(jí)視頻,必須克服全局注意力的二次復(fù)雜度和長(zhǎng)時(shí)訓(xùn)練數(shù)據(jù)的稀缺問(wèn)題。端到端的分塊處理成為自然的解決方案,它嚴(yán)格限制了計(jì)算成本,并確保局部推理保持在現(xiàn)有短時(shí)上下文訓(xùn)練數(shù)據(jù)的分布范圍內(nèi)。然而,獨(dú)立處理每個(gè)塊會(huì)導(dǎo)致全局一致性的喪失。

因而需要這樣一種前饋架構(gòu),它能夠同時(shí)提供: (i) 強(qiáng)大的局部雙向推理能力,以保持密集的幾何保真度;(ii) 無(wú)損的短程信息傳遞通道,以保持跨相鄰塊邊界的高精度幾何對(duì)齊;(iii) 一個(gè)線(xiàn)性時(shí)間、固定大小的記憶機(jī)制,用于在數(shù)千幀的長(zhǎng)距離內(nèi)傳播全局信息。

研究者通過(guò)分塊順序處理輸入視頻流,如圖 1 和圖 2 所示。





為了在塊之間傳播信息,研究者引入了兩種互補(bǔ)的機(jī)制:

一是:通過(guò)分塊 TTT 實(shí)現(xiàn)長(zhǎng)時(shí)、有損壓縮

通過(guò)插入 TTT 層,保持跨多個(gè)塊的快速權(quán)重集 W。與分塊處理方式一致,研究者利用大塊測(cè)試時(shí)訓(xùn)練(LaCT),并證明它比標(biāo)準(zhǔn) TTT 更高效。在推理過(guò)程中,權(quán)重會(huì)對(duì)每個(gè)塊進(jìn)行更新和應(yīng)用操作。在應(yīng)用操作中,TTT 層利用存儲(chǔ)在權(quán)重中的歷史信息來(lái)調(diào)節(jié)網(wǎng)絡(luò)處理當(dāng)前塊的方式。

在更新操作中,權(quán)重會(huì)被編輯,存儲(chǔ)來(lái)自當(dāng)前塊的信息,從概念層面壓縮重要但冗余的幾何信息,例如粗略的幾何形狀和場(chǎng)景的尺度。雖然這些快速權(quán)重理論上提供了無(wú)限的接收?qǐng)觯鼈兊膶?shí)際容量本質(zhì)上受到訓(xùn)練上下文長(zhǎng)度的限制。

二是:通過(guò)滑動(dòng)窗口注意力(SWA)實(shí)現(xiàn)短時(shí)、無(wú)損傳遞

單純依賴(lài) TTT 樣式的狀態(tài)傳遞本質(zhì)上是有損的,這對(duì)于密集型 3D 重建尤其構(gòu)成問(wèn)題,因?yàn)樵谙噜弾g保持幾何一致性至關(guān)重要。為此,研究者以稀疏方式插入滑動(dòng)窗口注意力層,關(guān)注來(lái)自前一個(gè)和當(dāng)前塊的幀注意力層輸出的 tokens,即 C^m?1 ∪ C^m。

這建立了一個(gè)無(wú)損的信息傳遞通道,直接傳播來(lái)自前一個(gè)塊的高保真特征。值得注意的是,這一操作保持了有限的計(jì)算和內(nèi)存效率,因?yàn)榛瑒?dòng)窗口注意力僅應(yīng)用于相鄰塊之間,并且只插入在網(wǎng)絡(luò)的部分深度(僅四層)。

以上兩種跨塊路徑是互補(bǔ)的:TTT 提供了可擴(kuò)展的長(zhǎng)距離記憶,而 SWA 確保了相鄰塊之間的細(xì)粒度幾何一致性

接下來(lái)的重點(diǎn)是LoGeR 前饋對(duì)齊。盡管引入了 TTT 和 SWA,但在處理非常長(zhǎng)的流時(shí),仍可能積累預(yù)測(cè)誤差。

為了解決這一問(wèn)題,研究者提出了 LoGeR,它是一個(gè)變種模型,在原始預(yù)測(cè)中加入了純前饋對(duì)齊步驟,以確保預(yù)測(cè)結(jié)果與一致的全局坐標(biāo)系統(tǒng)對(duì)齊。

最后還要面臨「數(shù)據(jù)壁壘」和「課程學(xué)習(xí)」的挑戰(zhàn)。

研究者認(rèn)為,僅靠架構(gòu)上的改進(jìn)不足以實(shí)現(xiàn)無(wú)限上下文的重建。如圖 3 所示,像 VGGT 這樣的強(qiáng)基線(xiàn)方法,即使配備了推理時(shí)的架構(gòu)效率提升(如 FastVGGT),在僅使用短時(shí)上下文或小規(guī)模場(chǎng)景數(shù)據(jù)進(jìn)行訓(xùn)練時(shí),依然無(wú)法很好地泛化到大規(guī)模場(chǎng)景。為了克服這個(gè)「數(shù)據(jù)壁壘」,研究者構(gòu)建了一個(gè)訓(xùn)練數(shù)據(jù)集,重點(diǎn)增加大規(guī)模場(chǎng)景數(shù)據(jù)集的比例,例如 TartanAirV2,它為學(xué)習(xí)有效的幾何壓縮提供了必要的長(zhǎng)時(shí)信號(hào)。



為了穩(wěn)定優(yōu)化遞歸 TTT 層的訓(xùn)練,研究者采用了漸進(jìn)式課程策略。通過(guò)從簡(jiǎn)單序列開(kāi)始,并逐漸增加復(fù)雜度,迫使模型從局部的滑動(dòng)窗口注意力(SWA)轉(zhuǎn)向全局的 TTT 隱藏狀態(tài)。訓(xùn)練進(jìn)度分為三個(gè)階段: (1) 首先從 48 幀的序列開(kāi)始,分成 4 個(gè)塊;(2) 然后逐步增加塊的密度,達(dá)到 12 個(gè)塊,同時(shí)保持序列長(zhǎng)度不變;(3) 最后,利用 H200 GPU,將上下文長(zhǎng)度擴(kuò)展到 128 幀,并逐步增加到 20 個(gè)塊。

對(duì)于 LoGeR,研究者從第一階段的模型開(kāi)始,集成前饋對(duì)齊步驟,并在接下來(lái)的課程中進(jìn)行微調(diào)。

實(shí)驗(yàn)結(jié)果

首先,從定量結(jié)果來(lái)看,LoGeR 以及本文提出的基線(xiàn)方法 Pi3-Chunk,在 KITTI 基準(zhǔn)測(cè)試上均顯著優(yōu)于現(xiàn)有的前饋式方法(見(jiàn)表 2)。

值得注意的是,LoGeR 的平均性能甚至超過(guò)了當(dāng)前最強(qiáng)的基于優(yōu)化的方法 VGGT-Long,優(yōu)勢(shì)達(dá)到 32.5%。這一優(yōu)勢(shì)在開(kāi)環(huán)場(chǎng)景中尤為明顯(如序列 01、03、04、08 和 10)。在這些場(chǎng)景下,LoGeR 無(wú)需依賴(lài)回環(huán)檢測(cè),就能夠有效抑制長(zhǎng)序列中不斷累積的漂移誤差。



在 VBR 基準(zhǔn)上,LoGeR 同樣表現(xiàn)出穩(wěn)定的性能提升。定量結(jié)果如圖 4 所示,定性結(jié)果如圖 5 所示。與基線(xiàn)方法相比,LoGeR 中的 TTT 模塊能夠天然錨定全局尺度,從而保持全局一致性。

從可視化結(jié)果可以看到,在長(zhǎng)達(dá) 2 萬(wàn)幀的超長(zhǎng)序列中,LoGeR 依然能夠保持穩(wěn)定的全局尺度,而基線(xiàn)方法在如此長(zhǎng)的序列中會(huì)出現(xiàn)明顯的尺度漂移問(wèn)題。





其次是短序列評(píng)測(cè)

在 TTT3R 的實(shí)驗(yàn)設(shè)置基礎(chǔ)上,研究者進(jìn)一步將評(píng)測(cè)擴(kuò)展到較短視頻序列(最長(zhǎng)約 1000 幀)。首先,在 7-Scenes 數(shù)據(jù)集上評(píng)估 3D 點(diǎn)云重建效果,序列長(zhǎng)度在 50 到 500 幀之間。

研究者將 LoGeR 與多種學(xué)習(xí)式的亞二次復(fù)雜度方法進(jìn)行對(duì)比,包括顯式狀態(tài)方法 Point3R、隱式狀態(tài)空間模型 CUT3R、TTT3R、StreamVGGT 以及雙向注意力基線(xiàn)模型 VGGT 與 π^3。在 7-Scenes 數(shù)據(jù)集上的結(jié)果如圖 6 和圖 7 所示:



在 ScanNetV2 和 TUM-Dynamics 數(shù)據(jù)集上的相機(jī)位姿評(píng)估結(jié)果,分別展示在圖 8 和圖 9 中:



整體來(lái)看,無(wú)論是在 3D 重建質(zhì)量還是位姿估計(jì)精度方面,LoGeR 及其提出的基線(xiàn)方法均顯著優(yōu)于現(xiàn)有方法。

更多實(shí)驗(yàn)結(jié)果請(qǐng)參閱原論文。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
受權(quán)發(fā)布|中華人民共和國(guó)國(guó)務(wù)院令  第833號(hào)

受權(quán)發(fā)布|中華人民共和國(guó)國(guó)務(wù)院令  第833號(hào)

新華社
2026-03-26 17:03:04
中共中央批準(zhǔn),開(kāi)除劉慧黨籍

中共中央批準(zhǔn),開(kāi)除劉慧黨籍

新京報(bào)
2026-03-26 17:14:17
蘋(píng)果 Max 新品正式開(kāi)售,3999 元起!

蘋(píng)果 Max 新品正式開(kāi)售,3999 元起!

科技堡壘
2026-03-26 11:36:39
醫(yī)保大變革!4月1日?qǐng)?zhí)行,取消備案、全家共濟(jì)、藥店可報(bào)銷(xiāo)

醫(yī)保大變革!4月1日?qǐng)?zhí)行,取消備案、全家共濟(jì)、藥店可報(bào)銷(xiāo)

復(fù)轉(zhuǎn)這些年
2026-03-26 09:27:58
網(wǎng)友曝張雪峰搶救細(xì)節(jié):倒地30分鐘才被發(fā)現(xiàn),用ECMO全力搶救無(wú)效

網(wǎng)友曝張雪峰搶救細(xì)節(jié):倒地30分鐘才被發(fā)現(xiàn),用ECMO全力搶救無(wú)效

半窗疏影
2026-03-26 20:17:36
中國(guó)無(wú)人裝甲車(chē)最新畫(huà)面曝光,模塊化武器系統(tǒng)可按需切換

中國(guó)無(wú)人裝甲車(chē)最新畫(huà)面曝光,模塊化武器系統(tǒng)可按需切換

IT之家
2026-03-26 22:00:05
伊朗軍方:已擊中或擊落202架各類(lèi)美以軍機(jī)

伊朗軍方:已擊中或擊落202架各類(lèi)美以軍機(jī)

界面新聞
2026-03-26 15:29:15
曾在恒大賺上億!40歲郜林吐槽:在中乙當(dāng)老總1個(gè)月工資不夠油費(fèi)

曾在恒大賺上億!40歲郜林吐槽:在中乙當(dāng)老總1個(gè)月工資不夠油費(fèi)

我愛(ài)英超
2026-03-26 20:47:14
Manus的兩名聯(lián)合創(chuàng)始人被告知不要離開(kāi)中國(guó)

Manus的兩名聯(lián)合創(chuàng)始人被告知不要離開(kāi)中國(guó)

新浪財(cái)經(jīng)
2026-03-26 13:50:59
高速統(tǒng)一限速3月26日正式落地!五檔限速+清理非標(biāo)不會(huì)再亂扣分!

高速統(tǒng)一限速3月26日正式落地!五檔限速+清理非標(biāo)不會(huì)再亂扣分!

沙雕小琳琳
2026-03-26 09:41:30
好消息!電動(dòng)車(chē)、摩托、三輪、四輪車(chē)松綁,不禁不罰路權(quán)全面放開(kāi)

好消息!電動(dòng)車(chē)、摩托、三輪、四輪車(chē)松綁,不禁不罰路權(quán)全面放開(kāi)

復(fù)轉(zhuǎn)這些年
2026-03-26 09:38:31
所有人都在盯中東打仗,中國(guó)卻悄悄干了件大事:歐洲突然賺麻了

所有人都在盯中東打仗,中國(guó)卻悄悄干了件大事:歐洲突然賺麻了

青青子衿
2026-03-26 01:37:03
6900萬(wàn)元!摩洛哥要求塞內(nèi)加爾歸還非洲杯獎(jiǎng)金+獎(jiǎng)牌 后者強(qiáng)硬拒絕

6900萬(wàn)元!摩洛哥要求塞內(nèi)加爾歸還非洲杯獎(jiǎng)金+獎(jiǎng)牌 后者強(qiáng)硬拒絕

風(fēng)過(guò)鄉(xiāng)
2026-03-26 19:13:28
我有一個(gè)朋友在張雪峰公司上班他說(shuō)張雪峰根本不是大家看到的樣子

我有一個(gè)朋友在張雪峰公司上班他說(shuō)張雪峰根本不是大家看到的樣子

樂(lè)悠悠娛樂(lè)
2026-03-26 10:27:07
網(wǎng)易號(hào)平臺(tái)每日辟謠公告(三月二十六日)

網(wǎng)易號(hào)平臺(tái)每日辟謠公告(三月二十六日)

網(wǎng)易號(hào)官方平臺(tái)
2026-03-26 18:04:59
扎哈羅娃警告日本:任何試圖向?yàn)跆峁┲旅淦髦e,都將招致強(qiáng)硬回應(yīng)

扎哈羅娃警告日本:任何試圖向?yàn)跆峁┲旅淦髦e,都將招致強(qiáng)硬回應(yīng)

環(huán)球網(wǎng)資訊
2026-03-26 08:55:12
中方拒收道歉,日本自衛(wèi)官被轉(zhuǎn)移,小泉進(jìn)次郎沉默24小時(shí)后發(fā)聲

中方拒收道歉,日本自衛(wèi)官被轉(zhuǎn)移,小泉進(jìn)次郎沉默24小時(shí)后發(fā)聲

何氽簡(jiǎn)史
2026-03-26 15:40:58
聯(lián)大通過(guò)決議,宣布“最嚴(yán)重反人類(lèi)罪”

聯(lián)大通過(guò)決議,宣布“最嚴(yán)重反人類(lèi)罪”

澎湃新聞
2026-03-26 11:03:06
全線(xiàn)跳水!剛剛,伊朗發(fā)動(dòng)攻擊

全線(xiàn)跳水!剛剛,伊朗發(fā)動(dòng)攻擊

中國(guó)基金報(bào)
2026-03-26 16:15:26
姐姐尋找弟弟33年后續(xù)!直播時(shí)鬧矛盾,李鑫已告別離開(kāi),姐姐讓步

姐姐尋找弟弟33年后續(xù)!直播時(shí)鬧矛盾,李鑫已告別離開(kāi),姐姐讓步

潮鹿逐夢(mèng)
2026-03-26 17:43:25
2026-03-26 22:24:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專(zhuān)業(yè)的人工智能媒體
12608文章數(shù) 142594關(guān)注度
往期回顧 全部

科技要聞

Meta高管狂分百億期權(quán),700名員工卻下崗

頭條要聞

美國(guó)總統(tǒng)特朗普公開(kāi)宣布訪(fǎng)華行程 外交部回應(yīng)

頭條要聞

美國(guó)總統(tǒng)特朗普公開(kāi)宣布訪(fǎng)華行程 外交部回應(yīng)

體育要聞

申京努力了,然而杜蘭特啊

娛樂(lè)要聞

劉曉慶妹妹發(fā)聲!稱(chēng)姐姐受身邊人挑撥

財(cái)經(jīng)要聞

油價(jià)"馴服"特朗普?一到100美元就TACO

汽車(chē)要聞

一汽奧迪A6L e-tron開(kāi)啟預(yù)售 CLTC最大續(xù)航815km

態(tài)度原創(chuàng)

健康
手機(jī)
家居
公開(kāi)課
軍事航空

轉(zhuǎn)頭就暈的耳石癥,能開(kāi)車(chē)上班嗎?

手機(jī)要聞

15年經(jīng)典落幕!MIUI正式停更,澎湃OS全面接棒

家居要聞

傍海而居 靜觀蝴蝶海

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

軍事要聞

擔(dān)心特朗普突然停戰(zhàn) 以總理下令48小時(shí)盡力摧毀伊設(shè)施

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版