螞蟻集團研發(fā)的AI"攝影師"，如何讓機器像人類一樣邊走邊建地圖

2026-04-26 19:16:33　來源: 科技行者

天津舉報

分享至

這項由螞蟻集團旗下研究團隊主導(dǎo)完成的研究，于2026年4月15日以預(yù)印本形式發(fā)布在arXiv平臺，論文編號為arXiv:2604.14141v1，研究方向歸屬于計算機視覺領(lǐng)域。有興趣深入了解的讀者可以通過該編號在arXiv網(wǎng)站上查閱完整原文。

一、為什么機器"看世界"這么難？

閉上眼睛，回憶一下你昨天走過的那條街道。你大概不會記得每一塊磚的顏色，但你對整條街的布局、哪里有個拐角、哪里有家咖啡館，卻有著清晰的空間印象。人類的大腦天生就會做一件神奇的事：一邊走路一邊建立精簡而準確的心理地圖，只記住關(guān)鍵信息，扔掉無關(guān)細節(jié)。

現(xiàn)在把這個問題交給機器。給它一臺攝像機，讓它邊走邊拍，要求它實時告訴你：攝像機現(xiàn)在在哪里、朝哪個方向、周圍的三維空間長什么樣。這就是所謂的"流式三維重建"，也是無人駕駛、增強現(xiàn)實、機器人導(dǎo)航等領(lǐng)域的核心挑戰(zhàn)之一。

聽起來沒什么難的？實則麻煩重重。攝像機拍的是二維圖像，要從中推算出三維空間，本身就已經(jīng)是一道難題。更要命的是，視頻是一幀一幀實時傳來的，機器不能等全部拍完再處理，必須邊看邊算。時間一長，每一幀微小的誤差會像滾雪球一樣越積越大，最終導(dǎo)致整張地圖"漂移"得面目全非——行話叫做"軌跡漂移"。與此同時，如果把每一幀的所有信息都存下來，內(nèi)存很快就會被撐爆。

正是為了解決這個兩難困境，螞蟻集團的研究團隊提出了一個名叫LingBot-Map的新系統(tǒng)，并將支撐它的核心技術(shù)命名為"幾何上下文注意力機制"，英文縮寫為GCA。

二、向人類的空間記憶取經(jīng)

研究團隊在設(shè)計這套系統(tǒng)時，把目光投向了一個很有意思的參照系——經(jīng)典的SLAM系統(tǒng)。SLAM是"同時定位與建圖"的英文縮寫，這是機器人和無人機領(lǐng)域已經(jīng)研究了幾十年的技術(shù)，核心思想是：讓機器一邊在未知環(huán)境中移動，一邊建立這個環(huán)境的地圖，同時搞清楚自己在地圖上的位置。

經(jīng)典SLAM系統(tǒng)在工程實踐中摸索出一套行之有效的"記憶管理哲學(xué)"：把所有需要記住的信息分成三類，分別對應(yīng)不同的作用。第一類是"參考幀"，負責(zé)確立坐標系統(tǒng)和整體比例尺，就像你走進一個陌生城市時先找到的那塊"你在此處"地圖牌，給你一個穩(wěn)定的起點。第二類是"近期幀窗口"，保存最近一段時間看到的畫面，提供密集的局部細節(jié)，好讓你知道剛才拐了幾個彎、走了多遠。第三類是"全局地圖"，對整段歷史旅程做一個壓縮摘要，用來糾正長時間積累的偏差——比如你繞了一大圈回到出發(fā)點，突然意識到自己走偏了，就得靠全局地圖來校正。

LingBot-Map把這套哲學(xué)照單全收，但用深度學(xué)習(xí)的方式徹底重新實現(xiàn)了它。與傳統(tǒng)SLAM需要人工設(shè)計每一條規(guī)則不同，LingBot-Map通過在大量數(shù)據(jù)上訓(xùn)練，讓系統(tǒng)自動學(xué)會如何管理、壓縮和使用這三類信息，整個過程端對端可導(dǎo)、完全自動。

三、三層記憶的精巧設(shè)計

GCA機制的核心，就是把上述三類信息轉(zhuǎn)化為三種不同的"注意力上下文"，共同服務(wù)于當(dāng)前幀的處理。

第一層叫做"錨定上下文"。視頻開始時，系統(tǒng)會把最初幾幀圖像當(dāng)作錨點，用這幾幀建立整個坐標系和距離比例尺。這是因為單目攝像頭（就是普通的一個鏡頭，沒有激光雷達，也沒有立體視覺輔助）天生有個毛?。簾o法判斷絕對距離，你往前走了一步還是十步，單靠圖像是分不清的。錨定上下文通過給系統(tǒng)一個固定的"出發(fā)點"，解決了這個比例尺模糊的問題。在訓(xùn)練時，研究團隊也相應(yīng)地把所有的真值標注統(tǒng)一歸一化到以錨幀為基準的坐標系下，讓模型從一開始就學(xué)會以錨幀為參考。

第二層叫做"局部位姿參考窗口"。在處理當(dāng)前幀時，系統(tǒng)會保留最近k幀的完整圖像特征，讓當(dāng)前幀可以與鄰近幀進行密集的視覺比對。這種比對提供了非常豐富的局部幾何線索：相機相對于剛才的位置轉(zhuǎn)了多大角度、移動了多少距離。就好比你認路時，不光要記得從哪出發(fā)，還要知道剛剛走過的幾個路口長什么樣，否則很容易迷失在當(dāng)下。這個窗口的大小k在訓(xùn)練時會隨機從16到64之間采樣，確保模型在推理時對不同大小的窗口都能適應(yīng)。

第三層叫做"軌跡記憶"。對于那些已經(jīng)離開局部窗口、又不是最初錨幀的"歷史幀"，系統(tǒng)不會完全丟掉它們，而是把每一幀壓縮成極其精簡的6個"摘要令牌"，扔掉那些占內(nèi)存大戶的圖像像素特征，只保留攝像機位置和方向的核心信息。這就像你回憶一次長途旅行，不會記得每一棵路邊的樹，但大概記得幾點在哪個城市、拐過幾次大彎。同時，研究團隊還為這些歷史摘要令牌加上了"時間標記"——參考WAN視頻生成模型中使用的視頻時序位置編碼技術(shù)——讓系統(tǒng)能感知到每幀在時間軸上的先后順序，從而在修正軌跡漂移時更有方向感。

四、 "注意力"的精妙分配

理解了三層記憶，就能理解GCA在技術(shù)層面最關(guān)鍵的設(shè)計：注意力掩碼（Attention Mask）。在深度學(xué)習(xí)中，"注意力機制"就是模型在處理某一塊信息時，決定要"看"哪些其他信息、以多大權(quán)重來參考。

GCA設(shè)計了一套特殊的注意力規(guī)則：當(dāng)前幀在做判斷時，可以"看"所有的錨定幀（保留完整圖像特征）、可以"看"局部窗口內(nèi)的最近k幀（同樣保留完整特征），以及可以"看"所有歷史幀的精簡摘要令牌。整個機制的妙處在于，隨著視頻越來越長，每處理一幀新畫面，系統(tǒng)的計算量增加的非常少——新進來的歷史幀只貢獻6個精簡令牌，而不是幾百個完整的圖像令牌。

具體來說，完整的圖像令牌數(shù)量通常在每幀500個左右（記為M）。用傳統(tǒng)的因果注意力機制（即"只看過去，不看未來"的滾動記憶），處理第T幀時需要參考的令牌總數(shù)大約是M×T，隨幀數(shù)線性爆炸。而GCA的設(shè)計下，令牌總數(shù)約等于(n+k)×M加上6×T，其中n和k是固定的小常數(shù)，所以實際上每增加一幀，內(nèi)存只增加6個令牌。以n=3個錨幀、k=16幀的窗口、T=10000幀的長視頻為例，傳統(tǒng)方法積累約500萬個令牌，而GCA只需要約7萬個，差了將近80倍。這種極度壓縮的設(shè)計，讓LingBot-Map在標準的518×378分辨率下，針對千幀以上的長序列能達到約每秒20幀的實時推理速度。

五、從零開始的兩階段訓(xùn)練

僅有架構(gòu)設(shè)計還不夠，如何把這套系統(tǒng)訓(xùn)練好，本身也是一道難題。螞蟻集團的團隊為此設(shè)計了一套兩階段訓(xùn)練方案。

第一階段叫做"基礎(chǔ)模型訓(xùn)練"。此時系統(tǒng)還沒有引入GCA機制，而是用標準的全局注意力，在大量短序列的多視角圖像數(shù)據(jù)上預(yù)訓(xùn)練，讓模型先學(xué)會扎實的幾何推理能力——怎么從二維圖像里推算三維空間，怎么估計攝像機的位置和方向。這個階段用了整整29個數(shù)據(jù)集，涵蓋室內(nèi)、室外、合成、真實等各種場景，圖像對的數(shù)量從2張到24張不等，訓(xùn)練消耗約2.15萬GPU小時。ViT骨干網(wǎng)絡(luò)用DINOv2進行初始化，共包含24個交替的幀內(nèi)注意力和跨幀注意力模塊。優(yōu)化器采用AdamW，學(xué)習(xí)率從10??逐漸預(yù)熱到2×10??后再余弦退火。數(shù)據(jù)增強方面，對亮度、對比度、飽和度等做了大量隨機擾動，還專門設(shè)計了"同步色彩抖動"——有30%的概率對同一場景的所有幀做完全相同的色彩變換，逼迫模型更多依賴幾何線索而非色彩線索來完成配準。

第二階段叫做"流式模型訓(xùn)練"。把第一階段的權(quán)重遷移過來，把全局注意力替換為GCA，然后開始在長序列視頻數(shù)據(jù)上微調(diào)。為了防止早期訓(xùn)練時誤差積累過快導(dǎo)致梯度爆炸，團隊采用了"漸進式視圖課程"策略：訓(xùn)練開始時每次只處理24幀的短片段，隨著訓(xùn)練推進逐漸增加到320幀。這就好比教一個孩子打籃球，先練定點投籃，再慢慢加上移動、防守等復(fù)雜動作。與此同時，這個階段還額外引入了相對位姿損失函數(shù)，專門監(jiān)督滑動窗口內(nèi)任意兩幀之間的相對旋轉(zhuǎn)和平移誤差，確保局部一致性。隨著訓(xùn)練幀數(shù)增多，顯存成為瓶頸，團隊采用了Ulysses上下文并行策略，把不同幀分散到多塊GPU上并行計算注意力，通過高效的全轉(zhuǎn)發(fā)（All-to-All）通信聚合結(jié)果，這個階段消耗約1.536萬GPU小時。

六、用了哪些數(shù)據(jù)？

LingBot-Map的訓(xùn)練數(shù)據(jù)來自29個數(shù)據(jù)集，橫跨室內(nèi)場景、室外場景、以物體為中心的場景以及合成場景。這些數(shù)據(jù)在兩個訓(xùn)練階段的使用比例有所不同。

第一階段以多樣化的短序列為主，廣泛覆蓋BlendedMVS、HyperSim、MegaDepth、TartanAir、TartanAirV2、ScanNet、ScanNet++、MatrixCity、DL3DV等眾多來源，同時包括從Objaverse和Texverse這樣的三維模型庫中渲染出來的合成數(shù)據(jù)。第二階段則大幅提升了具有長軌跡連續(xù)視頻的數(shù)據(jù)集權(quán)重，包括TartanAir系列、MatrixCity、Waymo、KITTI-360、ScanNet系列以及螞蟻內(nèi)部的游戲引擎數(shù)據(jù)集，而將那些缺乏時序結(jié)構(gòu)的純多視角數(shù)據(jù)集降權(quán)或移除。

為了產(chǎn)生連續(xù)且自然的訓(xùn)練視頻片段，團隊還專門設(shè)計了一種名為"折返視頻采樣器"的策略：從隨機幀出發(fā)，以隨機步長向前采幀，到達序列邊界后折返并換一個不同步長繼續(xù)采，避免無效來回震蕩，產(chǎn)生幀率自然變化的訓(xùn)練片段。

除了公開數(shù)據(jù)集，團隊還圍繞數(shù)據(jù)處理做了大量工程工作：統(tǒng)一各數(shù)據(jù)集的坐標系、深度單位和文件格式，過濾損壞幀，處理天空區(qū)域（置零深度），最終將所有數(shù)據(jù)整合進統(tǒng)一的元數(shù)據(jù)格式。對于缺乏時間連續(xù)性的MatrixCity航拍數(shù)據(jù)，團隊將網(wǎng)格布局建模為圖結(jié)構(gòu)，通過隨機游走生成連續(xù)軌跡。針對需要跨房間長距離導(dǎo)航訓(xùn)練數(shù)據(jù)的缺失問題，團隊借助Habitat-Sim仿真環(huán)境，從Gibson、Matterport3D和HM3D三個大規(guī)模室內(nèi)數(shù)據(jù)集中渲染了約2800段跨房間連續(xù)RGBD視頻，每段包含1千到5千幀，總計14.4TB，讓模型學(xué)會應(yīng)對攝像機穿越走廊、進出房間時的劇烈場景變化。

七、推理時的兩種模式

LingBot-Map在實際使用時支持兩種工作模式，分別適用于不同長度的視頻。

第一種叫"直接輸出模式"，是默認的推理設(shè)置。攝像機每拍一幀，系統(tǒng)就通過GCA的三層上下文實時估算出當(dāng)前攝像機的六自由度位姿和深度圖，不做任何外部優(yōu)化或全局調(diào)整，誤差完全來自模型自身的逐幀推理。這種模式在序列長度不超過約3000幀時表現(xiàn)最佳，性能非常穩(wěn)定。

第二種叫"視覺里程計模式"，英文縮寫VO，專為超長序列（比如上萬幀的城市級別駕駛視頻）而設(shè)計。此時系統(tǒng)將超長視頻切分為有重疊的局部窗口，每個窗口內(nèi)獨立運行GCA完成局部重建，相鄰窗口之間通過計算一種叫做Sim(3)的相似變換（包含旋轉(zhuǎn)、平移和縮放）來拼接成全局軌跡。這種模式犧牲了一點精度（每次拼接都會引入一點額外誤差），但允許在固定內(nèi)存下處理理論上任意長的視頻序列。

兩種模式都共用了一套"關(guān)鍵幀選擇"機制：系統(tǒng)根據(jù)預(yù)測的深度圖和攝像機位姿估算出當(dāng)前幀相對于上一個關(guān)鍵幀的光流大小，如果光流超過閾值就保留當(dāng)前幀為新關(guān)鍵幀，否則丟棄，這樣在攝像機靜止或者緩慢移動時不會無謂地堆積重復(fù)信息。

為了進一步加速推理，團隊還引入了分頁KV緩存技術(shù)，借鑒了大語言模型推理服務(wù)領(lǐng)域的工程經(jīng)驗。傳統(tǒng)的連續(xù)內(nèi)存布局在頻繁插入和刪除緩存條目時會引起大量內(nèi)存重排，而分頁布局把不同幀的KV緩存存在獨立的頁中，更新時只需操作新頁，整體推理速度從約每秒10.5幀提升到約每秒20幀，接近翻倍。

八、在哪些地方測試？結(jié)果如何？

研究團隊在五個公開基準數(shù)據(jù)集上全面評測了LingBot-Map，這五個數(shù)據(jù)集在規(guī)模、場景類型、挑戰(zhàn)難度上各有側(cè)重，形成互補。

牛津尖塔數(shù)據(jù)集（Oxford Spires）是最具挑戰(zhàn)性的一個，拍攝地點遍及牛津大學(xué)的歷史性建筑群，場景既有開闊的室外庭院，也有昏暗的室內(nèi)走廊，攝像機軌跡中包含多次"重訪"——也就是繞一大圈后回到之前見過的地方。這對系統(tǒng)的長程一致性是極大的考驗。研究團隊設(shè)計了兩套評測配置：一套稀疏設(shè)置，從整段軌跡中每隔12幀采一幀，共320幀，測試系統(tǒng)在訓(xùn)練范圍內(nèi)的表現(xiàn)；一套密集設(shè)置，直接處理完整的3840幀，用于壓力測試超長序列能力。

在稀疏設(shè)置下，LingBot-Map的AUC@15指標（一種衡量相對位姿估計精度的綜合分數(shù)，數(shù)值越高越好）達到61.64，而同類最好的純流式方法CUT3R僅有5.98，差了足足10倍。絕對軌跡誤差（ATE，數(shù)值越低越好，直接反映軌跡漂移程度）方面，LingBot-Map達到6.42米，而競爭對手中最好的TTT3R是19.35米，Wint3R是21.10米。更令人驚訝的是，LingBot-Map甚至超越了那些可以看到所有幀、做全局優(yōu)化的"離線方法"：最好的離線方法DA3的AUC@15只有49.84，ATE是12.87米；專門做迭代優(yōu)化的VIPE方法AUC@15只有45.35，ATE是10.52米。一個實時流式系統(tǒng)，在位姿精度上擊敗了"上帝視角"的離線方法，這在該領(lǐng)域相當(dāng)罕見。

在密集設(shè)置下，這一差距更加凸顯。當(dāng)序列長度從320幀擴展到3840幀（增加了12倍），CUT3R的ATE從18.16米跳升到32.47米，Wint3R從21.10米跳升到32.90米，而LingBot-Map幾乎紋絲不動，只從6.42米微升到7.11米，增幅不到0.7米。這種在超長序列下幾乎恒定的精度，正是軌跡記憶機制發(fā)揮作用的有力證明。

在ETH3D數(shù)據(jù)集（包含室內(nèi)外多種場景，配有激光掃描儀提供的高精度三維真值）上，LingBot-Map的ATE為0.22米，次優(yōu)方法Wint3R是0.86米，差了近4倍。在7-Scenes數(shù)據(jù)集（室內(nèi)RGB-D序列，有大量無紋理表面和運動模糊，對位姿估計極為不友好）上，LingBot-Map的ATE達到0.08米，同樣位居第一。在坦克與神廟數(shù)據(jù)集（Tanks and Temples，戶外大型結(jié)構(gòu)的多視角重建）上，AUC@30指標達到92.80，次優(yōu)的Stream3R是81.33。

三維重建質(zhì)量方面，團隊在ETH3D、7-Scenes和NRGBD三個數(shù)據(jù)集上評測了點云的精度、完整度和F1綜合分數(shù)。ETH3D上，LingBot-Map的F1分數(shù)達到98.98，次優(yōu)方法Wint3R是77.28，提升了約22個百分點。NRGBD上，F(xiàn)1達到64.26，次優(yōu)的Wint3R是56.96，提升約7個百分點。這些提升不僅僅是數(shù)字上的，從可視化對比圖中可以清晰看到：其他方法由于軌跡漂移，常常把同一個建筑的邊緣渲染成兩條甚至更多條"影子"，而LingBot-Map產(chǎn)出的點云干凈利落，建筑輪廓清晰，墻面連續(xù)無斷裂。

九、各個組件分別貢獻了多少？

為了驗證每個設(shè)計決策是否真正有效，研究團隊在TartanAir和TartanGround數(shù)據(jù)集上做了一組系統(tǒng)性消融實驗——也就是逐一"關(guān)掉"某個組件，看看指標如何變化。

從只保留相對位姿損失函數(shù)的基礎(chǔ)版本出發(fā)，逐步疊加各個模塊。加入錨定初始化后，AUC@3從9.80提升到13.63，ATE從8.59降到7.88，證明建立穩(wěn)定的坐標原點和比例尺對整體精度有顯著幫助。在此基礎(chǔ)上再加入軌跡記憶令牌，AUC@3進一步提升到15.75，ATE降到7.46，說明即使每幀只保留6個精簡令牌，也能有效抑制長程漂移。最后加入視頻時序位置編碼（Video RoPE），AUC@3再升到16.39，而ATE從7.46驟降到5.98，單這一步的ATE改善量是1.48米，遠超僅加軌跡令牌時的0.42米。這說明軌跡記憶令牌攜帶的幾何信息是有價值的，但如果令牌缺乏時間順序感，這些信息就無法被充分利用——時序位置編碼就是讓系統(tǒng)"知道"哪幀更早、哪幀更晚的那把鑰匙，兩者結(jié)合才發(fā)揮出最大效果。

另一組對比實驗則比較了"固定大小的局部窗口"和"完整因果注意力"（即保留所有歷史幀的完整令牌）。固定窗口不僅速度提升了1.7倍（每秒20.29幀對比11.87幀），內(nèi)存下降了2.7倍（13.28GB對比36.06GB），而且軌跡精度也更好：ATE從6.60降到5.98，RPE-trans從1.50降到1.33。這個"反直覺"的結(jié)果其實有合理解釋：保留全部歷史幀的圖像令牌，會把大量與當(dāng)前幀關(guān)系疏遠的"噪音信息"也送進注意力計算，反而干擾了模型的判斷；GCA的做法是有針對性地保留重要信息、丟棄冗余細節(jié)，讓注意力更聚焦。

說到底，LingBot-Map干的事情其實很像一位經(jīng)驗老到的探險向?qū)А粫蜒芈房吹降拿繅K石頭都記下來，但他清楚地記得出發(fā)時的那個路口（錨定上下文），也隨時掌握過去幾公里走過的地形細節(jié)（局部窗口），還對整段旅途畫了一張簡化到只有路點和轉(zhuǎn)彎標記的草圖（軌跡記憶）。憑借這三樣?xùn)|西，他不需要翻閱每一張拍下的照片，就能在復(fù)雜的山地里保持方向感，而且走得比帶著全套裝備的隊員還要快。

LingBot-Map帶來的實際意義，遠不止于學(xué)術(shù)榜單上的一串?dāng)?shù)字。自動駕駛汽車在陌生城市行駛時需要實時建立精確的本地地圖，增強現(xiàn)實眼鏡在用戶走進咖啡館時需要瞬間對齊虛實坐標系，機器人在復(fù)雜倉庫里需要邊走邊記錄貨架位置。這些應(yīng)用都有一個共同需求：實時、準確、長程穩(wěn)定的三維重建。LingBot-Map在實時性（約20幀/秒）、準確性（在多個公開榜單上領(lǐng)先）和長程穩(wěn)定性（萬幀序列下幾乎恒定的精度）上同時做到了優(yōu)化，而且不依賴激光雷達或深度傳感器，只用普通攝像機就能工作，這大大降低了部署門檻。

當(dāng)然，這套系統(tǒng)也不是沒有局限。它目前還不能自動識別"我回到老地方了"這件事——也就是沒有主動的閉環(huán)檢測，當(dāng)軌跡兜了一大圈回到原點時，無法像經(jīng)典SLAM那樣主動觸發(fā)一次全局修正。軌跡記憶的壓縮方式（每幀固定6個令牌）對于極端長序列來說也可能丟失一些細節(jié)。未來的改進方向，研究團隊認為包括將閉環(huán)檢測融入注意力機制本身、擴展到包含移動物體的動態(tài)場景，以及接入激光雷達或IMU等多模態(tài)傳感器。有興趣深入追蹤這一方向的讀者，可以通過arXiv:2604.14141v1查閱完整原文，也可以在GitHub倉庫robbyant/lingbot-map找到相關(guān)代碼和演示資源。

Q&A

Q1：LingBot-Map的"軌跡記憶"是怎么工作的？

A：LingBot-Map對于那些已經(jīng)離開最近滑動窗口的歷史幀，不會完全扔掉，而是把每一幀壓縮成只有6個"摘要令牌"，保留攝像機位置和朝向的核心信息，丟掉占用大量內(nèi)存的圖像像素特征。同時，這些摘要令牌還被加上了視頻時序位置編碼，讓系統(tǒng)知道各幀的先后順序。這樣一來，隨著視頻越來越長，新增的歷史記錄每幀只多6個令牌，而不是幾百個，整體計算量幾乎恒定，又能糾正長程軌跡漂移。

Q2：LingBot-Map為什么在超長序列上比其他方法穩(wěn)定得多？

A：LingBot-Map的穩(wěn)定性主要來自三層上下文的協(xié)同設(shè)計。錨定上下文保證整段軌跡有一個固定的坐標基準，不會因為累積誤差整體飄移；局部位姿參考窗口保證每幀都有足夠的鄰近幾何細節(jié)來精確配準；軌跡記憶則用極簡方式記錄了整段歷史，讓系統(tǒng)有能力感知并修正長時間積累的偏差。三者缺一不可，相互補充，而其他方法通常只重點解決其中一兩個問題，遇到很長的序列時會逐漸崩潰。

Q3：GCA機制和傳統(tǒng)因果注意力相比，內(nèi)存效率提升了多少？

A：以處理一萬幀的視頻為例，傳統(tǒng)因果注意力（保留所有歷史幀完整令牌）需要積累約500萬個令牌；而GCA在n=3個錨幀、k=16幀的局部窗口配置下，總共只需要約7萬個令牌，節(jié)省了約70倍。每處理一新幀，傳統(tǒng)方法新增約500個以上令牌，而GCA只新增6個令牌，每幀增量減少了約80倍。這使得LingBot-Map可以在普通GPU上以約每秒20幀的速度處理超長序列，同時峰值顯存占用從約36GB降低到約13GB。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.