国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

螞蟻集團研發(fā)的AI"攝影師",如何讓機器像人類一樣邊走邊建地圖

0
分享至


這項由螞蟻集團旗下研究團隊主導(dǎo)完成的研究,于2026年4月15日以預(yù)印本形式發(fā)布在arXiv平臺,論文編號為arXiv:2604.14141v1,研究方向歸屬于計算機視覺領(lǐng)域。有興趣深入了解的讀者可以通過該編號在arXiv網(wǎng)站上查閱完整原文。

一、 為什么機器"看世界"這么難?

閉上眼睛,回憶一下你昨天走過的那條街道。你大概不會記得每一塊磚的顏色,但你對整條街的布局、哪里有個拐角、哪里有家咖啡館,卻有著清晰的空間印象。人類的大腦天生就會做一件神奇的事:一邊走路一邊建立精簡而準確的心理地圖,只記住關(guān)鍵信息,扔掉無關(guān)細節(jié)。

現(xiàn)在把這個問題交給機器。給它一臺攝像機,讓它邊走邊拍,要求它實時告訴你:攝像機現(xiàn)在在哪里、朝哪個方向、周圍的三維空間長什么樣。這就是所謂的"流式三維重建",也是無人駕駛、增強現(xiàn)實、機器人導(dǎo)航等領(lǐng)域的核心挑戰(zhàn)之一。

聽起來沒什么難的?實則麻煩重重。攝像機拍的是二維圖像,要從中推算出三維空間,本身就已經(jīng)是一道難題。更要命的是,視頻是一幀一幀實時傳來的,機器不能等全部拍完再處理,必須邊看邊算。時間一長,每一幀微小的誤差會像滾雪球一樣越積越大,最終導(dǎo)致整張地圖"漂移"得面目全非——行話叫做"軌跡漂移"。與此同時,如果把每一幀的所有信息都存下來,內(nèi)存很快就會被撐爆。

正是為了解決這個兩難困境,螞蟻集團的研究團隊提出了一個名叫LingBot-Map的新系統(tǒng),并將支撐它的核心技術(shù)命名為"幾何上下文注意力機制",英文縮寫為GCA。

二、 向人類的空間記憶取經(jīng)

研究團隊在設(shè)計這套系統(tǒng)時,把目光投向了一個很有意思的參照系——經(jīng)典的SLAM系統(tǒng)。SLAM是"同時定位與建圖"的英文縮寫,這是機器人和無人機領(lǐng)域已經(jīng)研究了幾十年的技術(shù),核心思想是:讓機器一邊在未知環(huán)境中移動,一邊建立這個環(huán)境的地圖,同時搞清楚自己在地圖上的位置。

經(jīng)典SLAM系統(tǒng)在工程實踐中摸索出一套行之有效的"記憶管理哲學(xué)":把所有需要記住的信息分成三類,分別對應(yīng)不同的作用。第一類是"參考幀",負責(zé)確立坐標系統(tǒng)和整體比例尺,就像你走進一個陌生城市時先找到的那塊"你在此處"地圖牌,給你一個穩(wěn)定的起點。第二類是"近期幀窗口",保存最近一段時間看到的畫面,提供密集的局部細節(jié),好讓你知道剛才拐了幾個彎、走了多遠。第三類是"全局地圖",對整段歷史旅程做一個壓縮摘要,用來糾正長時間積累的偏差——比如你繞了一大圈回到出發(fā)點,突然意識到自己走偏了,就得靠全局地圖來校正。

LingBot-Map把這套哲學(xué)照單全收,但用深度學(xué)習(xí)的方式徹底重新實現(xiàn)了它。與傳統(tǒng)SLAM需要人工設(shè)計每一條規(guī)則不同,LingBot-Map通過在大量數(shù)據(jù)上訓(xùn)練,讓系統(tǒng)自動學(xué)會如何管理、壓縮和使用這三類信息,整個過程端對端可導(dǎo)、完全自動。

三、 三層記憶的精巧設(shè)計

GCA機制的核心,就是把上述三類信息轉(zhuǎn)化為三種不同的"注意力上下文",共同服務(wù)于當(dāng)前幀的處理。

第一層叫做"錨定上下文"。視頻開始時,系統(tǒng)會把最初幾幀圖像當(dāng)作錨點,用這幾幀建立整個坐標系和距離比例尺。這是因為單目攝像頭(就是普通的一個鏡頭,沒有激光雷達,也沒有立體視覺輔助)天生有個毛?。簾o法判斷絕對距離,你往前走了一步還是十步,單靠圖像是分不清的。錨定上下文通過給系統(tǒng)一個固定的"出發(fā)點",解決了這個比例尺模糊的問題。在訓(xùn)練時,研究團隊也相應(yīng)地把所有的真值標注統(tǒng)一歸一化到以錨幀為基準的坐標系下,讓模型從一開始就學(xué)會以錨幀為參考。

第二層叫做"局部位姿參考窗口"。在處理當(dāng)前幀時,系統(tǒng)會保留最近k幀的完整圖像特征,讓當(dāng)前幀可以與鄰近幀進行密集的視覺比對。這種比對提供了非常豐富的局部幾何線索:相機相對于剛才的位置轉(zhuǎn)了多大角度、移動了多少距離。就好比你認路時,不光要記得從哪出發(fā),還要知道剛剛走過的幾個路口長什么樣,否則很容易迷失在當(dāng)下。這個窗口的大小k在訓(xùn)練時會隨機從16到64之間采樣,確保模型在推理時對不同大小的窗口都能適應(yīng)。

第三層叫做"軌跡記憶"。對于那些已經(jīng)離開局部窗口、又不是最初錨幀的"歷史幀",系統(tǒng)不會完全丟掉它們,而是把每一幀壓縮成極其精簡的6個"摘要令牌",扔掉那些占內(nèi)存大戶的圖像像素特征,只保留攝像機位置和方向的核心信息。這就像你回憶一次長途旅行,不會記得每一棵路邊的樹,但大概記得幾點在哪個城市、拐過幾次大彎。同時,研究團隊還為這些歷史摘要令牌加上了"時間標記"——參考WAN視頻生成模型中使用的視頻時序位置編碼技術(shù)——讓系統(tǒng)能感知到每幀在時間軸上的先后順序,從而在修正軌跡漂移時更有方向感。

四、 "注意力"的精妙分配

理解了三層記憶,就能理解GCA在技術(shù)層面最關(guān)鍵的設(shè)計:注意力掩碼(Attention Mask)。在深度學(xué)習(xí)中,"注意力機制"就是模型在處理某一塊信息時,決定要"看"哪些其他信息、以多大權(quán)重來參考。

GCA設(shè)計了一套特殊的注意力規(guī)則:當(dāng)前幀在做判斷時,可以"看"所有的錨定幀(保留完整圖像特征)、可以"看"局部窗口內(nèi)的最近k幀(同樣保留完整特征),以及可以"看"所有歷史幀的精簡摘要令牌。整個機制的妙處在于,隨著視頻越來越長,每處理一幀新畫面,系統(tǒng)的計算量增加的非常少——新進來的歷史幀只貢獻6個精簡令牌,而不是幾百個完整的圖像令牌。

具體來說,完整的圖像令牌數(shù)量通常在每幀500個左右(記為M)。用傳統(tǒng)的因果注意力機制(即"只看過去,不看未來"的滾動記憶),處理第T幀時需要參考的令牌總數(shù)大約是M×T,隨幀數(shù)線性爆炸。而GCA的設(shè)計下,令牌總數(shù)約等于(n+k)×M加上6×T,其中n和k是固定的小常數(shù),所以實際上每增加一幀,內(nèi)存只增加6個令牌。以n=3個錨幀、k=16幀的窗口、T=10000幀的長視頻為例,傳統(tǒng)方法積累約500萬個令牌,而GCA只需要約7萬個,差了將近80倍。這種極度壓縮的設(shè)計,讓LingBot-Map在標準的518×378分辨率下,針對千幀以上的長序列能達到約每秒20幀的實時推理速度。

五、 從零開始的兩階段訓(xùn)練

僅有架構(gòu)設(shè)計還不夠,如何把這套系統(tǒng)訓(xùn)練好,本身也是一道難題。螞蟻集團的團隊為此設(shè)計了一套兩階段訓(xùn)練方案。

第一階段叫做"基礎(chǔ)模型訓(xùn)練"。此時系統(tǒng)還沒有引入GCA機制,而是用標準的全局注意力,在大量短序列的多視角圖像數(shù)據(jù)上預(yù)訓(xùn)練,讓模型先學(xué)會扎實的幾何推理能力——怎么從二維圖像里推算三維空間,怎么估計攝像機的位置和方向。這個階段用了整整29個數(shù)據(jù)集,涵蓋室內(nèi)、室外、合成、真實等各種場景,圖像對的數(shù)量從2張到24張不等,訓(xùn)練消耗約2.15萬GPU小時。ViT骨干網(wǎng)絡(luò)用DINOv2進行初始化,共包含24個交替的幀內(nèi)注意力和跨幀注意力模塊。優(yōu)化器采用AdamW,學(xué)習(xí)率從10??逐漸預(yù)熱到2×10??后再余弦退火。數(shù)據(jù)增強方面,對亮度、對比度、飽和度等做了大量隨機擾動,還專門設(shè)計了"同步色彩抖動"——有30%的概率對同一場景的所有幀做完全相同的色彩變換,逼迫模型更多依賴幾何線索而非色彩線索來完成配準。

第二階段叫做"流式模型訓(xùn)練"。把第一階段的權(quán)重遷移過來,把全局注意力替換為GCA,然后開始在長序列視頻數(shù)據(jù)上微調(diào)。為了防止早期訓(xùn)練時誤差積累過快導(dǎo)致梯度爆炸,團隊采用了"漸進式視圖課程"策略:訓(xùn)練開始時每次只處理24幀的短片段,隨著訓(xùn)練推進逐漸增加到320幀。這就好比教一個孩子打籃球,先練定點投籃,再慢慢加上移動、防守等復(fù)雜動作。與此同時,這個階段還額外引入了相對位姿損失函數(shù),專門監(jiān)督滑動窗口內(nèi)任意兩幀之間的相對旋轉(zhuǎn)和平移誤差,確保局部一致性。隨著訓(xùn)練幀數(shù)增多,顯存成為瓶頸,團隊采用了Ulysses上下文并行策略,把不同幀分散到多塊GPU上并行計算注意力,通過高效的全轉(zhuǎn)發(fā)(All-to-All)通信聚合結(jié)果,這個階段消耗約1.536萬GPU小時。

六、 用了哪些數(shù)據(jù)?

LingBot-Map的訓(xùn)練數(shù)據(jù)來自29個數(shù)據(jù)集,橫跨室內(nèi)場景、室外場景、以物體為中心的場景以及合成場景。這些數(shù)據(jù)在兩個訓(xùn)練階段的使用比例有所不同。

第一階段以多樣化的短序列為主,廣泛覆蓋BlendedMVS、HyperSim、MegaDepth、TartanAir、TartanAirV2、ScanNet、ScanNet++、MatrixCity、DL3DV等眾多來源,同時包括從Objaverse和Texverse這樣的三維模型庫中渲染出來的合成數(shù)據(jù)。第二階段則大幅提升了具有長軌跡連續(xù)視頻的數(shù)據(jù)集權(quán)重,包括TartanAir系列、MatrixCity、Waymo、KITTI-360、ScanNet系列以及螞蟻內(nèi)部的游戲引擎數(shù)據(jù)集,而將那些缺乏時序結(jié)構(gòu)的純多視角數(shù)據(jù)集降權(quán)或移除。

為了產(chǎn)生連續(xù)且自然的訓(xùn)練視頻片段,團隊還專門設(shè)計了一種名為"折返視頻采樣器"的策略:從隨機幀出發(fā),以隨機步長向前采幀,到達序列邊界后折返并換一個不同步長繼續(xù)采,避免無效來回震蕩,產(chǎn)生幀率自然變化的訓(xùn)練片段。

除了公開數(shù)據(jù)集,團隊還圍繞數(shù)據(jù)處理做了大量工程工作:統(tǒng)一各數(shù)據(jù)集的坐標系、深度單位和文件格式,過濾損壞幀,處理天空區(qū)域(置零深度),最終將所有數(shù)據(jù)整合進統(tǒng)一的元數(shù)據(jù)格式。對于缺乏時間連續(xù)性的MatrixCity航拍數(shù)據(jù),團隊將網(wǎng)格布局建模為圖結(jié)構(gòu),通過隨機游走生成連續(xù)軌跡。針對需要跨房間長距離導(dǎo)航訓(xùn)練數(shù)據(jù)的缺失問題,團隊借助Habitat-Sim仿真環(huán)境,從Gibson、Matterport3D和HM3D三個大規(guī)模室內(nèi)數(shù)據(jù)集中渲染了約2800段跨房間連續(xù)RGBD視頻,每段包含1千到5千幀,總計14.4TB,讓模型學(xué)會應(yīng)對攝像機穿越走廊、進出房間時的劇烈場景變化。

七、 推理時的兩種模式

LingBot-Map在實際使用時支持兩種工作模式,分別適用于不同長度的視頻。

第一種叫"直接輸出模式",是默認的推理設(shè)置。攝像機每拍一幀,系統(tǒng)就通過GCA的三層上下文實時估算出當(dāng)前攝像機的六自由度位姿和深度圖,不做任何外部優(yōu)化或全局調(diào)整,誤差完全來自模型自身的逐幀推理。這種模式在序列長度不超過約3000幀時表現(xiàn)最佳,性能非常穩(wěn)定。

第二種叫"視覺里程計模式",英文縮寫VO,專為超長序列(比如上萬幀的城市級別駕駛視頻)而設(shè)計。此時系統(tǒng)將超長視頻切分為有重疊的局部窗口,每個窗口內(nèi)獨立運行GCA完成局部重建,相鄰窗口之間通過計算一種叫做Sim(3)的相似變換(包含旋轉(zhuǎn)、平移和縮放)來拼接成全局軌跡。這種模式犧牲了一點精度(每次拼接都會引入一點額外誤差),但允許在固定內(nèi)存下處理理論上任意長的視頻序列。

兩種模式都共用了一套"關(guān)鍵幀選擇"機制:系統(tǒng)根據(jù)預(yù)測的深度圖和攝像機位姿估算出當(dāng)前幀相對于上一個關(guān)鍵幀的光流大小,如果光流超過閾值就保留當(dāng)前幀為新關(guān)鍵幀,否則丟棄,這樣在攝像機靜止或者緩慢移動時不會無謂地堆積重復(fù)信息。

為了進一步加速推理,團隊還引入了分頁KV緩存技術(shù),借鑒了大語言模型推理服務(wù)領(lǐng)域的工程經(jīng)驗。傳統(tǒng)的連續(xù)內(nèi)存布局在頻繁插入和刪除緩存條目時會引起大量內(nèi)存重排,而分頁布局把不同幀的KV緩存存在獨立的頁中,更新時只需操作新頁,整體推理速度從約每秒10.5幀提升到約每秒20幀,接近翻倍。

八、 在哪些地方測試?結(jié)果如何?

研究團隊在五個公開基準數(shù)據(jù)集上全面評測了LingBot-Map,這五個數(shù)據(jù)集在規(guī)模、場景類型、挑戰(zhàn)難度上各有側(cè)重,形成互補。

牛津尖塔數(shù)據(jù)集(Oxford Spires)是最具挑戰(zhàn)性的一個,拍攝地點遍及牛津大學(xué)的歷史性建筑群,場景既有開闊的室外庭院,也有昏暗的室內(nèi)走廊,攝像機軌跡中包含多次"重訪"——也就是繞一大圈后回到之前見過的地方。這對系統(tǒng)的長程一致性是極大的考驗。研究團隊設(shè)計了兩套評測配置:一套稀疏設(shè)置,從整段軌跡中每隔12幀采一幀,共320幀,測試系統(tǒng)在訓(xùn)練范圍內(nèi)的表現(xiàn);一套密集設(shè)置,直接處理完整的3840幀,用于壓力測試超長序列能力。

在稀疏設(shè)置下,LingBot-Map的AUC@15指標(一種衡量相對位姿估計精度的綜合分數(shù),數(shù)值越高越好)達到61.64,而同類最好的純流式方法CUT3R僅有5.98,差了足足10倍。絕對軌跡誤差(ATE,數(shù)值越低越好,直接反映軌跡漂移程度)方面,LingBot-Map達到6.42米,而競爭對手中最好的TTT3R是19.35米,Wint3R是21.10米。更令人驚訝的是,LingBot-Map甚至超越了那些可以看到所有幀、做全局優(yōu)化的"離線方法":最好的離線方法DA3的AUC@15只有49.84,ATE是12.87米;專門做迭代優(yōu)化的VIPE方法AUC@15只有45.35,ATE是10.52米。一個實時流式系統(tǒng),在位姿精度上擊敗了"上帝視角"的離線方法,這在該領(lǐng)域相當(dāng)罕見。

在密集設(shè)置下,這一差距更加凸顯。當(dāng)序列長度從320幀擴展到3840幀(增加了12倍),CUT3R的ATE從18.16米跳升到32.47米,Wint3R從21.10米跳升到32.90米,而LingBot-Map幾乎紋絲不動,只從6.42米微升到7.11米,增幅不到0.7米。這種在超長序列下幾乎恒定的精度,正是軌跡記憶機制發(fā)揮作用的有力證明。

在ETH3D數(shù)據(jù)集(包含室內(nèi)外多種場景,配有激光掃描儀提供的高精度三維真值)上,LingBot-Map的ATE為0.22米,次優(yōu)方法Wint3R是0.86米,差了近4倍。在7-Scenes數(shù)據(jù)集(室內(nèi)RGB-D序列,有大量無紋理表面和運動模糊,對位姿估計極為不友好)上,LingBot-Map的ATE達到0.08米,同樣位居第一。在坦克與神廟數(shù)據(jù)集(Tanks and Temples,戶外大型結(jié)構(gòu)的多視角重建)上,AUC@30指標達到92.80,次優(yōu)的Stream3R是81.33。

三維重建質(zhì)量方面,團隊在ETH3D、7-Scenes和NRGBD三個數(shù)據(jù)集上評測了點云的精度、完整度和F1綜合分數(shù)。ETH3D上,LingBot-Map的F1分數(shù)達到98.98,次優(yōu)方法Wint3R是77.28,提升了約22個百分點。NRGBD上,F(xiàn)1達到64.26,次優(yōu)的Wint3R是56.96,提升約7個百分點。這些提升不僅僅是數(shù)字上的,從可視化對比圖中可以清晰看到:其他方法由于軌跡漂移,常常把同一個建筑的邊緣渲染成兩條甚至更多條"影子",而LingBot-Map產(chǎn)出的點云干凈利落,建筑輪廓清晰,墻面連續(xù)無斷裂。

九、 各個組件分別貢獻了多少?

為了驗證每個設(shè)計決策是否真正有效,研究團隊在TartanAir和TartanGround數(shù)據(jù)集上做了一組系統(tǒng)性消融實驗——也就是逐一"關(guān)掉"某個組件,看看指標如何變化。

從只保留相對位姿損失函數(shù)的基礎(chǔ)版本出發(fā),逐步疊加各個模塊。加入錨定初始化后,AUC@3從9.80提升到13.63,ATE從8.59降到7.88,證明建立穩(wěn)定的坐標原點和比例尺對整體精度有顯著幫助。在此基礎(chǔ)上再加入軌跡記憶令牌,AUC@3進一步提升到15.75,ATE降到7.46,說明即使每幀只保留6個精簡令牌,也能有效抑制長程漂移。最后加入視頻時序位置編碼(Video RoPE),AUC@3再升到16.39,而ATE從7.46驟降到5.98,單這一步的ATE改善量是1.48米,遠超僅加軌跡令牌時的0.42米。這說明軌跡記憶令牌攜帶的幾何信息是有價值的,但如果令牌缺乏時間順序感,這些信息就無法被充分利用——時序位置編碼就是讓系統(tǒng)"知道"哪幀更早、哪幀更晚的那把鑰匙,兩者結(jié)合才發(fā)揮出最大效果。

另一組對比實驗則比較了"固定大小的局部窗口"和"完整因果注意力"(即保留所有歷史幀的完整令牌)。固定窗口不僅速度提升了1.7倍(每秒20.29幀對比11.87幀),內(nèi)存下降了2.7倍(13.28GB對比36.06GB),而且軌跡精度也更好:ATE從6.60降到5.98,RPE-trans從1.50降到1.33。這個"反直覺"的結(jié)果其實有合理解釋:保留全部歷史幀的圖像令牌,會把大量與當(dāng)前幀關(guān)系疏遠的"噪音信息"也送進注意力計算,反而干擾了模型的判斷;GCA的做法是有針對性地保留重要信息、丟棄冗余細節(jié),讓注意力更聚焦。

說到底,LingBot-Map干的事情其實很像一位經(jīng)驗老到的探險向?qū)А粫蜒芈房吹降拿繅K石頭都記下來,但他清楚地記得出發(fā)時的那個路口(錨定上下文),也隨時掌握過去幾公里走過的地形細節(jié)(局部窗口),還對整段旅途畫了一張簡化到只有路點和轉(zhuǎn)彎標記的草圖(軌跡記憶)。憑借這三樣?xùn)|西,他不需要翻閱每一張拍下的照片,就能在復(fù)雜的山地里保持方向感,而且走得比帶著全套裝備的隊員還要快。

LingBot-Map帶來的實際意義,遠不止于學(xué)術(shù)榜單上的一串?dāng)?shù)字。自動駕駛汽車在陌生城市行駛時需要實時建立精確的本地地圖,增強現(xiàn)實眼鏡在用戶走進咖啡館時需要瞬間對齊虛實坐標系,機器人在復(fù)雜倉庫里需要邊走邊記錄貨架位置。這些應(yīng)用都有一個共同需求:實時、準確、長程穩(wěn)定的三維重建。LingBot-Map在實時性(約20幀/秒)、準確性(在多個公開榜單上領(lǐng)先)和長程穩(wěn)定性(萬幀序列下幾乎恒定的精度)上同時做到了優(yōu)化,而且不依賴激光雷達或深度傳感器,只用普通攝像機就能工作,這大大降低了部署門檻。

當(dāng)然,這套系統(tǒng)也不是沒有局限。它目前還不能自動識別"我回到老地方了"這件事——也就是沒有主動的閉環(huán)檢測,當(dāng)軌跡兜了一大圈回到原點時,無法像經(jīng)典SLAM那樣主動觸發(fā)一次全局修正。軌跡記憶的壓縮方式(每幀固定6個令牌)對于極端長序列來說也可能丟失一些細節(jié)。未來的改進方向,研究團隊認為包括將閉環(huán)檢測融入注意力機制本身、擴展到包含移動物體的動態(tài)場景,以及接入激光雷達或IMU等多模態(tài)傳感器。有興趣深入追蹤這一方向的讀者,可以通過arXiv:2604.14141v1查閱完整原文,也可以在GitHub倉庫robbyant/lingbot-map找到相關(guān)代碼和演示資源。

Q&A

Q1:LingBot-Map的"軌跡記憶"是怎么工作的?

A:LingBot-Map對于那些已經(jīng)離開最近滑動窗口的歷史幀,不會完全扔掉,而是把每一幀壓縮成只有6個"摘要令牌",保留攝像機位置和朝向的核心信息,丟掉占用大量內(nèi)存的圖像像素特征。同時,這些摘要令牌還被加上了視頻時序位置編碼,讓系統(tǒng)知道各幀的先后順序。這樣一來,隨著視頻越來越長,新增的歷史記錄每幀只多6個令牌,而不是幾百個,整體計算量幾乎恒定,又能糾正長程軌跡漂移。

Q2:LingBot-Map為什么在超長序列上比其他方法穩(wěn)定得多?

A:LingBot-Map的穩(wěn)定性主要來自三層上下文的協(xié)同設(shè)計。錨定上下文保證整段軌跡有一個固定的坐標基準,不會因為累積誤差整體飄移;局部位姿參考窗口保證每幀都有足夠的鄰近幾何細節(jié)來精確配準;軌跡記憶則用極簡方式記錄了整段歷史,讓系統(tǒng)有能力感知并修正長時間積累的偏差。三者缺一不可,相互補充,而其他方法通常只重點解決其中一兩個問題,遇到很長的序列時會逐漸崩潰。

Q3:GCA機制和傳統(tǒng)因果注意力相比,內(nèi)存效率提升了多少?

A:以處理一萬幀的視頻為例,傳統(tǒng)因果注意力(保留所有歷史幀完整令牌)需要積累約500萬個令牌;而GCA在n=3個錨幀、k=16幀的局部窗口配置下,總共只需要約7萬個令牌,節(jié)省了約70倍。每處理一新幀,傳統(tǒng)方法新增約500個以上令牌,而GCA只新增6個令牌,每幀增量減少了約80倍。這使得LingBot-Map可以在普通GPU上以約每秒20幀的速度處理超長序列,同時峰值顯存占用從約36GB降低到約13GB。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
繼續(xù)破紀錄,72小時訂單超10萬:比亞迪大唐這次會動M9的蛋糕嗎?

繼續(xù)破紀錄,72小時訂單超10萬:比亞迪大唐這次會動M9的蛋糕嗎?

藍色海邊
2026-04-28 14:24:53
刻不容緩!中央政治局定調(diào),釋放大信號!看清大局,中國全面出手!

刻不容緩!中央政治局定調(diào),釋放大信號!看清大局,中國全面出手!

互聯(lián)網(wǎng)思想
2026-04-28 23:24:38
美股三大指數(shù)集體收跌,道指跌0.06%,納指跌0.9%,標普500指數(shù)跌0.49%,熱門科技股多數(shù)下跌,博通跌超4%,英偉達跌超1%。

美股三大指數(shù)集體收跌,道指跌0.06%,納指跌0.9%,標普500指數(shù)跌0.49%,熱門科技股多數(shù)下跌,博通跌超4%,英偉達跌超1%。

財聯(lián)社
2026-04-29 04:08:08
夏洛特公主長相絕了!有戴妃的甜美,凱特的凌厲,也有女王的霸氣

夏洛特公主長相絕了!有戴妃的甜美,凱特的凌厲,也有女王的霸氣

小魚愛魚樂
2026-04-28 09:28:11
斯諾克賽程:趙心童2次出場對陣墨菲,吳宜澤先戰(zhàn)8局,世界冠軍PK

斯諾克賽程:趙心童2次出場對陣墨菲,吳宜澤先戰(zhàn)8局,世界冠軍PK

劉姚堯的文字城堡
2026-04-28 09:37:20
美股收盤:OpenAI相關(guān)股票承壓 三大指數(shù)集體下跌

美股收盤:OpenAI相關(guān)股票承壓 三大指數(shù)集體下跌

財聯(lián)社
2026-04-29 05:39:18
陳思誠找小21歲阮巨不是瞎了眼:他比誰都精,要的是情緒穩(wěn)定

陳思誠找小21歲阮巨不是瞎了眼:他比誰都精,要的是情緒穩(wěn)定

小貓娛樂叭叭
2026-04-27 20:42:52
溫州民商銀行9.9%股權(quán)易主,浙商大佬仇建平輾轉(zhuǎn)入局

溫州民商銀行9.9%股權(quán)易主,浙商大佬仇建平輾轉(zhuǎn)入局

達摩財經(jīng)
2026-04-26 09:32:45
美聯(lián)合10國對中國發(fā)起猛攻,中方不隔夜強力反制

美聯(lián)合10國對中國發(fā)起猛攻,中方不隔夜強力反制

至今
2026-04-29 03:03:01
砸進六個師,談判桌都不給!鐵了心的以色列,真主黨在劫難逃嗎?

砸進六個師,談判桌都不給!鐵了心的以色列,真主黨在劫難逃嗎?

寰球經(jīng)緯所
2026-04-27 23:35:08
5月1日正式開刀!3萬就立案,所有打工人都要警惕

5月1日正式開刀!3萬就立案,所有打工人都要警惕

洞見小能手
2026-04-27 21:17:44
1976年,江青被捕入獄后,兩個人趁著深夜去看她,江青丑態(tài)畢露

1976年,江青被捕入獄后,兩個人趁著深夜去看她,江青丑態(tài)畢露

兵鑒史
2026-04-29 03:01:16
下課!曝張慶鵬無緣率隊進季后賽將卸任北控主帥 僅執(zhí)教一季

下課!曝張慶鵬無緣率隊進季后賽將卸任北控主帥 僅執(zhí)教一季

醉臥浮生
2026-04-28 21:15:10
驚掉下巴!39 歲鄭欣宜暴瘦現(xiàn)身,整張臉瘦脫形,差點沒認出來

驚掉下巴!39 歲鄭欣宜暴瘦現(xiàn)身,整張臉瘦脫形,差點沒認出來

橙星文娛
2026-04-28 09:29:00
南京二級高級警長李才玉案2026年5月9日開庭

南京二級高級警長李才玉案2026年5月9日開庭

安志軍律師
2026-04-28 19:00:40
泡泡瑪特推出Labubu冰箱,售價5999元,上千人預(yù)約

泡泡瑪特推出Labubu冰箱,售價5999元,上千人預(yù)約

大象新聞
2026-04-26 13:01:02
云南“14歲男生奸殺同班女生”被判無期,受害人家屬將申請抗訴

云南“14歲男生奸殺同班女生”被判無期,受害人家屬將申請抗訴

新京報
2026-04-28 19:36:18
阿sa蔡卓妍宣布結(jié)婚,阿嬌鐘欣潼發(fā)文祝福:很開心你等到了那個合拍又珍視你的人,看著你被愛意包裹,滿心滿眼都是溫柔幸福,真的好欣慰

阿sa蔡卓妍宣布結(jié)婚,阿嬌鐘欣潼發(fā)文祝福:很開心你等到了那個合拍又珍視你的人,看著你被愛意包裹,滿心滿眼都是溫柔幸福,真的好欣慰

極目新聞
2026-04-28 13:14:42
放話了,太陽隊老板在球隊被雷霆隊首輪橫掃后稱已開始籌劃下一步

放話了,太陽隊老板在球隊被雷霆隊首輪橫掃后稱已開始籌劃下一步

好火子
2026-04-29 00:26:37
比披絲巾更可怕的是“瑜伽褲外穿”,廉價又卡襠,三角區(qū)更尷尬

比披絲巾更可怕的是“瑜伽褲外穿”,廉價又卡襠,三角區(qū)更尷尬

生命之泉的奧秘
2026-03-20 03:56:49
2026-04-29 06:27:00
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
8183文章數(shù) 563關(guān)注度
往期回顧 全部

科技要聞

10億周活目標落空!傳OpenAI爆發(fā)內(nèi)部分歧

頭條要聞

美國:對35個伊朗相關(guān)實體及個人實施制裁

頭條要聞

美國:對35個伊朗相關(guān)實體及個人實施制裁

體育要聞

魔術(shù)黑八活塞,一步之遙?!

娛樂要聞

蔡卓妍官宣結(jié)婚,老公比她小10歲

財經(jīng)要聞

中央政治局會議定調(diào),八大看點速覽!

汽車要聞

拒絕瘋狂套娃!現(xiàn)代艾尼氪金星長在未來審美點上

態(tài)度原創(chuàng)

游戲
數(shù)碼
旅游
公開課
軍事航空

這不爽翻了?曝PS6或能穩(wěn)穩(wěn)運行60幀+光追的游戲畫面

數(shù)碼要聞

機械革命蒼龍16 / 18 Pro游戲本RTX 5070 12GB款開啟預(yù)約

旅游要聞

莫讓內(nèi)卷式競爭削弱旅游消費信心

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

德國總理默茨:美國正遭受伊朗領(lǐng)導(dǎo)層的羞辱

無障礙瀏覽 進入關(guān)懷版