国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

世界模型混戰(zhàn),螞蟻炸出開源牌

0
分享至


作者 | 姚戈

世界模型領(lǐng)域迎來了一個(gè)重要開源模型。

今天,螞蟻集團(tuán)旗下的具身智能公司“螞蟻靈波”,正式發(fā)布并開源其通用世界模型 LingBot-World。與許多閉源方案不同,螞蟻靈波選擇全面開源代碼和模型權(quán)重,而且不綁定任何特定硬件或平臺。

去年 DeepMind 發(fā)布的 Genie 3,讓人們看到了世界模型能夠根據(jù)文本或圖像提示,實(shí)時(shí)生成一個(gè)可探索的動(dòng)態(tài)虛擬世界。LingBot-World 沿襲了這條路線,并在交互能力、高動(dòng)態(tài)穩(wěn)定性、長時(shí)序連貫性以及物理一致性等維度取得了突破。

更令人驚喜的是,LingBot-World 呈現(xiàn)出從“生成”到“模擬”的跨越。隨著模型規(guī)模的擴(kuò)大,靈波團(tuán)隊(duì)觀察到,LingBot-World 開始表現(xiàn)出遠(yuǎn)超普通視頻生成的復(fù)雜行為,涌現(xiàn)出對空間關(guān)系、時(shí)間連續(xù)性和物理規(guī)律的理解。

可以看到,鴨子腿部蹬水的動(dòng)作、水面對擾動(dòng)的響應(yīng)、以及鴨子身體與水之間的相互作用都比較符合物理規(guī)律。

這顯示出模型不僅記住了視覺表象,還在某種程度上理解了流體力學(xué)等基礎(chǔ)物理機(jī)制。同時(shí),水面對擾動(dòng)的反應(yīng),顯示出模型對因果關(guān)系的理解。

用戶切換視角后再回來時(shí),環(huán)境中的智能體(比如這只貓)仍能保持持久記憶。智能體即使沒有被觀察到,也能持續(xù)行動(dòng)。這確保了當(dāng)視角回歸時(shí),世界狀態(tài)會自然推進(jìn)。

當(dāng)環(huán)境中智能體(這只貓)碰到沙發(fā)后,沒有穿透沙發(fā),反而向空地走去??梢钥吹剑琇ingBot-World 遵循了空間的邏輯,讓智能體運(yùn)動(dòng)具有物理的合理性。

這是一個(gè)長達(dá) 9 分 20 秒的視頻,沒有經(jīng)過任何剪輯和拼貼。視頻為用戶第一視角,從一座破舊的古希臘神廟出發(fā),沿城市小徑前行,經(jīng)過一座新古典主義建筑,再向左進(jìn)入一片復(fù)原的古希臘建筑群。

在近十分鐘內(nèi),畫面保持了較為穩(wěn)定的物理狀態(tài)和視覺質(zhì)量,這在目前的視頻生成模型和世界模型中都比較罕見。

不過,在視頻最后幾分鐘,建筑之間的位置關(guān)系似乎被模型遺忘了。在 7:00,新古典主義建筑和復(fù)原式古希臘建筑群是連接在一起的;但 7:31,從復(fù)原式古希臘建筑群望向新古典主義建筑時(shí),新古典主義建筑消失了。8:30 回到新古典主義建筑時(shí),它成為了一棟孤立的房子。

盡管存在這些細(xì)節(jié)瑕疵,LingBot-World 的進(jìn)步依然顯著——單次生成接近 10 分鐘的連貫視頻,很可能刷新了當(dāng)前視頻 / 世界模型的長度紀(jì)錄。作為對比,Veo 3 和 Sora 2 的單次生成上限分別為 8 秒和 25 秒,Runway Gen-3 Alpha 為 40 秒,Kling 最長支持 2 分鐘。

與其他交互世界模型相比,LingBot-World 在開源、提供 720p 分辨率的情況下,還保證了高動(dòng)態(tài)程度和長生成跨度。


在 VBench 測試中,LingBot-World 全面領(lǐng)先于 Yume-1.5 和 HY World-1.5 等先進(jìn)開源模型,證明了自己不僅是一個(gè)視頻生成器,更是一個(gè)強(qiáng)大的交互式模擬器。通過接收用戶輸入的動(dòng)作指令,它能夠生成高度動(dòng)態(tài)且物理一致的視覺反饋,保持在高動(dòng)態(tài)度下的整體一致性,使視頻內(nèi)容在長時(shí)間段內(nèi)始終與最初的提示保持一致。


在看到大語言模型的局限后,世界模型成為火熱賽道。Google、李飛飛、Yann LeCun 以及眾多科學(xué)家紛紛指出,LLM 無法很好地理解物理世界、因果關(guān)系,而“世界模型”是 AI 走向真實(shí)物理世界深度理解的一個(gè)解。

至于“世界模型”究竟該長什么樣,行業(yè)至今尚無統(tǒng)一標(biāo)準(zhǔn)。

李飛飛的 Marble 正專注理解空間關(guān)系;英偉達(dá)把世界模型細(xì)分為預(yù)測模型、風(fēng)格遷移模型、推理模型;DeepMind 團(tuán)隊(duì)的 Genie 3,則試圖在同一個(gè)模型中,實(shí)現(xiàn)端到端的實(shí)時(shí)渲染。

路線的分歧,也反應(yīng)了行業(yè)需求的多樣性,以及尋找解決方案的困難——無論是智能駕駛、具身智能,還是游戲,都在尋找各自需要的智能方案,以及合適的開發(fā)范式和入口。

螞蟻靈波的世界模型方案更接近 Genie 3,旨在成為一個(gè)通用模型,為 Agent、具身智能、游戲、仿真等領(lǐng)域提供理解世界物理規(guī)律的基礎(chǔ)設(shè)施平臺。

通過開源其訓(xùn)練方法、模型權(quán)重等內(nèi)容,螞蟻靈波不僅展示了其在具身智能領(lǐng)域的戰(zhàn)略布局,也為行業(yè)提供了探索世界模型更多可能性的契機(jī),幫助降低驗(yàn)證世界模型的門檻。

這一周,螞蟻靈波對外集中發(fā)布和開源模型研究成果,相繼發(fā)布并開源空間感知模型 LingBot-Depth、具身大模型 LingBot-VLA。

如今,隨著 LingBot-World 的發(fā)布,螞蟻靈波正從幕后走向臺前。螞蟻靈波的目標(biāo)是打造一個(gè)開放、通用的智能基座,與越來越多行業(yè)和廠商共建生態(tài)。這一次,它用開源的方式,向世界拋出了自己的世界模型范式。

構(gòu)建世界模型的夢想和努力

在深入探討螞蟻團(tuán)隊(duì)通用世界模型的細(xì)節(jié)之前,我們需要花點(diǎn)時(shí)間,回顧一下 1990 年世界模型的開始。這將幫助我們更清楚地理解過去 30 多年中“世界模型”研究的變與不變、當(dāng)前世界模型技術(shù)路線之爭的焦點(diǎn),從而更好地理解螞蟻是在怎樣的方向和基礎(chǔ)上努力。

世界模型 40 年,變與不變

1990 年,強(qiáng)化學(xué)習(xí)領(lǐng)域奠基人、2024 圖靈獎(jiǎng)獲得者 Richard S. Sutton 在人類認(rèn)知學(xué)習(xí)過程的啟發(fā)下,在論文《Dyna, an Integrated Architecture for Learning, Planning, and Reacting》中提出了一個(gè)開創(chuàng)性架構(gòu):智能體不應(yīng)只靠真實(shí)世界試錯(cuò)學(xué)習(xí),而應(yīng)構(gòu)建一個(gè)內(nèi)部世界模型,在“腦?!敝心M動(dòng)作后果,低成本地進(jìn)行規(guī)劃與策略優(yōu)化。


備注:圖片來自 Dyna 論文。圖片呈現(xiàn)的是 Dyna 框架的核心邏輯,智能體的目標(biāo)是最大化其在時(shí)間維度上累積獲得的總獎(jiǎng)勵(lì)。

在 Dyna 框架中,世界模型也被稱為動(dòng)作模型,它被視為一個(gè)“黑盒子”,輸入當(dāng)前的情境和動(dòng)作,輸出對下一個(gè)情境和即時(shí)獎(jiǎng)勵(lì)的預(yù)測。模型的作用是模擬現(xiàn)實(shí)世界,Agent 通過與現(xiàn)實(shí)世界的持續(xù)互動(dòng)產(chǎn)生經(jīng)驗(yàn),并利用這些經(jīng)驗(yàn)通過監(jiān)督學(xué)習(xí)方法來改進(jìn)模型,使其更接近真實(shí)的物理規(guī)律。

在 2026 年回顧這篇 36 年前的論文,會發(fā)現(xiàn)這份古早的研究為理解當(dāng)下復(fù)雜的技術(shù)路線之爭提供了共同的根基——

對世界模型的探究,起源于對人類、機(jī)器,以及更廣泛的智能體如何學(xué)習(xí)和行動(dòng)的好奇。

而“世界模型”作為一種方法,提出的解決方案是在模擬出的世界中,讓智能體學(xué)習(xí)、行動(dòng)、獲得反饋和迭代。

Dyna 這篇論文的核心理念,成為了今天世界模型的研究的底層思路。

不管是 NVIDIA Cosmos、World labs、Google Genie,還是 LingBot-World,都沿襲了 Dyna 的核心理念:世界模型是為智能體提供“模擬經(jīng)驗(yàn)”的內(nèi)部環(huán)境,使得智能體可以在一個(gè)虛擬的環(huán)境中進(jìn)行規(guī)劃和策略訓(xùn)練。

在不同方向的探索中,我們可以得到的共識是:世界模型從多樣化的輸入數(shù)據(jù)中學(xué)習(xí)對真實(shí)世界環(huán)境的內(nèi)部表征,包括物理規(guī)律、空間動(dòng)態(tài)和因果關(guān)系等。這些表征幫助模型預(yù)測未來狀態(tài),模擬動(dòng)作序列,并支持復(fù)雜的規(guī)劃與決策,而不需要反復(fù)進(jìn)行真實(shí)世界的實(shí)驗(yàn)。

36 年過去,我們正站在大語言模型的陰影和語境中討論世界模型。LLM 在理解真實(shí)物理世界、及模擬 / 預(yù)測未來后果等方面的局限,正加速科研和商業(yè)領(lǐng)域?qū)κ澜缒P偷奶剿鳌?/p>

在 2025 年的一次訪談中,Dyna 的創(chuàng)作者 Richard S. Sutton 強(qiáng)調(diào),LLM 已經(jīng)走到了瓶頸。他指出,LLM 的核心缺陷在于,它們僅僅是在模仿人類行為,而無法理解世界、預(yù)測現(xiàn)實(shí)世界中的未來事件。他提倡放棄基于 LLM 的路徑,轉(zhuǎn)而開發(fā)基于強(qiáng)化學(xué)習(xí)、擁有世界轉(zhuǎn)換模型(Transition model of the world)。這種世界模型不僅能學(xué)習(xí)獎(jiǎng)勵(lì),還能從所有感官信息中獲取環(huán)境的豐富理解,最終能夠預(yù)測“如果做某事,后果將是什么”。

大語言模型在理解真實(shí)物理世界的不足,以及模擬 / 預(yù)測未來后果的不足,讓一批科學(xué)家轉(zhuǎn)向,在世界模型中尋找解法。

李飛飛認(rèn)為 LLM 缺乏對物理世界的感知,提出“空間智能”(Spatial Intelligence)是 AI 的下一個(gè)北極星,AI 需要理解三維空間、幾何、物理規(guī)則以及因果關(guān)系,才能從“理解文本”邁向“理解并作用于物理世界”。

Yann LeCun 則批評 LLM 依賴文本概率預(yù)測,感知學(xué)習(xí)世界的方式背道而馳。為此,他推廣 JEPA(聯(lián)合嵌入預(yù)測架構(gòu)),并成立 AMI Labs,通過世界模型的路徑實(shí)現(xiàn) AGI,探索如何讓 AI 系統(tǒng)具備理解物理世界、持久記憶、邏輯推理以及復(fù)雜任務(wù)規(guī)劃能力。

DeepMind 聯(lián)合創(chuàng)始人兼 CEO Demis Hassabis 在今年 1 月的對談節(jié)目中強(qiáng)調(diào),目前的 AI 系統(tǒng)還不能理解物理世界、因果關(guān)系、行為如何影響結(jié)果,而精確的世界模型是實(shí)現(xiàn)科學(xué)發(fā)現(xiàn)或理論創(chuàng)新的關(guān)鍵。他表示,Genie 這樣的模型還只是“胚胎期世界模型”,Genie 體現(xiàn)出的,生成關(guān)于世界的內(nèi)容的能力,某種程度上體現(xiàn)了模型理解了世界的知識。

Google AI 團(tuán)隊(duì)深度押注了世界模型的發(fā)展,并認(rèn)為它會在 2026 年贏得重大發(fā)展。Hassabis 在談及 2026 年的突破和期待時(shí)提到,“最令我興奮的,莫過于進(jìn)一步推動(dòng)‘世界模型’的發(fā)展,提升其運(yùn)行效率,從而使其能夠真正被用于我們通用模型中的‘規(guī)劃’環(huán)節(jié)?!边@可能意味著,未來世界模型將融入 Gemini 這樣的基礎(chǔ)模型中。

世界模型的路線分歧

在探索 AGI 的道路時(shí),螞蟻集團(tuán)也看到了世界模型的潛力。

作為螞蟻集團(tuán)旗下的具身智能企業(yè),螞蟻靈波的定位是“智能基座公司”,致力于打造一個(gè)能夠理解世界、物理規(guī)律以及時(shí)空演化的 AI 系統(tǒng)。而世界模型正是實(shí)現(xiàn)這一目標(biāo)的重要方式之一。

盡管各方都將世界模型視為未來的關(guān)鍵技術(shù),然而不同公司選擇的路徑卻各不相同??傮w上,這些路徑可以分為生成式和非生成式兩類,兩種路徑的核心區(qū)別在于預(yù)測空間。

NVIDIA Cosmos、DeepMind Genie 和 World Labs 都是生成式路徑的代表。

Cosmos 和 Genie 主要使用由像素構(gòu)成的觀測空間,利用大規(guī)模高維視覺數(shù)據(jù)訓(xùn)練,通過特定的時(shí)空架構(gòu)設(shè)計(jì),讓模型產(chǎn)生對三維物理世界的理解。Genie 3 官網(wǎng)中特別提到“Genie 3 的一致性是一種涌現(xiàn)能力……Genie 3 生成的世界更為動(dòng)態(tài)和豐富,因?yàn)樗鼈兪腔谑澜缑枋龊陀脩魟?dòng)作逐幀創(chuàng)建的。”

World Labs 則另辟蹊徑,將預(yù)測空間設(shè)定為在 3D 空間中帶有位姿的幀,通過查詢待生成幀的位姿來生成新圖像。其發(fā)布的 RTFM 模型表明:“模型對世界的記憶(存儲在各個(gè)幀中)具備了空間結(jié)構(gòu);它將帶有位姿信息的幀視作一種‘空間存儲’,這賦予了模型一種弱先驗(yàn)——即所建模的世界是三維歐幾里得空間,而無需強(qiáng)迫模型顯式預(yù)測該世界中的物體幾何結(jié)構(gòu)。”

非生成路徑的代表是 Yann LeCun 的聯(lián)合嵌入預(yù)測架構(gòu)(Joint Embedding Predictive Architecture, JEPA)。JEPA 通過編碼器將輸入轉(zhuǎn)化為潛空間(Latent Space),并在該空間內(nèi)預(yù)測未來抽象表征(Embeddings),從而無需進(jìn)行像素級的重建。

螞蟻靈波的 LingBot-World 選擇了類似 Genie 的路徑,試圖在此基礎(chǔ)上解決從視頻生成到世界模擬之間的技術(shù)障礙。

拆解 LingBot-World

在前文的案例和分析中,我們看到螞蟻靈波的 LingBot-World 沿襲了 Gienie 的生成式路線,同時(shí)在交互能力、高動(dòng)態(tài)穩(wěn)定性、長時(shí)序連貫性以及物理一致性上表現(xiàn)驚艷。

在此基礎(chǔ)上,螞蟻靈波選擇開源代碼和模型權(quán)重,并在論文中完整披露了從數(shù)據(jù)采集到訓(xùn)練部署的全鏈路設(shè)計(jì),鼓勵(lì)社區(qū)測試、使用和復(fù)現(xiàn)。

即使是在近 10 分鐘的超長視頻中、或是快速運(yùn)動(dòng)下,畫面中的物體依然保持了較為穩(wěn)定的幾何物理特性,沒有出現(xiàn)視頻生成模型常見的崩壞。這種穩(wěn)定性,源于其獨(dú)特的數(shù)據(jù)引擎和模型架構(gòu)設(shè)計(jì)。

數(shù)據(jù)引擎

許多從視頻生成模型切入世界模型研發(fā)的團(tuán)隊(duì),很快會撞到數(shù)據(jù)瓶頸。

互聯(lián)網(wǎng)上浩如煙海的短視頻大多是“被動(dòng)”記錄,缺乏因果鏈條。對于世界模型而言,它需要理解的是動(dòng)作和后果之間的關(guān)系。

比如:“按下 W 鍵向前走,門是否會打開?”“繞到建筑背面,窗戶是否依然存在?”這類智能體動(dòng)作與環(huán)境反饋之間的因果閉環(huán),在普通視頻中幾乎不存在,在真實(shí)世界中規(guī)模化采集的成本也很高。

為了構(gòu)建“動(dòng)作 - 反饋”的閉環(huán),LingBot-World 打造了從采集、處理到標(biāo)注的流程。

LingBot-World 的數(shù)據(jù)包含通用視頻、游戲數(shù)據(jù)和合成渲染數(shù)據(jù),以確保訓(xùn)練語料的豐富性、高質(zhì)量和交互性。為游戲數(shù)據(jù),靈波團(tuán)隊(duì)還開發(fā)了專門的平臺,捕獲 RGB 幀并嚴(yán)格對齊用戶的輸入和相機(jī)參數(shù)。合成數(shù)據(jù)由 Unreal Engine 生成,帶有精確相機(jī)數(shù)據(jù)和自定義軌跡。


備注:LingBot-World 數(shù)據(jù)處理和標(biāo)注流程

在數(shù)據(jù)處理層面,靈波團(tuán)隊(duì)首先對原始視頻進(jìn)行質(zhì)量篩選與切分,生成結(jié)構(gòu)清晰的視頻片段;然后借助 VLM 視頻的視覺質(zhì)量、場景類型和視角等,結(jié)合幾何標(biāo)注提供必要的 3D 結(jié)構(gòu)先驗(yàn),產(chǎn)出元數(shù)據(jù)。

在此基礎(chǔ)上,團(tuán)隊(duì)引入三種不同粒度的描述標(biāo)注,涵蓋視頻全過程的宏觀描述、去除了動(dòng)作和相機(jī)數(shù)據(jù)的靜態(tài)描寫,以及帶有時(shí)間標(biāo)注的描述。

模型構(gòu)建和訓(xùn)練

LingBot-World 將世界模型定義為一個(gè)條件生成過程,模擬由智能體動(dòng)作驅(qū)動(dòng)的視覺狀態(tài)演化。

從模型構(gòu)建和訓(xùn)練過程,我們可以看到,LingBot-World 是從“視頻生成模型”起步,通過不同階段訓(xùn)練,讓模型從“生成”走向“模擬”。

從目標(biāo)函數(shù)上看,這種模擬本質(zhì)上是一種概率預(yù)測 。

LingBot-World 的目標(biāo)函數(shù)明確表達(dá)了這一思想:

即在最大化給定歷史幀 ( ) 和動(dòng)作序列 ( ) 的條件下,預(yù)測下一幀狀態(tài) ( ) 的似然概率。

簡單來說,就是讓模型學(xué)會根據(jù)過去看到的畫面和執(zhí)行過的動(dòng)作,盡可能準(zhǔn)確地預(yù)測下一幀畫面。

為了避免直接從零訓(xùn)練導(dǎo)致的計(jì)算開銷和模式崩塌,LingBot-World 采取了分階段的訓(xùn)練策略。

預(yù)訓(xùn)練負(fù)責(zé)建立穩(wěn)健的通用視頻先驗(yàn),確保高保真開放域生成;中訓(xùn)練注入世界知識和動(dòng)作可控性,使模型能夠模擬具有一致交互邏輯的長期堅(jiān)持動(dòng)態(tài);后訓(xùn)練使架構(gòu)適應(yīng)實(shí)時(shí)交互,采用因果注意力和少步蒸餾以實(shí)現(xiàn)低延遲和嚴(yán)格因果性。


備注:LingBot-World 模型訓(xùn)練流程。

從“生成視頻”到“模擬世界”,LingBot-World 帶來的可能性

LingBot-World 的意義絕不僅在于生成一段精美的視頻,而在于它提供了一個(gè)高保真的物理交互沙盒,成為具身智能、自動(dòng)駕駛與虛擬現(xiàn)實(shí)等下游任務(wù)的通用基礎(chǔ)設(shè)施。

LingBot-World 最直觀的突破在于它賦予了通過自然語言控制模擬過程。例如,通過輸入“冬季”或“夜晚”,模型會渲染出城堡結(jié)冰或夜晚燈光變化的物理效果,同時(shí)支持向“像素風(fēng)”或“蒸汽朋克”等風(fēng)格的切換。還可以在具體場景中精確注入特定物體。例如,在城堡上空觸發(fā)煙花,或在噴泉中生成魚和鳥。

備注:在環(huán)境中生成煙花效果

備注:改變環(huán)境整體風(fēng)格

在自動(dòng)駕駛訓(xùn)練中,這種能力極具價(jià)值。算法團(tuán)隊(duì)可以人為制造“鬼探頭”、極端天氣或突發(fā)交通沖突,構(gòu)建出嚴(yán)苛的因果推理環(huán)境,從而低成本地解決智駕中的長尾問題。

深層物理特性的穩(wěn)定性,則為這種模擬提供了實(shí)際應(yīng)用的底座。得益于模型展現(xiàn)的長程記憶,生成的視頻序列具備了較高的 3D 一致性,這使得視覺信息可以直接轉(zhuǎn)化為場景點(diǎn)云,從而服務(wù)于 3D 重建或高精度仿真任務(wù)。

備注:LingBot-World 具有很好的 3D 一致性??梢钥吹?,視角變化的情況下,房間結(jié)構(gòu)和物理性狀仍然保持穩(wěn)定。

這種穩(wěn)定性試圖觸及具身智能訓(xùn)練中的一個(gè)核心痛點(diǎn):機(jī)器人的導(dǎo)航或復(fù)雜操作往往涉及跨越長時(shí)序的決策序列。LingBot-World 展現(xiàn)的 10 分鐘級別生成能力,在理論上為多步驟任務(wù)提供了更穩(wěn)定的物理一致性。如果這種長程模擬能有效控制累積誤差,將有助于機(jī)器人在虛擬環(huán)境中進(jìn)行高頻次、深度、低成本試錯(cuò)。

在此基礎(chǔ)上,LingBot-World 與 LingBot-VLA(視覺 - 語言 - 動(dòng)作模型)的結(jié)合,勾勒出了一種具身大腦的閉環(huán)方案。在這種設(shè)定下,世界模型充當(dāng)了機(jī)器人的“內(nèi)部模擬器”:在 VLA 模型輸出最終指令前,系統(tǒng)可以在虛擬空間中先行演練不同的動(dòng)作軌跡,評估其物理后果,從而篩選出更符合物理規(guī)律且具備安全性的執(zhí)行路徑。

令人驚喜的是,利用訓(xùn)練 LingBot-World 的數(shù)據(jù),螞蟻靈波團(tuán)隊(duì)還微調(diào)出了動(dòng)作智能體。智能體可以被置于 LingBot-World 打造的環(huán)境中,Agent 的動(dòng)作改變會實(shí)時(shí)重塑環(huán)境狀態(tài),而環(huán)境的演變則反過來決定 Agent 的下一步?jīng)Q策。

備注:靈波團(tuán)隊(duì)利用 LingBot-World 相同數(shù)據(jù)訓(xùn)練處的自主智能體,能在生成的世界中自主規(guī)劃并執(zhí)行動(dòng)作。

這種互動(dòng)揭示了世界模型在“模擬沙盒”之外的另一種可能——它不僅能理解環(huán)境對智能體變化的響應(yīng),也具備預(yù)測智能體動(dòng)作流的能力。

這意味著,世界模型未來或許不僅僅是訓(xùn)練智能體的工具,也有可能成為驅(qū)動(dòng)智能體(包括機(jī)器人)的底座。

項(xiàng)目官網(wǎng):

https://technology.robbyant.com/lingbot-world

論文連接:

https://arxiv.org/abs/2601.20540

代碼和模型權(quán)重下載:

https://github.com/robbyant/lingbot-world

https://huggingface.co/robbyant/lingbot-world

https://www.modelscope.cn/models/Robbyant/lingbot-world-base-cam

會議推薦

InfoQ 2026 全年會議規(guī)劃已上線!從 AI Infra 到 Agentic AI,從 AI 工程化到產(chǎn)業(yè)落地,從技術(shù)前沿到行業(yè)應(yīng)用,全面覆蓋 AI 與軟件開發(fā)核心賽道!集結(jié)全球技術(shù)先鋒,拆解真實(shí)生產(chǎn)案例、深挖技術(shù)與產(chǎn)業(yè)落地痛點(diǎn),探索前沿領(lǐng)域、聚焦產(chǎn)業(yè)賦能,獲取實(shí)戰(zhàn)落地方案與前瞻產(chǎn)業(yè)洞察,高效實(shí)現(xiàn)技術(shù)價(jià)值轉(zhuǎn)化。把握行業(yè)變革關(guān)鍵節(jié)點(diǎn),搶占 2026 智能升級發(fā)展先機(jī)!

今日薦文

你也「在看」嗎?

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
丈夫:你把工資拿娘家,兒子用啥?妻子:侄子都養(yǎng)了,兒子也能養(yǎng)

丈夫:你把工資拿娘家,兒子用啥?妻子:侄子都養(yǎng)了,兒子也能養(yǎng)

惟來
2026-03-06 23:38:32
非洲19歲女孩遠(yuǎn)嫁河南48歲農(nóng)民,生倆混血兒,稱:我每天都在享福

非洲19歲女孩遠(yuǎn)嫁河南48歲農(nóng)民,生倆混血兒,稱:我每天都在享福

談史論天地
2026-03-06 09:52:47
古斯塔沃:感謝上海球迷這兩年的支持;團(tuán)結(jié)讓我們贏得勝利

古斯塔沃:感謝上海球迷這兩年的支持;團(tuán)結(jié)讓我們贏得勝利

懂球帝
2026-03-07 22:53:18
日本首相退休后,每月的養(yǎng)老金是多少

日本首相退休后,每月的養(yǎng)老金是多少

徐靜波靜說日本
2025-12-06 09:15:21
張杰芭莎男士大片翻車:唱功有多穩(wěn),造型就有多土

張杰芭莎男士大片翻車:唱功有多穩(wěn),造型就有多土

喜歡歷史的阿繁
2026-03-07 14:56:28
不敢喝了!4大頭部椰子水全造假,100%純椰水全是水+糖 +科技狠活

不敢喝了!4大頭部椰子水全造假,100%純椰水全是水+糖 +科技狠活

川渝視覺
2026-03-04 20:09:52
曝李晨鄭愷陳赫Angelababy上海聚餐初代跑男合體,全網(wǎng)直呼爺青回

曝李晨鄭愷陳赫Angelababy上海聚餐初代跑男合體,全網(wǎng)直呼爺青回

東方不敗然多多
2026-03-06 02:41:15
西貝毛利70%,比海底撈都高:計(jì)劃2026年上市,現(xiàn)在威逼員工辭職

西貝毛利70%,比海底撈都高:計(jì)劃2026年上市,現(xiàn)在威逼員工辭職

江山揮筆
2026-03-07 11:07:14
回顧四川“燒妻案”唐路死刑細(xì)節(jié)曝光,行刑前渾身哆嗦,崩潰痛哭

回顧四川“燒妻案”唐路死刑細(xì)節(jié)曝光,行刑前渾身哆嗦,崩潰痛哭

談史論天地
2026-02-25 07:34:55
一旦戰(zhàn)爭爆發(fā),中國實(shí)力有多強(qiáng)?美國專家的評價(jià)讓人出乎意料

一旦戰(zhàn)爭爆發(fā),中國實(shí)力有多強(qiáng)?美國專家的評價(jià)讓人出乎意料

緊跟時(shí)代脈搏
2026-03-07 10:05:59
西方戰(zhàn)略專家感嘆:中國是全世界,唯一強(qiáng)得悄無聲息的超級大國!

西方戰(zhàn)略專家感嘆:中國是全世界,唯一強(qiáng)得悄無聲息的超級大國!

勇士軍武閑談
2026-03-05 11:20:31
迪拜國際機(jī)場緊急疏散旅客

迪拜國際機(jī)場緊急疏散旅客

澎湃新聞
2026-03-07 14:25:02
俄媒:蘇萊曼尼繼任者是內(nèi)鬼,確認(rèn)哈梅內(nèi)伊位置,會沒開完就溜了

俄媒:蘇萊曼尼繼任者是內(nèi)鬼,確認(rèn)哈梅內(nèi)伊位置,會沒開完就溜了

蕭鑟科普解說
2026-03-07 00:30:38
盧秀燕警告:臺灣只剩下3周時(shí)間,馬上就要斷氣了!被民進(jìn)黨坑死

盧秀燕警告:臺灣只剩下3周時(shí)間,馬上就要斷氣了!被民進(jìn)黨坑死

我心縱橫天地間
2026-03-07 14:32:17
伊朗稱發(fā)射導(dǎo)彈,打擊伊拉克庫爾德地區(qū)“分裂武裝”據(jù)點(diǎn)

伊朗稱發(fā)射導(dǎo)彈,打擊伊拉克庫爾德地區(qū)“分裂武裝”據(jù)點(diǎn)

陳腕特色體育解說
2026-03-08 00:12:39
一場5:1驗(yàn)出成都蓉城一大水貨,歐冠后衛(wèi)徒有虛名,恐遭新帥冷落

一場5:1驗(yàn)出成都蓉城一大水貨,歐冠后衛(wèi)徒有虛名,恐遭新帥冷落

零度眼看球
2026-03-07 07:26:42
國家發(fā)改委:將探索延長義務(wù)教育年限

國家發(fā)改委:將探索延長義務(wù)教育年限

極目新聞
2026-03-07 16:41:06
印度百姓怒了,耗資340億造全球最高雕像,結(jié)果卻是中國制造

印度百姓怒了,耗資340億造全球最高雕像,結(jié)果卻是中國制造

策略述
2025-12-21 23:13:25
76歲大爺在女婿家住了2年,女兒突然哭著說:爸,求你趕緊搬走吧

76歲大爺在女婿家住了2年,女兒突然哭著說:爸,求你趕緊搬走吧

熱心柚子姐姐
2026-03-06 23:33:20
為了掏空老百姓的口袋、故意捏造出來的5大騙局,早知道早好

為了掏空老百姓的口袋、故意捏造出來的5大騙局,早知道早好

貓叔東山再起
2026-02-28 10:00:03
2026-03-08 01:07:00
AI前線 incentive-icons
AI前線
面向AI愛好者、開發(fā)者和科學(xué)家,提供AI領(lǐng)域技術(shù)資訊。
1347文章數(shù) 133關(guān)注度
往期回顧 全部

科技要聞

OpenClaw爆火,六位"養(yǎng)蝦人"自述與AI共生

頭條要聞

伊朗總統(tǒng):號召所有伊朗人挺身而出 保衛(wèi)領(lǐng)土

頭條要聞

伊朗總統(tǒng):號召所有伊朗人挺身而出 保衛(wèi)領(lǐng)土

體育要聞

塔圖姆298天走完這段路 只用27分鐘征服這座城

娛樂要聞

汪小菲曝親媽猛料,張?zhí)m公開財(cái)產(chǎn)分配

財(cái)經(jīng)要聞

針對"不敢休、不讓休"怪圈 國家出手了

汽車要聞

逃離ICU,上汽通用“止血”企穩(wěn)

態(tài)度原創(chuàng)

手機(jī)
旅游
藝術(shù)
教育
時(shí)尚

手機(jī)要聞

網(wǎng)曝OPPO Find N6渲染圖,或有橙色版本

旅游要聞

陜西延安寶塔山,于東來呼吁礦泉水賣2元一瓶:茶葉蛋賣1.5元一個(gè)

藝術(shù)要聞

1.61億天價(jià)!陳丹青的《牧羊人》如何震撼藝術(shù)界?

教育要聞

學(xué)習(xí)動(dòng)力這件事,多數(shù)家庭理解反了

2026春夏一定要擁有的6只包,好看又百搭

無障礙瀏覽 進(jìn)入關(guān)懷版