国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

對(duì)話智元首席科學(xué)家羅劍嵐:推出SOP系統(tǒng),是機(jī)器人規(guī);~向真實(shí)世界的關(guān)鍵一步

0
分享至

今年一開年,智元機(jī)器人就整了個(gè)大活。

它旗下的智元具身研究中心,這兩天發(fā)布了一套面向真實(shí)世界部署的在線后訓(xùn)練系統(tǒng)——SOP(Scalable Online Post-training)框架。

為什么說它是個(gè)大活?

簡(jiǎn)單講,現(xiàn)在的模型都是訓(xùn)練完成后再上線,這導(dǎo)致搭載了模型的機(jī)器人一旦出廠就“智能凍結(jié)”,沒辦法根據(jù)真實(shí)物理世界的變化及時(shí)學(xué)習(xí),也不能靈活地執(zhí)行任務(wù)。

而SOP框架,就是針對(duì)這個(gè)問題的解決方案。它可以讓多個(gè)機(jī)器人在部署后同時(shí)執(zhí)行任務(wù),把任務(wù)執(zhí)行中的數(shù)據(jù)(成功和失敗的都包括)一起傳到云端。如果一個(gè)機(jī)器人在真實(shí)場(chǎng)景中遇到問題,經(jīng)過云端分鐘級(jí)在線更新策略,其他機(jī)器人也能立刻一起學(xué)會(huì)正確操作。


也就是說,現(xiàn)實(shí)世界不再是讓機(jī)器人懵逼的考場(chǎng),反而成了能讓一堆機(jī)器人邊干邊學(xué)、更智能的訓(xùn)練資源。這是現(xiàn)在全球AI重點(diǎn)探索方向——Online Learning,在機(jī)器人領(lǐng)域中的進(jìn)展。

從技術(shù)角度拆解,這套SOP系統(tǒng)主要是通過優(yōu)化后訓(xùn)練模式,提升VLA模型在特定任務(wù)上的效果。

之前大語言模型(LLM)結(jié)合強(qiáng)化學(xué)習(xí)的后訓(xùn)練,已經(jīng)被證明有效并成為事實(shí)標(biāo)準(zhǔn)。但具身領(lǐng)域,VLA的后訓(xùn)練由于數(shù)據(jù)偏移、真機(jī)后訓(xùn)練規(guī)模受限、單一后訓(xùn)練可能降低泛化能力,并沒有像LLM的后訓(xùn)練一樣成功。

所以,SOP的這套框架,通過剛剛提到的多個(gè)機(jī)器人執(zhí)行任務(wù)—實(shí)時(shí)上傳數(shù)據(jù)—云端學(xué)習(xí)、模型更新—立即下發(fā)的過程,在物理世界的后訓(xùn)練中整合了在線、分布式和多任務(wù)。

這些特點(diǎn),能讓多個(gè)機(jī)器人在真實(shí)大規(guī)模地持續(xù)學(xué)習(xí)中,迅速提升各個(gè)任務(wù)性能,同時(shí)不“忘記”之前學(xué)會(huì)的通用基礎(chǔ)能力。

那么這套方法的效果如何呢?

智元具身研究中心選擇了HG-DAgger(典型單機(jī)在線算法)和RECAP(最新SOTA離線算法)作對(duì)比。

能看出,經(jīng)過SOP優(yōu)化后的模型,在不同任務(wù)上的成功率都會(huì)更高。


在智元給出的真實(shí)任務(wù)展示中,還能看到經(jīng)過SOP在線學(xué)習(xí)的機(jī)器人,在疊衣服和組裝紙盒的長(zhǎng)程評(píng)估中,實(shí)現(xiàn)了超過36小時(shí)的連續(xù)運(yùn)行,性能也沒有衰減。


*經(jīng)加速展示

這項(xiàng)工作發(fā)布之后,智元合伙人兼首席科學(xué)家羅劍嵐接受了包括「四木相對(duì)論」在內(nèi)的媒體訪談。他補(bǔ)充了SOP接下來的落地節(jié)奏,并對(duì)這套系統(tǒng)在機(jī)器人領(lǐng)域的價(jià)值做了更多梳理。

以下是對(duì)話全文(經(jīng)整理):

Q:2025年機(jī)器人領(lǐng)域的關(guān)鍵詞是 VLA和世界模型。你覺得對(duì)2026年,機(jī)器人領(lǐng)域現(xiàn)在有什么共識(shí)?

羅劍嵐:不知道能不能代表機(jī)器人領(lǐng)域,我只講講自己的觀察。

我的觀察是,通用性固然很重要,但部署中的任務(wù)熟練度和可靠性,才是決定機(jī)器人能否真正落地的關(guān)鍵。過去幾年,大模型、VLA、預(yù)訓(xùn)練有非常大的提升,但機(jī)器人能否穩(wěn)定、高效、長(zhǎng)時(shí)間完成具體任務(wù)是一個(gè)問號(hào),這非常高度依賴真實(shí)世界的訓(xùn)練閉環(huán)。

智元的判斷是,2026 年是機(jī)器人從會(huì)做很多事,但每個(gè)事做得不太好,走向把事情做好并落地的關(guān)鍵節(jié)點(diǎn)。這要求學(xué)習(xí)范式從靜態(tài)離線訓(xùn)練升級(jí)為部署學(xué)習(xí)再部署的整套數(shù)據(jù)閉環(huán)系統(tǒng),正是基于這個(gè)判斷,我們提出SOP系統(tǒng)級(jí)解決方案。

Q:從單機(jī)離線到分布式在線的系統(tǒng)化跨越,SOP系統(tǒng)起到了什么作用?對(duì)于機(jī)器人疊衣服柔性物體精細(xì)化操作的問題,解決了哪些過去難以突破的技術(shù)瓶頸?

羅劍嵐:SOP是一個(gè)系統(tǒng)、是一個(gè)框架,在系統(tǒng)層面把執(zhí)行和學(xué)習(xí)真正耦合起來。具體來講,解決的核心技術(shù)瓶頸是三點(diǎn)。

一是非常低延遲的在線反饋。現(xiàn)在機(jī)器人犯錯(cuò)以后,需要糾正并盡快反映到模型里。

二是分布式數(shù)據(jù)的多樣性和一致性。多機(jī)器人并行采集的時(shí)候,會(huì)經(jīng)歷各種各樣不同的場(chǎng)景,需要穩(wěn)定獲取高質(zhì)量的數(shù)據(jù)經(jīng)驗(yàn)。

第三點(diǎn)是最重要的一點(diǎn),SOP保證了它的通用性不退化。

像疊衣服、疊紙盒子、商超里 500 多種物體補(bǔ)貨、上貨,成功率很高,用的都是一個(gè)模型。而之前的工作,用一個(gè)通用VLA模型,在單個(gè)場(chǎng)景里微調(diào),overfit(過擬合)到那一個(gè)場(chǎng)景上,機(jī)器人就會(huì)把之前的任務(wù)忘掉。而我們這個(gè)不會(huì),SOP架構(gòu)里是一個(gè)通用且泛化的模型,可以講它是一個(gè)通用的專才。提升某一個(gè)任務(wù)表現(xiàn)的時(shí)候,不會(huì)犧牲掉整體模型的泛化能力。

Q:SOP的一個(gè)關(guān)鍵點(diǎn),在于把訓(xùn)練由離線變成了在線。對(duì)機(jī)器人而言,它最革命性的改變是學(xué)得更快還是學(xué)的東西不一樣了?

羅劍嵐:我認(rèn)為這兩者都有。它學(xué)得更快,學(xué)的東西也不一樣,但我更強(qiáng)調(diào)學(xué)得不一樣。因?yàn)樵诰后訓(xùn)練的關(guān)鍵是真實(shí)場(chǎng)景發(fā)生犯的錯(cuò)誤,這是真真實(shí)實(shí)的錯(cuò)誤,而不是編出來的錯(cuò)誤。把學(xué)習(xí)資源集中在當(dāng)前錯(cuò)誤的失敗模式上,所以它會(huì)更快、更貼近落地所需的可靠性。

Q:之前單個(gè)場(chǎng)景訓(xùn)練時(shí),單個(gè)場(chǎng)景也會(huì)發(fā)生很多錯(cuò)誤。是不是也可以在單個(gè)場(chǎng)景訓(xùn)練學(xué)到不一樣的東西?

羅劍嵐:但原來是離線訓(xùn)練,就是在單個(gè)場(chǎng)景由人去遙操,去設(shè)想各種場(chǎng)景。首先這不是真的機(jī)器人執(zhí)行時(shí)犯的錯(cuò)誤,二是不包括經(jīng)歷這些狀態(tài)時(shí)包含的錯(cuò)誤。而在線多機(jī)訓(xùn)練,是在真實(shí)的場(chǎng)景里執(zhí)行這個(gè)策略,觀察這個(gè)策略會(huì)犯的錯(cuò)誤,再把它糾正過來,這樣效率會(huì)高很多。

Q:關(guān)于在線學(xué)習(xí),以前機(jī)器人學(xué)習(xí)的是正確的數(shù)據(jù),而失敗數(shù)據(jù)對(duì)機(jī)器人也有價(jià)值。那么怎么防止機(jī)器人學(xué)壞?有什么機(jī)制?

羅劍嵐:負(fù)面數(shù)據(jù)對(duì)學(xué)習(xí)很有益。就像人做任何一件事都要經(jīng)歷試錯(cuò),知道什么事做,什么事不做。

強(qiáng)化學(xué)習(xí)是一個(gè)很好的框架,可以從原理上處理負(fù)面數(shù)據(jù),就是給負(fù)面數(shù)據(jù)低權(quán)重,讓它知道什么是好的什么是壞的,通過動(dòng)態(tài)規(guī)劃把這一系列東西串起來。

整體來說,我們既要有正例數(shù)據(jù),也要有負(fù)例數(shù)據(jù)。SOP加上強(qiáng)化學(xué)習(xí),可以從原理上很好地利用負(fù)數(shù)據(jù),有時(shí)候負(fù)數(shù)據(jù)甚至比正數(shù)據(jù)更有用。

關(guān)于安全約束的機(jī)制,在算法層面,負(fù)數(shù)據(jù)放到value function(價(jià)值函數(shù))上,它會(huì)擬合這個(gè)value function。如果是錯(cuò)誤的行為,它的權(quán)重會(huì)降低。

Q:什么樣的負(fù)面數(shù)據(jù)相對(duì)而言更有價(jià)值?

羅劍嵐:首先是hard case(長(zhǎng)尾場(chǎng)景/難例),也就是難挖掘的能力。

舉個(gè)例子,在自動(dòng)駕駛里的復(fù)雜高架橋場(chǎng)景,可能有一個(gè)高架橋有 3 層,有輔助、有主路,每次都會(huì)走錯(cuò)。不走一兩次解決它,能力始終上不去。

回到機(jī)器人。比如機(jī)器人疊衣服,要甩一下、疊一下。之前的成功率上不去,是因?yàn)樗ゲ坏揭陆,就?huì)一直空抓,導(dǎo)致工作時(shí)長(zhǎng)很長(zhǎng)但成功率很低。這些負(fù)例數(shù)據(jù),可以很好地提升性能。

Q:SOP是分鐘級(jí),甚至秒級(jí)回流。未來部署過程中,算力、帶寬和部署成本,會(huì)不會(huì)成為規(guī)模化落地的瓶頸制約?

羅劍嵐:這也是我們做SOP第一天就考慮的問題,就是要有一套非常魯棒、健壯、可擴(kuò)展的軟件工程 infra。這套系統(tǒng)的軟件工程需要魯棒到,往里加一臺(tái)機(jī)器人、十臺(tái)機(jī)器人、一百臺(tái)機(jī)器人理論上沒有區(qū)別。

底層基礎(chǔ)設(shè)施也是有挑戰(zhàn)的。有的機(jī)器人初創(chuàng)公司在做海底光纜,超大帶寬的數(shù)據(jù)回流,這些我們也在看。這件事不僅需要軟件算法創(chuàng)新,也需要社會(huì)的基礎(chǔ)設(shè)施支持。

Q:SOP新機(jī)制上線后,原本的數(shù)采中心還有存在的必要嗎?

羅劍嵐:SOP是一個(gè)在線后訓(xùn)練框架,它需要有一個(gè)預(yù)訓(xùn)練模型,數(shù)采中心的離線數(shù)據(jù)可以給它提供基礎(chǔ)能力。

預(yù)訓(xùn)練模型的能力等于出廠設(shè)置的能力。預(yù)訓(xùn)練數(shù)據(jù)的來源,一開始大部分是數(shù)采中心,因?yàn)楝F(xiàn)在還沒有到大規(guī)模部署到真實(shí)世界的階段。隨著真實(shí)世界部署的機(jī)器數(shù)量越來越多,真實(shí)場(chǎng)景回流的數(shù)據(jù)也會(huì)變成訓(xùn)練預(yù)訓(xùn)練的數(shù)據(jù),預(yù)訓(xùn)練模型會(huì)變得越來越強(qiáng)。

有了SOP之后,在線部署能夠讓大量數(shù)據(jù)回流去訓(xùn)練新的模型。隨著部署量越來越多,積累的數(shù)據(jù)會(huì)越來越多,后面的數(shù)據(jù)大頭來自真實(shí)世界部署產(chǎn)生的數(shù)據(jù)。

我認(rèn)為現(xiàn)在離線的數(shù)據(jù)中心是主力,就像汽車的發(fā)電機(jī)把發(fā)動(dòng)機(jī)打著的那一下,這還是很重要。因?yàn)槲覀儾豢赡苤苯尤ゲ渴鹨粋(gè)零成功率的模型在真實(shí)世界,它要具備一定的基礎(chǔ)能力,才能通過SOP這套方法把效果拉起來。

Q:對(duì)SOP系統(tǒng)的規(guī)劃是?比如當(dāng)機(jī)器人的數(shù)量達(dá)到多少,就能通過SOP實(shí)現(xiàn)怎樣的效果?

羅劍嵐:我們2026年有一個(gè)很大的重點(diǎn)是在真實(shí)世界部署通用機(jī)器人,目前業(yè)界還沒有人做。關(guān)于數(shù)量,論文里是幾十臺(tái)機(jī)器人,今年我們會(huì)部署比現(xiàn)在大幾個(gè)數(shù)量級(jí)以上的機(jī)器人,真正找到機(jī)器人真實(shí)場(chǎng)景部署和真實(shí)場(chǎng)景落地的Scaling law。

Q:SOP系統(tǒng)會(huì)不會(huì)受到機(jī)器人內(nèi)部本體硬件差別的影響?

羅劍嵐:SOP的設(shè)計(jì)核心正是為了解決這一痛點(diǎn)。它支持多機(jī)器人、多本體的協(xié)同訓(xùn)練,通過對(duì)數(shù)十臺(tái)機(jī)器人的數(shù)據(jù)進(jìn)行任務(wù)均衡采樣,能夠有效隔離單一硬件的干擾,從而提取出跨本體的“最大公約數(shù)”。這種機(jī)制保證了模型不會(huì)被某類特定硬件“帶偏”。

簡(jiǎn)單來說,如果集群中有100臺(tái)機(jī)器人,即便其中一臺(tái)噪聲很大,在其余99臺(tái)機(jī)器人的數(shù)據(jù)對(duì)沖下,該噪聲的影響也可以忽略不計(jì)。

Q:就是說就算機(jī)器人集群里有幾種不同的機(jī)器人,SOP系統(tǒng)也可以正常運(yùn)行?

羅劍嵐:我們現(xiàn)在已經(jīng)有這個(gè)結(jié)果了。它是可以跨本體的,但論文里我們沒有把這個(gè)結(jié)果放出來。其實(shí)我們用了自家機(jī)器人,也用了別家的好幾款機(jī)器人,最后的結(jié)果是可以跨本體泛化,下一個(gè)版本會(huì)放出來。

Q:智元接下來是否會(huì)考慮向行業(yè)開放SOP框架,或進(jìn)行技術(shù)上的合作?在生態(tài)上有什么布局嗎?

羅劍嵐:首先SOP不是一個(gè)封閉系統(tǒng),而是一種新的持續(xù)學(xué)習(xí)、在線學(xué)習(xí)、協(xié)同進(jìn)化的方式。智元從成立之初就堅(jiān)持走生態(tài)開放的路線。我們開源了很多數(shù)據(jù)和軟硬件,SOP這個(gè)工作當(dāng)然也希望和更多的廠商一起共建。

在生態(tài)布局上,我們?cè)敢夂蜕鷳B(tài)伙伴一起做場(chǎng)景共建,部署真實(shí)機(jī)器人,F(xiàn)在有些場(chǎng)景不是為機(jī)器人設(shè)計(jì)的,所以需要我們共同定義這個(gè)場(chǎng)景的任務(wù)規(guī)范、流程、監(jiān)督信號(hào)、邊界等,把SOP的閉環(huán)真正接入業(yè)務(wù)流程里。

在這個(gè)層面我們很開放地希望和大家一起去共建,因?yàn)檫@不是某一家公司的事。我們會(huì)開放一些SOP的關(guān)鍵模塊和接口。因?yàn)镾OP是個(gè)框架,任意的后訓(xùn)練算法和模型都可以接進(jìn)來。

從長(zhǎng)遠(yuǎn)來講,我們希望構(gòu)建一個(gè)開放的機(jī)器人在線學(xué)習(xí)生態(tài)。不同的機(jī)器人本體都可以接入,讓數(shù)據(jù)共享上傳到云端一個(gè)大腦,數(shù)據(jù)回傳回來不斷進(jìn)化,一起給大家使用。如果能找到行業(yè)伙伴,在各自擅長(zhǎng)的場(chǎng)景中發(fā)揮優(yōu)勢(shì),我們可以一起推動(dòng)整個(gè)機(jī)器人行業(yè)從靜態(tài)能力到動(dòng)態(tài)進(jìn)化的跨越。

Q:在工程制造、家庭服務(wù)或商用場(chǎng)景中,這套SOP適配難度有什么差異,現(xiàn)階段最容易落地的場(chǎng)景是什么?

羅劍嵐:難在不同的地方。工業(yè)制造對(duì)泛化性的要求會(huì)相對(duì)少一些,我們現(xiàn)在也在看一些工業(yè)制造的場(chǎng)景,但這種場(chǎng)景對(duì)整體的成功率和節(jié)拍、魯棒性要求非常高,否則會(huì)影響到線的產(chǎn)能。

家庭服務(wù)和商超,對(duì)成功率和性能的要求沒有工業(yè)場(chǎng)景那么苛刻,風(fēng)險(xiǎn)可控。但它是一個(gè)更加開放的場(chǎng)景,長(zhǎng)尾任務(wù)更多。

我認(rèn)為SOP在不同場(chǎng)景的適配難度存在明顯梯度。工業(yè)場(chǎng)景里的流程穩(wěn)定、邊界清晰,責(zé)任、安全、工序劃分得很明確。我們把SOP引入到在線系統(tǒng)里面,機(jī)器人在這種可控的環(huán)境里,可以持續(xù)運(yùn)行,不斷糾正失敗模式,能快速把成功率和節(jié)拍提升到可規(guī)模化的上線水平。

醫(yī)療護(hù)理的要求最高,對(duì)合規(guī)、安全、可解釋性的要求都很強(qiáng)。醫(yī)療護(hù)理的落地,會(huì)先從輔助性或非關(guān)鍵決策的環(huán)境開始。

對(duì)于家庭場(chǎng)景,實(shí)事求是地說,我不指望SOP能立馬覆蓋一個(gè)家庭,我認(rèn)為這是一個(gè)逐步的過程。

就好像你有了預(yù)訓(xùn)練模型,預(yù)訓(xùn)練模型出廠就不可能是最優(yōu)秀的模型一樣。有了預(yù)訓(xùn)練模型再加上SOP,以逐步擴(kuò)展任務(wù)能力的方式去落地,這是我認(rèn)為這是未來有希望進(jìn)入家庭的一種方式。通過部署更多的機(jī)器人,造成更多的數(shù)據(jù)回流,訓(xùn)練更好的模型載體,部署更多的機(jī)器人。

所以,現(xiàn)階段最容易落地且明確產(chǎn)生商業(yè)價(jià)值的場(chǎng)景是工業(yè)制造和部分商業(yè)服務(wù)場(chǎng)景。

工業(yè)方面,我們已經(jīng)有很多案例了。商業(yè)場(chǎng)景,比如商超和部分家庭,我們今年都會(huì)慢慢鋪開。商業(yè)場(chǎng)景既要保持高性能,也不能丟掉泛化能力,就要關(guān)注機(jī)器人在不同場(chǎng)景、門店等不同環(huán)境下的適應(yīng)能力,通過機(jī)器人共享的經(jīng)驗(yàn)數(shù)據(jù),不斷減少人工的介入。

SOP是個(gè)框架,框架是統(tǒng)一的,在任務(wù)的定義、監(jiān)督上有一些小的適配差別。做SOP的初衷是希望有一個(gè)通用、可拓展的框架,不對(duì)場(chǎng)景做區(qū)分,只用少量適配就能各種場(chǎng)景一套系統(tǒng)全部拉通。

我們落地的整體原則是先在可控、可規(guī)模化的場(chǎng)景里把閉環(huán)跑穩(wěn),然后再逐步拓展到更復(fù)雜的真實(shí)世界。

Q:論文有一句話是“3小時(shí)SOP的經(jīng)驗(yàn),對(duì)于機(jī)器人能力有30%的提升,80個(gè)小時(shí)的專家數(shù)據(jù)只有4%的提升。”似乎夸大一點(diǎn)講就是,對(duì)具身智能來說預(yù)訓(xùn)練已死,未來是后訓(xùn)練的世界。

羅劍嵐:這句話要拆開來講。我先講事實(shí),3小時(shí)是在線訓(xùn)練,這3個(gè)小時(shí)非常寶貴,是從錯(cuò)誤里面恢復(fù)的數(shù)據(jù),是糾正錯(cuò)誤的數(shù)據(jù)。另外的80小時(shí)也好,160小時(shí)也好,是在數(shù)采中心里采集的靜態(tài)數(shù)據(jù)。

相當(dāng)于機(jī)器人在做這件事的過程中犯錯(cuò),又在錯(cuò)誤中吸取經(jīng)驗(yàn)。這樣的經(jīng)歷只要有一點(diǎn)點(diǎn),就比別人手把手教你做這件事重要得多。

再說回用離線數(shù)據(jù)做預(yù)訓(xùn)練,F(xiàn)在很多公司有很多相關(guān)應(yīng)用都看到性能上的瓶頸,所以大家在進(jìn)行后訓(xùn)練。但是你要說預(yù)訓(xùn)練這么大的池子已經(jīng)死了,我認(rèn)為不會(huì)。就像Gemini 3的預(yù)訓(xùn)練,依然能做出很多東西,比如多模態(tài)理解。而且這些在線數(shù)據(jù)也會(huì)回流回來,加到預(yù)訓(xùn)練的池子里,去訓(xùn)練預(yù)訓(xùn)練的基座模型。

Q:這種在線后訓(xùn)練的架構(gòu)如果逐漸成熟,未來交付給客戶的機(jī)器人,會(huì)不會(huì)變成持續(xù)服務(wù)的模式?

羅劍嵐:和自動(dòng)駕駛一樣,你買車回來以后,它會(huì)不斷更新版本一樣,模型會(huì)變得越來越好。

Q:但和車不一樣的是,工廠里可能不能接受一年后才能提升到100分的產(chǎn)品。

羅劍嵐:對(duì)于不同場(chǎng)景的適配梯度不一樣,工廠肯定不會(huì)先讓機(jī)器人跑一年。工廠是有一個(gè)成功率高的預(yù)訓(xùn)練模型,因?yàn)樗膱?chǎng)景相對(duì)結(jié)構(gòu)化和固定。然后我們的微調(diào)時(shí)間很短,就可以上線。上線以后,持續(xù)學(xué)習(xí)的機(jī)制是在的,因?yàn)樯暇之后,就像用自動(dòng)化設(shè)備過一段時(shí)間也得調(diào)整一次去適應(yīng)新的情況。

當(dāng)然這種情況,在工廠里的頻率比較低。如果是商超或超市,每天人來人往,每天情況不一樣,持續(xù)學(xué)習(xí)就是一個(gè)必要的措施。但即便是如此,也不代表每分每秒都在學(xué)習(xí)。特斯拉也不是每天在發(fā)版,而是幾個(gè)月發(fā)一次。可以通過scheduling(排期/調(diào)度),做到讓用戶沒什么感知,但真實(shí)性能提升的效果。

Q:技術(shù)博客提到多機(jī)采集可以阻止模型過擬合單機(jī)特定特征。那么多機(jī)特征會(huì)不會(huì)反過來影響到模型的學(xué)習(xí)?

羅劍嵐:我部分同意你的觀點(diǎn),但我認(rèn)為現(xiàn)在的AI或算法給我們的啟示是scale really matters(規(guī)模至關(guān)重要)。數(shù)據(jù)的多樣性和數(shù)據(jù)的規(guī)模,至少在現(xiàn)階段,遠(yuǎn)比在特定場(chǎng)景去專門創(chuàng)建的數(shù)據(jù)重要得多。多機(jī)和單機(jī),本質(zhì)問題是單一場(chǎng)景還是多個(gè)廣泛場(chǎng)景,我認(rèn)為后者的數(shù)據(jù)越來越多,對(duì)模型的魯棒性和健康性有更大的幫助。

Q:2026年對(duì)SOP落地應(yīng)用的目標(biāo)是什么,有沒有可量化的數(shù)據(jù)分享?

羅劍嵐:2026年我們考慮在真實(shí)世界大規(guī)模部署,SOP 是支撐這件事的基石。我們還在做相關(guān)工作,有進(jìn)展的話,會(huì)第一時(shí)間對(duì)外部分享。

Q:明年智元會(huì)加大機(jī)器人在真實(shí)世界的部署。那么之后機(jī)器人公司的競(jìng)爭(zhēng)核心,會(huì)不會(huì)從誰的模型更好,變成誰線下部署得最多、學(xué)得最快?

羅劍嵐:我認(rèn)為這是一個(gè)閉環(huán)。誰部署的機(jī)器人最多,誰的真實(shí)世界的寶貴數(shù)據(jù)就更多,誰就能訓(xùn)練出更好的模型。

Q:從真實(shí)世界邊做邊學(xué)數(shù)據(jù)回流的方式,從全球和行業(yè)來看是智元在獨(dú)創(chuàng)性地做嗎?

羅劍嵐:所有公司都想做這件事。但據(jù)我所知,我們是第一個(gè)把這個(gè)事做大的公司。我講得更嚴(yán)謹(jǐn)一點(diǎn),現(xiàn)在它們并沒有真的部署在便利店等場(chǎng)景,當(dāng)然這是智元今年的重點(diǎn)。但智元作為一家全棧公司,獨(dú)特優(yōu)勢(shì)在于有能力去構(gòu)建真實(shí)世界的閉環(huán)。硬件、本體、軟件、算法、工程,我們可以自己構(gòu)造這樣一個(gè)閉環(huán)系統(tǒng)。這是我們的一個(gè)獨(dú)特優(yōu)點(diǎn)。

我個(gè)人的一個(gè)夢(mèng)想是希望今年在上海的超市看到機(jī)器人在真正干活,一個(gè)很大的規(guī)模。我們做這件事的優(yōu)勢(shì)還有一個(gè),本體量很大,部署量很大,數(shù)據(jù)量也會(huì)很大。

Q:聽下來SOP是機(jī)器人向真實(shí)世界邁入的第一小步,那么接下來第二步是什么?

羅劍嵐:是的,這是關(guān)鍵的第一步。第一步解決的是長(zhǎng)期被忽略的問題,就是如何把真實(shí)部署中的經(jīng)驗(yàn),穩(wěn)定地低延遲地轉(zhuǎn)化為模型改進(jìn),并且在多機(jī)器人多任務(wù)下可規(guī)模化運(yùn)行。如果這一步做不穩(wěn)的話,后面所有的探索都是空談。所以我們?cè)鷮?shí)實(shí)先做好一個(gè)系統(tǒng),把它跑穩(wěn)。

在此基礎(chǔ)上,第二步的核心方向是三點(diǎn)。

一是,安全可控地在更開放的場(chǎng)景中擴(kuò)展,因?yàn)楝F(xiàn)在更多是半結(jié)構(gòu)化場(chǎng)景、可管理的環(huán)境。我們要逐步走向更復(fù)雜、更開放的真實(shí)世界。

二是,監(jiān)督的進(jìn)一步自動(dòng)化,F(xiàn)在還有人類的干預(yù),但隨著算法不斷提升,會(huì)減少對(duì)人類干預(yù)的依賴,會(huì)引入更成功、更自動(dòng)的建模算法。

三是,持續(xù)學(xué)習(xí)能力的增強(qiáng),也就是機(jī)器人不斷學(xué)習(xí)新任務(wù)新場(chǎng)景,同時(shí)避免遺忘已有的能力。我認(rèn)為這是符合產(chǎn)業(yè)落地規(guī)律的選擇,也就是讓在線學(xué)習(xí)真正可用、可擴(kuò)展地,逐步從封閉、半開放、開放的場(chǎng)景一步步驗(yàn)證、部署、擴(kuò)展、落地。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
騰訊宣布:春節(jié)發(fā)10億元現(xiàn)金!單個(gè)紅包最高達(dá)1萬元,可直接提現(xiàn)到微信

騰訊宣布:春節(jié)發(fā)10億元現(xiàn)金!單個(gè)紅包最高達(dá)1萬元,可直接提現(xiàn)到微信

每日經(jīng)濟(jì)新聞
2026-01-25 19:55:05
“留學(xué)一年嘴都變大了”,女學(xué)生面相變化圖走紅,牢A果然權(quán)威

“留學(xué)一年嘴都變大了”,女學(xué)生面相變化圖走紅,牢A果然權(quán)威

澤澤先生
2026-01-25 21:55:27
2026年倒查15年!這些人將面臨嚴(yán)厲審查,你在其中嗎?

2026年倒查15年!這些人將面臨嚴(yán)厲審查,你在其中嗎?

特約前排觀眾
2026-01-26 00:15:05
賬戶里突然多了20萬!女子10年前買的10萬元白銀被徹底遺忘 現(xiàn)在市值接近32萬元

賬戶里突然多了20萬!女子10年前買的10萬元白銀被徹底遺忘 現(xiàn)在市值接近32萬元

閃電新聞
2026-01-26 12:02:06
外交部宣布:奧爾西將訪華

外交部宣布:奧爾西將訪華

環(huán)球時(shí)報(bào)國(guó)際
2026-01-26 19:43:41
張雨綺被抵制成功!遼視春晚已將她除名,葛曉倩開心休假成贏家

張雨綺被抵制成功!遼視春晚已將她除名,葛曉倩開心休假成贏家

萌神木木
2026-01-26 13:01:04
“天仙妹妹”笑稱已是“天仙阿姨”,丈夫曾對(duì)她的過去一無所知

“天仙妹妹”笑稱已是“天仙阿姨”,丈夫曾對(duì)她的過去一無所知

揚(yáng)子晚報(bào)
2026-01-26 12:19:49
一中華老字號(hào)國(guó)企董事長(zhǎng),打傷要債人

一中華老字號(hào)國(guó)企董事長(zhǎng),打傷要債人

中國(guó)新聞周刊
2026-01-26 19:31:17
中國(guó)汽車第一大省“易主”:產(chǎn)量達(dá)到368.65萬輛,終結(jié)廣東九連冠

中國(guó)汽車第一大省“易主”:產(chǎn)量達(dá)到368.65萬輛,終結(jié)廣東九連冠

火星人雜談
2026-01-25 20:22:37
退臟衣女記者社死!囂張丟了鐵飯碗,商家硬剛到底,勢(shì)力大也沒用

退臟衣女記者社死!囂張丟了鐵飯碗,商家硬剛到底,勢(shì)力大也沒用

離離言幾許
2026-01-26 10:48:59
央媒怒批、目不識(shí)丁,這幾位德不配位的“文盲”明星,憑啥走紅

央媒怒批、目不識(shí)丁,這幾位德不配位的“文盲”明星,憑啥走紅

天天熱點(diǎn)見聞
2026-01-24 07:50:34
真實(shí)事件!普京女婿被俄羅斯億萬富翁欺負(fù),普京助理找上門

真實(shí)事件!普京女婿被俄羅斯億萬富翁欺負(fù),普京助理找上門

馬爾科故事會(huì)
2024-11-05 13:56:12
特朗普有關(guān)北約“脫離前線”言論激怒盟友,但只有一國(guó)得到了道歉

特朗普有關(guān)北約“脫離前線”言論激怒盟友,但只有一國(guó)得到了道歉

上觀新聞
2026-01-26 05:27:06
騰訊宣布推出全新聊天軟件,微信要被替代了嗎?

騰訊宣布推出全新聊天軟件,微信要被替代了嗎?

XCiOS俱樂部
2026-01-26 18:29:01
男子從2噸SIM卡中煉出191克黃金,當(dāng)事人:刨去成本只賺了10克金

男子從2噸SIM卡中煉出191克黃金,當(dāng)事人:刨去成本只賺了10克金

觀威海
2026-01-26 16:58:22
重兵包抄伊朗,特朗普要打了?普京已通告俄將出手,中方也有行動(dòng)

重兵包抄伊朗,特朗普要打了?普京已通告俄將出手,中方也有行動(dòng)

科普100克克
2026-01-24 18:11:51
重磅:烏克蘭突襲攻入俄羅斯領(lǐng)土!摧毀庫爾斯克指揮所

重磅:烏克蘭突襲攻入俄羅斯領(lǐng)土!摧毀庫爾斯克指揮所

項(xiàng)鵬飛
2026-01-26 17:11:27
雪豹傷人真相曝光:不是偶遇是送命!當(dāng)事人撒謊,航拍圖還原真相

雪豹傷人真相曝光:不是偶遇是送命!當(dāng)事人撒謊,航拍圖還原真相

吃貨的分享
2026-01-26 02:27:32
日本U23中場(chǎng):中國(guó)隊(duì)總看起來像功夫足球,教練讓我們要11人完賽

日本U23中場(chǎng):中國(guó)隊(duì)總看起來像功夫足球,教練讓我們要11人完賽

懂球帝
2026-01-26 20:41:10
華為分走750億!賽力斯嚇了市場(chǎng)一跳

華為分走750億!賽力斯嚇了市場(chǎng)一跳

李東陽朋友圈
2026-01-26 14:05:53
2026-01-27 00:40:49
四木相對(duì)論 incentive-icons
四木相對(duì)論
嘮嘮科技,看看世界
101文章數(shù) 1關(guān)注度
往期回顧 全部

科技要聞

印奇再上牌桌,階躍融資50億

頭條要聞

女子被丈夫和閨蜜背叛一夜白頭:聽到兒子叫第三者媽媽

頭條要聞

女子被丈夫和閨蜜背叛一夜白頭:聽到兒子叫第三者媽媽

體育要聞

叛逆的大公子,要砸了貝克漢姆這塊招牌

娛樂要聞

張雨綺被抵制成功!遼視春晚已將她除名

財(cái)經(jīng)要聞

從美式斬殺線看中國(guó)社會(huì)的制度韌性構(gòu)建

汽車要聞

賓利第四臺(tái)Batur敞篷版發(fā)布 解鎖四項(xiàng)定制創(chuàng)新

態(tài)度原創(chuàng)

房產(chǎn)
健康
游戲
時(shí)尚
本地

房產(chǎn)要聞

突發(fā)!三亞官宣,調(diào)整安居房政策!

耳石脫落為何讓人天旋地轉(zhuǎn)+惡心?

分析師稱PS6不會(huì)在2027年到來!停滯兩年或不是壞事

甜了10年,超多曖昧細(xì)節(jié),全網(wǎng)求他倆原地結(jié)婚

本地新聞

云游中國(guó)|格爾木的四季朋友圈,張張值得你點(diǎn)贊

無障礙瀏覽 進(jìn)入關(guān)懷版