国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

WAIC機器人大咖圓桌:具身智能的下一個前沿是什么?

0
分享至

2025 WAIC雖已閉幕,但高價值的信息還有待分享。其中,由智元機器人主辦的「智啟具身論壇」上,多位重量級嘉賓進行了一場圓桌對話,RoboX編譯整理了其中內(nèi)容,供大家參考:

嘉賓陣容:

羅劍嵐(主持人):智元機器人首席科學(xué)家/具身研究中心主任/上海創(chuàng)智學(xué)院副教授

Sergey Levine:Physical Intelligence(Pl)聯(lián)合創(chuàng)始人/UC Berkeley副教授

Stefan Schaal:Instrinsic (Alphabet)科學(xué)與AI事務(wù)負責(zé)人

蘇航:清華大學(xué)計算機系副研究員/IEEE TPAMI期刊編委

陳曦:亞馬遜應(yīng)用科學(xué)、前沿人工智能與機器人部門負責(zé)人

姚卯青:智元機器人合伙人/具身業(yè)務(wù)部總裁

背景:AI與機器人的本質(zhì)變化

羅劍嵐:目前,在機器人技術(shù)獲取大量進展的同時,我們也在試圖回答AI領(lǐng)域最深刻的問題之一:為什么AI系統(tǒng)能在圍棋等項目中成為世界冠軍,卻不能做三歲小孩能做的事情?

機器人基礎(chǔ)模型的最新進展來看,我認為構(gòu)建一個計算大腦,能將計算轉(zhuǎn)化為物理能力,這也部分回答了這個問題。

同時,我們也看到了一個趨勢:基礎(chǔ)研究與工業(yè)產(chǎn)品之間的差距正在顯著縮短。例如,谷歌的Gemini項目本質(zhì)上屬于基礎(chǔ)研究,但一旦開發(fā)完成,它幾乎可以在第二天就上線,供全球數(shù)十億用戶使用。

那么,第一個問題給Stefan和Sergey——

Stefan,你幾乎將畢生精力奉獻給了機器人技術(shù),從模仿學(xué)習(xí)、強化學(xué)習(xí)、機器人運動到操作,我們許多人都是閱讀你們的論文長大的。

Sergey,你于2016年在谷歌建立了第一個機器人數(shù)據(jù)采集場,那是一個由七臺庫卡機器人組成的系統(tǒng)。

那么我的問題是,在過去十年間,到底發(fā)生了什么改變,以至于這個領(lǐng)域受到了空前的關(guān)注度?這一次和你們職業(yè)生涯中看到的其它次有什么不同?

StefanSchaal計算機視覺算法在硬件上的應(yīng)用,是機器人技術(shù)能夠開始感知和觀察周圍世界的起點之一。隨著深度學(xué)習(xí)革命興起,極大地提高了視覺處理的效率,這也要歸功于二維攝像頭的進步。

接著,深度學(xué)習(xí)逐漸應(yīng)用于基礎(chǔ)模型。與此同時,它從一個被認為無法在大規(guī)模系統(tǒng)中應(yīng)用的技術(shù),發(fā)展到現(xiàn)在已成為可計算、可實現(xiàn)的技術(shù)。

SergeyLevine是的,現(xiàn)在的一大變化是,學(xué)術(shù)界對「規(guī)?!挂约啊缚蓴U展學(xué)習(xí)系統(tǒng)」的重要性有了更深刻的認識。

過去,即使在計算機視覺領(lǐng)域,人們也并未完全認識到規(guī)模和可擴展學(xué)習(xí)的重要性。

而在機器人領(lǐng)域,數(shù)據(jù)難以獲取,實驗難以開展,特別是在實驗室環(huán)境中,能擁有一臺機器人進行研究就已經(jīng)很幸運了。

這導(dǎo)致研究人員形成了一種思維模式,即他們必須在小規(guī)模上取得成果,而這種成果往往只是大規(guī)模應(yīng)用的「原型」,本質(zhì)上還是小規(guī)模方法。

在使用機器學(xué)習(xí)時,很難擺脫這種小規(guī)模模式。如果你在小規(guī)模學(xué)習(xí)上取得成果,并試圖逐漸擴大規(guī)模,往往會遇到問題。

而在機器學(xué)習(xí)、計算機視覺和自然語言處理等領(lǐng)域,我們已經(jīng)學(xué)到了寶貴的一課:大規(guī)模、簡單且通用的學(xué)習(xí)系統(tǒng),能夠讓我們避開許多將小規(guī)模學(xué)習(xí)應(yīng)用到現(xiàn)實世界時所面臨的復(fù)雜問題。

因此,我認為現(xiàn)在的不同之處在于,我們正在思考如何利用來自多個機器人的數(shù)據(jù),如何將這些方法應(yīng)用于不同環(huán)境、不同任務(wù),甚至不同機器人之間的遷移。我認為,在機器人領(lǐng)域接受可擴展學(xué)習(xí)的觀點,是使這個時代與以往不同的關(guān)鍵因素之一。

從「單一任務(wù)」到「行為集合」

羅劍嵐:我們的科學(xué)研究方式已經(jīng)發(fā)生了根本變化,傳統(tǒng)的小規(guī)模實驗室實驗已不再適用,必須進行大規(guī)模研究。那么,這對機器人技術(shù)意味著什么?

StefanSchaal:我們突然進入了實證科學(xué)的世界,進入了大數(shù)據(jù)時代。這是首次有機會真正將機器人技術(shù)擴展到各個領(lǐng)域,甚至是更通用的領(lǐng)域。現(xiàn)在,機器人正在從學(xué)習(xí)「單一任務(wù)」發(fā)展到學(xué)習(xí)「一類任務(wù)」,甚至是完整行為集合。

真正的挑戰(zhàn),在于如何實現(xiàn)高性能,這是一個艱巨的任務(wù),也是我一直擔(dān)心的問題。如果你想從90%的性能提升到99.9%的性能,可能需要徹底重新思考方法。

這種情況在某些領(lǐng)域已經(jīng)發(fā)生過,也可能在我們身上發(fā)生——我們可能會在這個新的數(shù)據(jù)科學(xué)領(lǐng)域找到另一種方法來解決這個問題,我還不知道答案,但這將非常令人興奮。

SergeyLevine我從大規(guī)模機器學(xué)習(xí)世界中學(xué)到了一個有趣教訓(xùn):與其構(gòu)建更復(fù)雜的系統(tǒng),有時我們應(yīng)該構(gòu)建更簡單、可擴展性更強的系統(tǒng)。

2010年代末到2020年代初的自然語言處理領(lǐng)域,就經(jīng)歷了這樣的變化。當時,每個自然語言處理任務(wù)都是獨立的領(lǐng)域。然而,最終大型語言模型的出現(xiàn),吸收了許多這些專門技術(shù)。

當然,畢竟機器人與網(wǎng)絡(luò)代理不同,它是一個高度集成的學(xué)科。但我認為,作為機器人專家,我們必須謹慎思考哪些系統(tǒng)構(gòu)建應(yīng)該簡化,并通過大規(guī)模學(xué)習(xí)來解決。

機器人技術(shù)確實需要高度的魯棒性和可靠性,而這很難從更多相同類型的學(xué)習(xí)技術(shù)中獲得。我們也應(yīng)該非常謹慎地思考在哪里增加復(fù)雜性,在哪里強調(diào)簡單性和規(guī)模。

「沒什么能比得上真實數(shù)據(jù)」

羅劍嵐:機器人技術(shù)需要什么樣的數(shù)據(jù)?數(shù)據(jù)的多樣性和質(zhì)量又該如何考量?

陳曦機器人技術(shù)與大語言模型、視覺技術(shù)的關(guān)鍵區(qū)別在于,我們最終需要解決一個物理系統(tǒng)的問題。這意味著我們的數(shù)據(jù)也必須來自物理系統(tǒng)。當然,你可以通過模擬、人類示范等方式收集一些代理數(shù)據(jù),但最終,沒有什么能比得上機器人在實際環(huán)境中操作并收集數(shù)據(jù)。

這一直是擴展機器人技術(shù)的瓶頸之一,因為它在很大程度上是孤立和碎片化的——研發(fā)項目分布在許多不同的學(xué)術(shù)實驗室中,通常由計算機科學(xué)專業(yè)的學(xué)生構(gòu)建系統(tǒng),他們通常不是硬件工程師或?qū)<摇?/p>

然而,在最近這一波對人工智能和機器人技術(shù)的興趣和投資浪潮中,許多公司都愿意并有能力進行大量投資,這使我們能夠獲得更多可用于運行策略和收集數(shù)據(jù)的物理系統(tǒng)。

因此,我對這個問題的簡短回答是:你最終需要大量的物理機器人,以及來自這些物理機器人的數(shù)據(jù)。

蘇航:對于具身人工智能來說,我們有時也會使用一些模擬數(shù)據(jù),或者使用視頻數(shù)據(jù)來訓(xùn)練。但我相信,在未來,真實數(shù)據(jù)將會變得非常重要,我認為我們將會擁有大量真實數(shù)據(jù)。

我認為,真正的瓶頸在于如何高效地收集數(shù)據(jù)。目前,遠程操作數(shù)據(jù)的收集效率并不令人滿意。而「機器人自主收集數(shù)據(jù)的方法」可能會更加高效,這意味著我們可以擴大數(shù)據(jù)收集規(guī)模。

因此,盡管目前自主收集數(shù)據(jù)的方法并不完美,但我相信,在不久的將來,這將成為數(shù)據(jù)注入的一種可能性。只要我們有大量的真實機器人,就意味著可以擁有大量數(shù)據(jù)集。

那么,如何利用這些數(shù)據(jù)呢?對于終身學(xué)習(xí)來說,這意味著我們需要一個閉環(huán)的數(shù)據(jù)重用機制。這可能是未來數(shù)據(jù)利用的方向。

羅劍嵐:我們應(yīng)該如何獲取數(shù)據(jù)?真實數(shù)據(jù)、模擬器還是其他方式?你們怎么看?

Sergey Levine:真實數(shù)據(jù)非常重要。如果我們看看其他領(lǐng)域,機器學(xué)習(xí)之所以能在這些領(lǐng)域取得成功,是因為我們能夠有效地利用大規(guī)模的真實世界數(shù)據(jù)集。

這并不意味著我們只應(yīng)使用真實數(shù)據(jù),但的確需要獲取大規(guī)模的機器人數(shù)據(jù)集,并利用它來學(xué)習(xí)對物理交互的通用理解。

一旦我們擁有了一個對真實世界中的物理交互有良好理解的模型,它就能更好地吸收其他來源的數(shù)據(jù),也就能在機器人技術(shù)上取得更大進步。因此,我認為模擬技術(shù)并不是推動機器人技術(shù)發(fā)展的關(guān)鍵,相反,大規(guī)模真實世界數(shù)據(jù)集可能會推動機器人理解各種其他類型數(shù)據(jù)的能力。

姚卯青:每種數(shù)據(jù)收集過程都有其自身的成本。例如,人力成本、存儲成本,數(shù)據(jù)量也與訓(xùn)練模型所需的計算量相關(guān)。因此,有時候某種方式收集數(shù)據(jù)可能更便宜,但存儲和消耗數(shù)據(jù)的成本卻更高。

此外,我認為從長遠來看,為機器人技術(shù)收集數(shù)據(jù)花費數(shù)百萬、數(shù)十億甚至更多資金,我認為這并非是不可承受的——Meta的超級智能實驗室雇傭研究人員的成本就高達12億美元,這些資金完全可以輕松獲得數(shù)億條軌跡數(shù)據(jù)。

如果這是解鎖人工智能的密碼,我認為任何科技巨頭或國家都不會猶豫投入這筆資金。最終,問題不在于如何獲取數(shù)據(jù),而在于如何從不同應(yīng)用領(lǐng)域和行業(yè)中獲取最具代表性的數(shù)據(jù)。

我非常同意Stefan之前的觀點,我們需要大量在現(xiàn)實世界中工作的ASI系統(tǒng),以獲取最有價值的數(shù)據(jù),甚至是那些邊緣案例和失敗案例,以幫助我們有效地迭代系統(tǒng)。

因此,當我們有數(shù)百萬臺機器人在現(xiàn)實世界中部署時,我們的問題將不再是如何以低成本獲取數(shù)據(jù),而是如何從數(shù)十億甚至數(shù)萬億條軌跡中篩選出最有用的數(shù)據(jù),因為我們無法承擔(dān)存儲和計算所有數(shù)據(jù)的成本。

通用性 or 專業(yè)化?

羅劍嵐如果我們想構(gòu)建一個能夠像人類一樣在物理世界中感知、推理和行動的機器,它就必須被放置在現(xiàn)實世界中,與環(huán)境互動,并生成大量的互動數(shù)據(jù)。

最終,我們將擁有各種異構(gòu)數(shù)據(jù)。我們的問題將不再是數(shù)據(jù)量的多少,而是如何處理這些數(shù)據(jù)。

Stefan,你提到過,目前我們既需要性能也需要專業(yè)化。而Sergey則認為,我們應(yīng)該將通用性作為首要考慮因素。我對你們兩位在通用性與專業(yè)化方面的觀點很感興趣。

SergeyLevine顯然,我們需要機器人能夠在特定的應(yīng)用領(lǐng)域中發(fā)揮作用,這就意味著至少要在一定程度上專門化。但我認為,阻礙機器人在開放世界環(huán)境中應(yīng)用的一個主要因素,是它們處理各種意外情況的能力。

這意味著,機器人需要具備通用能力。因為通用能力本質(zhì)上能帶來魯棒性。

要想克服這一障礙,使機器人在現(xiàn)實世界環(huán)境中具備常識,這將是一個巨大的進步。一旦達到這一點,我們就可以開始在現(xiàn)實世界中部署機器人,讓它們積累經(jīng)驗,并變得越來越專業(yè)化。

StefanSchaal我認為,關(guān)鍵在于你想要機器人做到什么任務(wù)、多快能夠做到?這些都是不同的路徑。通用性顯然是我們所有人都渴望的,但如果你更關(guān)注工業(yè)任務(wù),那么現(xiàn)在工業(yè)領(lǐng)域越來越傾向于高混合、低產(chǎn)量的生產(chǎn)模式,這意味著事情變化很快。

當事情變化很快時,人們不希望花費半小時、一小時甚至幾天的時間來重新訓(xùn)練模型。因此,你需要快速概括和適應(yīng)基礎(chǔ)模型的方法。

我認為,無論你選擇哪條路徑,都希望能產(chǎn)生數(shù)據(jù),這些數(shù)據(jù)可以用于下一個機器人,使其變得更好,更通用。這些只是不同的路徑,取決于你是想在兩年內(nèi)將機器人交付給客戶,還是還有更多的時間來實現(xiàn)這一目標。

產(chǎn)學(xué)研之間的鴻溝

羅劍嵐:在機器人領(lǐng)域,學(xué)術(shù)界和產(chǎn)業(yè)界之間一直存在差距,這種差距在機器人領(lǐng)域尤為明顯。

通常在學(xué)術(shù)論文中,你做了一些研究,錄制了視頻上傳,然后就結(jié)束了,你不再關(guān)心之后會發(fā)生什么。因此,我想問問你們兩位都有在學(xué)術(shù)界和產(chǎn)業(yè)界都有工作經(jīng)驗的嘉賓,如何才能縮短這種差距?

陳曦:首先,機器人應(yīng)該24小時不間斷工作——如果你的策略出了問題,你就需要回去修復(fù)它。你要對你的策略、你的模型的質(zhì)量負責(zé),這樣你也可以體驗到你的模型在各種長尾情況下如何失敗,并研究如何改進系統(tǒng)的通用性和魯棒性。

在機器人領(lǐng)域,仍然有大量的前沿研究需要完成,學(xué)術(shù)界仍然是培養(yǎng)人才和進行前沿研究的最佳場所。但與此同時,很多學(xué)術(shù)研究人員并不真正了解我們需要解決的實際問題。

因此,我認為產(chǎn)業(yè)界有義務(wù)將一些問題、一些動機帶回學(xué)術(shù)研究。據(jù)我觀察,很多學(xué)術(shù)研究人員也有動力去研究更接近現(xiàn)實世界的問題。因此,我希望在未來幾年內(nèi),這一差距能夠逐漸縮小。

StefanSchaal要想從原型發(fā)展到真正能用的產(chǎn)品,你可以和合適的人一起努力實現(xiàn)這種技術(shù)轉(zhuǎn)移,也可以在選擇研究的問題設(shè)置時,就選擇一些對初始性能不太敏感的領(lǐng)域。因為,并非所有領(lǐng)域都像汽車行業(yè)那樣,必須達到99.999%的完美才能工作,還有其他一些領(lǐng)域?qū)κ「訉捜荨?/strong>

谷歌的Everyday Robots項目中的垃圾分類就是一個很好的例子——這種工作只需達到90%以上的準確率就可以了。

還有一些領(lǐng)域,你可以讓一個人在那里監(jiān)督幾個機器人,然后隨著時間的推移逐漸提高性能,因為這可能需要一些時間,并最終需要更多的數(shù)據(jù)。

最大難題:Manipulation

羅劍嵐:我們主要關(guān)注的是導(dǎo)航、移動和操作。你們認為這三個領(lǐng)域中,哪一個目前對我們來說是最具挑戰(zhàn)性的?我們應(yīng)該如何解決它?

SergeyLevine我認為操作是最難的,因為操作需要你理解一個非常多樣化和復(fù)雜的世界,并與它進行物理交互。對于導(dǎo)航來說,我們需要理解一個復(fù)雜的世界,但我們與它的物理交互通常相對簡單。

而對于移動來說,雖然是物理交互,但相對簡單,因為真正被施加力的對象只是機器人本身。

「操作」是真正將所有最困難的挑戰(zhàn)融合在一起的領(lǐng)域。我懷疑,如果我們能找到一個通用且廣泛適用的機器人操作解決方案,那么無論我們想出什么方法來做到這一點,都將為我們解決其他問題提供一個良好的開端。

這并不是說沒有人應(yīng)該研究導(dǎo)航或移動問題:將問題領(lǐng)域隔離起來,使其不那么復(fù)雜,不包含那么多困難因素,可以讓我們通過單獨解決一個挑戰(zhàn)來取得很大進展。

StefanSchaal我同意這個觀點。一切有趣的事情最終都會融合在一起。因此,我們已經(jīng)對固定基座的機械臂進行了操作研究。

但我認為,我們離真正做好還差得很遠。

單獨來看,移動技術(shù)在近年來已經(jīng)變得相當成熟和出色,而導(dǎo)航技術(shù)本身,雖然同時定位與地圖構(gòu)建(SLAM)已經(jīng)存在很長時間了,但在隔離狀態(tài)下進行導(dǎo)航,即在充滿感官輸入和不確定性的世界中進行導(dǎo)航,就像自動駕駛汽車必須解決的問題一樣,顯然要困難得多。

但現(xiàn)在,你可以把所有這些技術(shù)融合在一起,應(yīng)用到人形機器人上,所有這些難題都融合在了一起,你不僅要維持移動中的本體穩(wěn)定性,還要在移動中進行操作。

在這其中,操作仍然是最不成熟的領(lǐng)域。這就是事實,我們必須在這方面取得進步。

陳曦:我想提出一些不同的看法:雖然我同意「操作」是這三個領(lǐng)域中最不成熟的領(lǐng)域,但我認為,將操作視為唯一的核心問題并不完全正確。(這是對兩位嘉賓觀點的夸張概括)

因為我們有針對移動和導(dǎo)航的很多解決方案,但它們并不共享與操作相同的方法論基礎(chǔ)。比如,我們使用SLAM來解決導(dǎo)航問題,然后使用某種局部實時策略來解決局部移動問題,然后再用完全不同的方法來解決操作問題。這并沒有建立起我們對所追求的物理世界的常識性理解。

因此,從某種意義上說,我們還有其他方法可以用來解決導(dǎo)航和移動問題。但我們還面臨著一個更根本的常識性理解問題,這正是我們希望通過基礎(chǔ)模型來解決的。

未來3-5年的前沿方案

羅劍嵐:我認為人們現(xiàn)在對解決機器人問題的不同方法有不同的看法。有人說應(yīng)該通過模擬來解決,有人說應(yīng)該收集數(shù)十億條真實世界的數(shù)據(jù)軌跡,還有人相信模型的力量。

那么,未來三到五年內(nèi),機器人領(lǐng)域的前沿會是什么?

StefanSchaal我最想回到的一個話題是持續(xù)學(xué)習(xí)。我們已經(jīng)有了使用較小機器學(xué)習(xí)模型的持續(xù)學(xué)習(xí)方法,自適應(yīng)控制也是一種可以證明其有效性的方法。但如何將這個概念應(yīng)用到大型模型和大規(guī)模模型中呢?

我們的機器人大多數(shù)時候都在學(xué)習(xí)一些東西,然后執(zhí)行任務(wù)、評估效果,然后再開始學(xué)習(xí)。我們?nèi)匀粨?dān)心如何不斷添加數(shù)據(jù)而不破壞系統(tǒng),不讓系統(tǒng)失控或做出糟糕的事情。

姚卯青:我同意這個觀點。我認為下一個前沿可能是從反饋中學(xué)習(xí)。目前,我們的學(xué)習(xí)策略是先有硬件,然后訓(xùn)練策略。而在未來,我們可能會先有一個策略,然后通過與環(huán)境交互來不斷對其改進,同時從反饋中學(xué)習(xí)。目前,我認為對于強化學(xué)習(xí)來說,效率可能并不是非常理想。因此,如何最好地利用反饋將是下一個前沿。

SergeyLevine也許我可以補充一下。我認為在接下來的幾年里,我們還沒有從根本上驗證在具身智能領(lǐng)域中擴展法則的所有假設(shè),問題是我們還沒有足夠的數(shù)據(jù)量來與語言領(lǐng)域相媲美。

在接下來的幾年里,我們可能仍需要堅持這種推斷,看看我們會達到什么瓶頸。

而且,與語言領(lǐng)域不同的是,機器人處理的是離散化的符號標記或表示,但現(xiàn)實世界是連續(xù)的,更加復(fù)雜的,我們與世界有各種各樣的交互。我認為這些都是我們想要征服的真實前沿。

陳曦:我認為,越來越重要的問題將是如何使用機器人自主收集的數(shù)據(jù),即使這些數(shù)據(jù)可能并不完美。

因為我們正在開發(fā)能夠?qū)C器人帶出實驗室,并進入現(xiàn)實世界的技術(shù)。一旦某樣?xùn)|西變得有用,人們就會大量制造它,就像汽車行業(yè)的案例。

如果我們能有成千上萬甚至數(shù)百萬臺機器人時,那么最重要的就是如何利用它們自然收集的經(jīng)驗來改進它們。這些經(jīng)驗可能不如遠程操作數(shù)據(jù)那么高質(zhì)量,我們也無法像控制模擬器那樣緊密地控制它們。但這將是這些系統(tǒng)獲取大量額外知識的重要來源,我們必須想辦法利用它們。

對青年人才的建議

羅劍嵐:今天在座的有很多學(xué)生和研究人員,其中很多人在過去兩年內(nèi)進入了這個領(lǐng)域。你們對年輕研究人員和學(xué)生有什么建議?對于未來的前沿領(lǐng)域,你們最興奮的是什么?

陳曦:我最興奮的是看到更多機器人執(zhí)行有用的任務(wù)。

雖然我們沒有互聯(lián)網(wǎng)這樣的數(shù)據(jù)源,但我們有一個不同的機會——我們可以從一開始就構(gòu)建對機器人預(yù)訓(xùn)練更有用的數(shù)據(jù)。

如果在座的學(xué)生和研究人員,嘗試用機器人解決大量有用的問題,那么我們就能獲得非常有用和有趣的數(shù)據(jù)。我們有機會從頭開始構(gòu)建一個非常有價值的數(shù)據(jù)集,而不需要(像互聯(lián)網(wǎng)數(shù)據(jù)那樣)從大量垃圾中篩選出有用的信息。

StefanSchaal我們試圖進入物理人工智能領(lǐng)域。因此,我的建議是學(xué)習(xí)物理學(xué)、人工智能和機器學(xué)習(xí)。同時,你還需要學(xué)習(xí)大數(shù)據(jù)科學(xué),因為現(xiàn)在這些都緊密相連。為了實現(xiàn)物理人工智能,我們需要具備所有這些領(lǐng)域知識的人才。

SergeyLevine我認為在選擇研究課題時,要仔細思考這個問題是否僅僅是為了解決便利性問題,還是有可能解決一些根本性問題。

由于我們必須在一定程度上保持實用性,我們往往會陷入一些較小的思維模式中。例如,考慮如何解決實驗室中只有一臺機器人、數(shù)據(jù)昂貴或計算昂貴時遇到的特定挑戰(zhàn)。

有些研究根本問題的工作,最初看起來可能并不實用,但在長期內(nèi),在規(guī)模更大、資源更多的情況下,它們可能會變得非常重要。

保羅·克里斯蒂亞諾關(guān)于基于人類偏好的深度強化學(xué)習(xí)的工作就是一個例子:當這項工作完成時,他通過在一個小型模擬跳躍器上實現(xiàn)后空翻來測試它,這看起來似乎讓深度強化學(xué)習(xí)變得更加不實用,因為它需要人的參與來提供偏好。但多年后,這成為了基于人類反饋的強化學(xué)習(xí)(RLHF)的基礎(chǔ),現(xiàn)在我們經(jīng)常用它來微調(diào)大型語言模型。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
張倫碩吐槽鐘麗緹買50萬水晶裙,得知是老婆自己錢后依舊不依不饒

張倫碩吐槽鐘麗緹買50萬水晶裙,得知是老婆自己錢后依舊不依不饒

觀魚聽雨
2026-04-08 19:35:53
筱梅更新動態(tài)!今天回北京,已在候機室等待,回京前和閨蜜聚餐

筱梅更新動態(tài)!今天回北京,已在候機室等待,回京前和閨蜜聚餐

潮鹿逐夢
2026-04-10 17:31:53
江蘇省掛號費最貴的十位醫(yī)生

江蘇省掛號費最貴的十位醫(yī)生

華庭講美食
2026-04-10 12:09:24
不裝窮了!解放軍王牌集體亮相,永暑礁神秘部隊首次曝光

不裝窮了!解放軍王牌集體亮相,永暑礁神秘部隊首次曝光

說宇宙
2026-04-10 14:53:39
樊振東棄賽不到2天,荒唐的一幕出現(xiàn),原來他和全紅嬋處境一樣

樊振東棄賽不到2天,荒唐的一幕出現(xiàn),原來他和全紅嬋處境一樣

科學(xué)發(fā)掘
2026-04-10 18:53:33
華國鋒題字震驚眾人!沒練書法的人寫得竟比高手還好!

華國鋒題字震驚眾人!沒練書法的人寫得竟比高手還好!

書畫相約
2026-04-10 08:19:50
大陸發(fā)布實彈射擊公告,民進黨立馬抓住機會:這都是鄭麗文的錯

大陸發(fā)布實彈射擊公告,民進黨立馬抓住機會:這都是鄭麗文的錯

兵器海陸空視頻
2026-04-10 19:09:27
怕遭中方報復(fù)?巴拿馬搶在賠款前,主動放低姿態(tài),李嘉誠全面清倉

怕遭中方報復(fù)?巴拿馬搶在賠款前,主動放低姿態(tài),李嘉誠全面清倉

叮當當科技
2026-04-10 16:22:25
《冰湖重生》開播零廣!制片張萌直播當場落淚,全因啟用黃楊鈿甜

《冰湖重生》開播零廣!制片張萌直播當場落淚,全因啟用黃楊鈿甜

好賢觀史記
2026-04-10 14:30:58
開路虎加油逃單后續(xù):正臉曝光社死,身份被扒還是慣犯,警方介入

開路虎加油逃單后續(xù):正臉曝光社死,身份被扒還是慣犯,警方介入

離離言幾許
2026-04-10 17:14:42
《妻子浪漫旅行》最尷尬的夫妻,話少還裝甜蜜,沒李純馬頔自然

《妻子浪漫旅行》最尷尬的夫妻,話少還裝甜蜜,沒李純馬頔自然

一娛三分地
2026-04-09 19:22:11
樊振東退出世乒賽震動世界乒壇,多國名將、權(quán)威媒體紛紛發(fā)聲

樊振東退出世乒賽震動世界乒壇,多國名將、權(quán)威媒體紛紛發(fā)聲

觀察鑒娛
2026-04-10 09:24:46
綠營將“追殺”鄭麗文,爆料稱高層交代不放過一人,直到達成目的

綠營將“追殺”鄭麗文,爆料稱高層交代不放過一人,直到達成目的

諦聽骨語本尊
2026-04-10 18:30:15
人都死了,才罰7.6萬?越看越不對勁

人都死了,才罰7.6萬?越看越不對勁

走讀新生
2026-04-09 15:37:03
張雪峰離世18天,公司變化大!10點上班7點到,武亮做出三大承諾

張雪峰離世18天,公司變化大!10點上班7點到,武亮做出三大承諾

叨嘮
2026-04-10 19:29:26
來了來了!曝將加盟CBA!完勝楊瀚森的大中鋒

來了來了!曝將加盟CBA!完勝楊瀚森的大中鋒

籃球?qū)崙?zhàn)寶典
2026-04-10 18:10:45
業(yè)績炸裂!飆升5383%,半導(dǎo)體+AI算力霸主,劍指下一個“寒王”!

業(yè)績炸裂!飆升5383%,半導(dǎo)體+AI算力霸主,劍指下一個“寒王”!

慧眼看世界哈哈
2026-04-10 09:28:19
SpaceX去年營收超185億美元,虧損近50億美元

SpaceX去年營收超185億美元,虧損近50億美元

界面新聞
2026-04-10 08:27:09
路虎加完油逃單后續(xù):調(diào)查線索斷警方結(jié)案,為啥不查網(wǎng)友一語中的

路虎加完油逃單后續(xù):調(diào)查線索斷警方結(jié)案,為啥不查網(wǎng)友一語中的

潮鹿逐夢
2026-04-10 15:28:06
洛克希德馬丁公司宣傳“超級大力神”為美軍在伊朗損失C-130洗地

洛克希德馬丁公司宣傳“超級大力神”為美軍在伊朗損失C-130洗地

hawk26講武堂
2026-04-10 13:09:52
2026-04-10 22:00:49
RoboX
RoboX
關(guān)注智能汽車、機器人在內(nèi)的具身智能前沿科技
237文章數(shù) 2關(guān)注度
往期回顧 全部

科技要聞

馬斯克狂發(fā)大火箭也養(yǎng)不起AI 年虧50億美元

頭條要聞

媒體:美伊談判即將開始 黎巴嫩對美來說是塊燙手山芋

頭條要聞

媒體:美伊談判即將開始 黎巴嫩對美來說是塊燙手山芋

體育要聞

17歲賺了一百萬美元,25歲被CBA裁員

娛樂要聞

黃景瑜王玉雯否認戀情!聚會細節(jié)被扒

財經(jīng)要聞

李強主持召開經(jīng)濟形勢專家和企業(yè)家座談會

汽車要聞

搭載第二代刀片電池及閃充技術(shù) 騰勢N8L閃充版預(yù)售35萬起

態(tài)度原創(chuàng)

旅游
本地
家居
健康
藝術(shù)

旅游要聞

“峨眉山不辜負每一個堅持到頂?shù)娜恕币裏嶙h,管委會解密:分時預(yù)約和兜底運輸保障游客舒心游

本地新聞

12噸巧克力有難,全網(wǎng)化身超級偵探添亂

家居要聞

復(fù)古風(fēng)格 自然簡約

干細胞抗衰4大誤區(qū),90%的人都中招

藝術(shù)要聞

于小冬2026年4月油畫新作《花季》

無障礙瀏覽 進入關(guān)懷版