国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

二元成功率已經(jīng)過(guò)時(shí)!PRM-as-a-Judge是你需要的具身操作評(píng)測(cè)框架

0
分享至



隨著機(jī)器人操作從短程、單步技能逐步走向長(zhǎng)程、富接觸、需要持續(xù)協(xié)調(diào)與恢復(fù)能力的復(fù)雜任務(wù),傳統(tǒng)以二元成功率為核心的評(píng)測(cè)方式開(kāi)始暴露出明顯局限。它能夠回答 “任務(wù)是否完成”,卻難以回答 “策略推進(jìn)到了哪里”“執(zhí)行過(guò)程是否高效穩(wěn)定”“失敗究竟發(fā)生在什么階段”。

圍繞這一問(wèn)題,來(lái)自中國(guó)科學(xué)院自動(dòng)化研究所、北京大學(xué)和智源研究院等機(jī)構(gòu)的研究人員提出PRM-as-a-Judge:不再只根據(jù)終局結(jié)果評(píng)價(jià)策略,而是從軌跡視頻中恢復(fù)任務(wù)相關(guān)的連續(xù)進(jìn)度信號(hào),并據(jù)此對(duì)執(zhí)行過(guò)程進(jìn)行細(xì)粒度審計(jì)。該框架的核心包括任務(wù)條件化的進(jìn)度勢(shì)能、OPD 三層指標(biāo)體系,以及用于驗(yàn)證評(píng)估器細(xì)粒度分辨能力的 RoboPulse 基準(zhǔn)。



  • 論文標(biāo)題:PRM-as-a-Judge: A Dense Evaluation Paradigm for Fine-Grained Robotic Auditing
  • 論文鏈接:https://arxiv.org/abs/2603.21669
  • 網(wǎng)頁(yè)鏈接:https://prm-as-a-judge.github.io/
  • 代碼鏈接:https://github.com/Yuheng2000/PRM-as-a-Judge
  • Benchmark 鏈接:https://huggingface.co/datasets/yuheng2000/RoboPulse

1. 為什么二元成功率不足以評(píng)估長(zhǎng)程任務(wù)?

在現(xiàn)有具身智能研究中,策略評(píng)估仍然高度依賴二元成功率。對(duì)于短程、結(jié)構(gòu)清晰的任務(wù),這一指標(biāo)能夠提供一種直觀的比較方式;但當(dāng)任務(wù)逐漸演化為長(zhǎng)程、多階段、強(qiáng)交互的復(fù)雜操作時(shí),二元成功率所能提供的信息開(kāi)始明顯不足。

這種不足主要體現(xiàn)在兩個(gè)方面。

  • 首先是分辨率不足。二元標(biāo)簽只能回答 “最終是否成功”,卻無(wú)法刻畫軌跡內(nèi)部的關(guān)鍵差異。一個(gè)已經(jīng)接近完成、卻在最后階段失手的軌跡,與一個(gè)在早期就明顯偏離目標(biāo)的軌跡,往往都會(huì)被統(tǒng)一記為失敗。這樣一來(lái),不同方法在任務(wù)推進(jìn)深度上的真實(shí)差異就被壓縮掉了。
  • 其次是診斷能力有限。成功率無(wú)法回答機(jī)器人是 “如何成功” 的,也無(wú)法解釋它 “為何失敗”。一次平穩(wěn)高效的成功執(zhí)行,與一次依賴多次冗余修正后才勉強(qiáng)完成的軌跡,在結(jié)果層面可能完全相同;同樣,停滯、回退、恢復(fù)失敗等過(guò)程特征,也不會(huì)在最終標(biāo)簽中留下痕跡。對(duì)于需要進(jìn)一步定位瓶頸、優(yōu)化策略行為的研究而言,這種信息缺失會(huì)直接限制后續(xù)分析的深度。

因此,對(duì)于長(zhǎng)程任務(wù)來(lái)說(shuō),決定策略優(yōu)劣的關(guān)鍵已經(jīng)不再只是終點(diǎn)上的 “成功” 與 “失敗”,而是執(zhí)行過(guò)程中究竟推進(jìn)到了哪一階段、推進(jìn)得是否穩(wěn)定,以及失效究竟發(fā)生在什么位置。



相同的二元標(biāo)簽下隱藏著截然不同的物理執(zhí)行邏輯。失敗可能發(fā)生在任務(wù)的任何階段(從 5% 到 99% 進(jìn)度),而成功亦有 “平穩(wěn)高效” 與 “反復(fù)修正” 之分 。

2. 從結(jié)果判定到過(guò)程級(jí)評(píng)測(cè)

為了恢復(fù)被二元標(biāo)簽壓縮掉的軌跡信息,作者將評(píng)測(cè)重心從 “結(jié)果” 轉(zhuǎn)向 “過(guò)程”。在真實(shí)物理場(chǎng)景中,研究者通常拿不到模擬器中的特權(quán)信息,例如精確位姿、接觸力或完整狀態(tài)變量。

因此,這項(xiàng)工作沒(méi)有把評(píng)測(cè)建立在這些理想化信號(hào)上,而是選擇了一條更具現(xiàn)實(shí)意義的路徑:直接根據(jù)視覺(jué)狀態(tài)的演化來(lái)刻畫任務(wù)進(jìn)度。

具體來(lái)說(shuō),作者為給定任務(wù)條件下的每個(gè)狀態(tài)分配一個(gè)位于 [0,1] 區(qū)間上的進(jìn)度勢(shì)能 Φ。一旦有了這個(gè)勢(shì)能表示,一條原本只對(duì)應(yīng) “成功/失敗” 標(biāo)簽的執(zhí)行軌跡,就可以被表示為一條隨時(shí)間變化的連續(xù)進(jìn)度曲線。這樣,研究者看到的就不再只是一個(gè)終點(diǎn)結(jié)果,而是一條可比較、可分解、可診斷的過(guò)程信號(hào):軌跡推進(jìn)得有多深,推進(jìn)過(guò)程中是否反復(fù)回退,哪些階段容易停滯,都可以被顯式刻畫出來(lái)。

3. 一個(gè)合格的密集評(píng)測(cè)器,需要滿足什么條件?

在這一框架下,作者進(jìn)一步把 “密集評(píng)測(cè)” 形式化為兩個(gè)核心性質(zhì)。

第一個(gè)是macro-consistency。它要求評(píng)測(cè)結(jié)果在時(shí)間上具有可加性和路徑一致性:同一段執(zhí)行過(guò)程,無(wú)論如何切分為更短的時(shí)間片,其累積進(jìn)度都應(yīng)保持一致。換句話說(shuō),評(píng)測(cè)結(jié)果不能隨著軌跡分段方式的改變而漂移。

第二個(gè)是micro-resolution。它要求評(píng)測(cè)器能夠識(shí)別細(xì)粒度、任務(wù)相關(guān)的狀態(tài)變化,而不是只對(duì)粗粒度視覺(jué)差異做出反應(yīng)。

作者進(jìn)一步指出,在其采用的 potential-based formulation 中,只要評(píng)測(cè)器能夠在固定任務(wù)上下文下,為每個(gè)狀態(tài)賦予一個(gè)可比較的標(biāo)量進(jìn)度值,并將任意時(shí)間區(qū)間上的進(jìn)度定義為兩個(gè)狀態(tài)勢(shì)能的差值,那么宏觀上的時(shí)間加性與分段不變性就可以直接得到保證。PRM judge 在這里被作者視為這種表述的一個(gè)自然且實(shí)用的實(shí)現(xiàn):它通過(guò)任務(wù)條件化的標(biāo)量進(jìn)度輸出,為 OPD 指標(biāo)提供統(tǒng)一的進(jìn)度坐標(biāo)。

相比之下,許多依賴相對(duì)比較或相似度啟發(fā)式的方法,往往并不顯式對(duì)應(yīng)這樣一個(gè)全局一致的勢(shì)能表示,因此在不同時(shí)間段、不同視角或不同比較基準(zhǔn)下,更容易出現(xiàn)尺度漂移或路徑相關(guān)的問(wèn)題。至于 micro-resolution,則不能僅由這種結(jié)構(gòu)性定義自動(dòng)推出,而仍需通過(guò)專門的診斷基準(zhǔn)進(jìn)行檢驗(yàn)。

4. OPD:把一條軌跡拆成三層可解釋信號(hào)

在進(jìn)度勢(shì)能 Φ 的基礎(chǔ)上,作者構(gòu)建了OPD(Outcome–Process–Diagnosis)指標(biāo)體系,用于把一條復(fù)雜執(zhí)行軌跡分解為三個(gè)層次的審計(jì)結(jié)果。Outcome 層回答 “推進(jìn)到了哪里”,Process 層回答 “推進(jìn)得怎么樣”,Diagnosis 層回答 “如果沒(méi)做好,問(wèn)題主要出在哪里”。這也是 PRM-as-a-Judge 的核心輸出形式。

在Outcome層,作者采用 MC 和 MP 兩個(gè)指標(biāo)描述推進(jìn)深度。其中,MC(Milestone Coverage)用于刻畫軌跡到達(dá)了哪些關(guān)鍵里程碑,MP(Max Progress)則記錄整段軌跡曾達(dá)到的最高連續(xù)進(jìn)度值。它們共同回答的是:這條軌跡究竟走到了什么位置。

在Process層,作者定義了 PPL(Path-weighted Progress Length),用于衡量推進(jìn)是否高效、是否存在明顯冗余。PPL 越高,說(shuō)明軌跡越接近單調(diào)推進(jìn)、回繞和反復(fù)修正越少。它對(duì)應(yīng)的是 “同樣推進(jìn)到某個(gè)位置,不同策略的路徑質(zhì)量是否一致” 這一問(wèn)題。

在Diagnosis層,作者使用 CRA 和 STR 刻畫兩類常見(jiàn)失效機(jī)制。CRA(Cumulative Regret Area)衡量軌跡相對(duì)于歷史最佳狀態(tài)的累計(jì)回退程度;STR(Stagnation Ratio)則衡量軌跡中 “幾乎沒(méi)有任務(wù)相關(guān)推進(jìn)” 的時(shí)間占比,用于反映猶豫、等待或停滯。與單一成功率相比,OPD 的價(jià)值不在于 “多報(bào)幾個(gè)數(shù)”,而在于它把執(zhí)行過(guò)程重寫為結(jié)構(gòu)化、可診斷的行為信號(hào)。



OPD 將一次執(zhí)行分解為三層信號(hào):Outcome 刻畫推進(jìn)深度,Process 刻畫執(zhí)行質(zhì)量,Diagnosis 刻畫失敗機(jī)制。五個(gè)核心指標(biāo) MC、MP、PPL、CRA 與 STR 分別對(duì)應(yīng)階段可達(dá)性、最大進(jìn)度、路徑效率、回退代價(jià)與停滯比例。

5. RoboPulse:評(píng)估器是否真的具備細(xì)粒度分辨能力?

有了理論上的性質(zhì)約束和過(guò)程級(jí)指標(biāo)之后,接下來(lái)的關(guān)鍵問(wèn)題是:評(píng)估器是否真的能看懂微小但任務(wù)相關(guān)的物理變化?

為此,作者構(gòu)建了RoboPulse。論文明確指出,在該框架下,macro-consistency 由勢(shì)能形式在結(jié)構(gòu)上保證,而 micro-resolution 則需要通過(guò)受控實(shí)驗(yàn)進(jìn)行檢驗(yàn);RoboPulse 正是圍繞這一點(diǎn)設(shè)計(jì)的診斷基準(zhǔn)。

RoboPulse 將進(jìn)度評(píng)測(cè)轉(zhuǎn)化為一個(gè)成對(duì)判斷問(wèn)題:給定來(lái)自同一執(zhí)行軌跡的兩個(gè)狀態(tài),評(píng)估器需要判斷后一個(gè)狀態(tài)相對(duì)于前一個(gè)狀態(tài),是 “前進(jìn)” 還是 “回退”。這種設(shè)計(jì)不依賴絕對(duì)進(jìn)度標(biāo)定,而是直接考察更本質(zhì)的能力:當(dāng)物理變化很細(xì)微時(shí),評(píng)估器是否仍能穩(wěn)定識(shí)別出進(jìn)度方向。作者在構(gòu)建基準(zhǔn)時(shí),先用關(guān)鍵幀把軌跡劃分為語(yǔ)義一致的階段,只保留進(jìn)度單調(diào)的區(qū)間,過(guò)濾掉近靜止、往復(fù)振蕩和難以標(biāo)注的片段,再在這些區(qū)間內(nèi)按 Small、Medium、Large 三個(gè) hop 范圍采樣樣本。

從規(guī)模上看,RoboPulse 包含1800個(gè)成對(duì)進(jìn)度判斷樣本,這些樣本來(lái)自1622條執(zhí)行軌跡、覆蓋816個(gè)任務(wù),并匯集了7個(gè)數(shù)據(jù)源?;鶞?zhǔn)同時(shí)覆蓋真實(shí)機(jī)器人、仿真、UMI 采集和人類第一視角等多種設(shè)置,并在不同相對(duì)進(jìn)度跨度上系統(tǒng)考察評(píng)估器的分辨能力。



RoboPulse 涵蓋了多個(gè)數(shù)據(jù)源和不同的本體型號(hào),用于評(píng)估 judge model 的微觀進(jìn)度分辨能力。

在 RoboPulse 上,作者將 PRM-based judges 與兩類常見(jiàn)替代方案進(jìn)行比較:一類是基于 CLIP 的視覺(jué)相似度評(píng)測(cè)方法,另一類是通用多模態(tài)基礎(chǔ)模型,如 Gemini、GPT-5.2。實(shí)驗(yàn)結(jié)果顯示,PRM 在細(xì)粒度進(jìn)度判斷上整體表現(xiàn)更強(qiáng)。以 Robo-Dopamine 為例,其總體準(zhǔn)確率達(dá)到 0.83;Gemini 為 0.66,Qwen3-VL-8B 為 0.59,而多種 CLIP 變體整體落在 0.46–0.59 區(qū)間。

更關(guān)鍵的是,在最具挑戰(zhàn)性的 Small-hop 區(qū)間,優(yōu)勢(shì)會(huì)進(jìn)一步擴(kuò)大。Robo-Dopamine 的平均準(zhǔn)確率達(dá)到 0.80;另外兩個(gè) PRM judge 也達(dá)到 0.61 和 0.63。相比之下,Gemini 在該區(qū)間為 0.54,GPT-5.2 為 0.47。論文據(jù)此指出,當(dāng)比較尺度變得足夠細(xì)時(shí),粗粒度語(yǔ)義線索的幫助會(huì)下降,而真正與物理過(guò)程相關(guān)的進(jìn)度監(jiān)督會(huì)體現(xiàn)出更明顯優(yōu)勢(shì)。



在 RoboPulse 基準(zhǔn)上,PRM-based judges 在不同相對(duì)進(jìn)度跨度下均表現(xiàn)出更強(qiáng)的分辨能力,在最困難的 Small-hop 區(qū)間優(yōu)勢(shì)尤為顯著,證明其對(duì)細(xì)微、任務(wù)相關(guān)的物理狀態(tài)變化具備極高的敏感性。

6. 用 OPD 重新審視真實(shí)策略軌跡

在驗(yàn)證了 judge 的 micro-resolution 之后,作者進(jìn)一步將 PRM-as-a-Judge 應(yīng)用于 RoboTwin 2.0 ,并選擇了 5 類代表性的 policy 模型(DP、ACT、RDT、pi0、OpenVLA-OFT),在多個(gè)長(zhǎng)程操作任務(wù)上統(tǒng)一評(píng)測(cè),每個(gè)策略 - 任務(wù)組合進(jìn)行 50 次 rollout。

6.1 失敗究竟發(fā)生在什么階段?

Outcome 層最直接的價(jià)值,是把 “失敗” 進(jìn)一步分解為不同階段的失敗。以 Blocks Ranking RGB 為例,大多數(shù)策略在早期階段的可達(dá)性都不低:MC@25 落在 84–100 區(qū)間;但到了最終完成階段,MC@100 只剩 0–8。這說(shuō)明大量 rollout 并不是 “一開(kāi)始就不會(huì)”,而是在已經(jīng)取得相當(dāng)推進(jìn)后,集中失效在末段階段。

更進(jìn)一步,OPD 還能區(qū)分 “同樣是零成功率” 但物理含義完全不同的策略。例如在同一任務(wù)上,pi0 的 MC@75 為 40,而 OpenVLA-OFT 的 MC@75 僅為 6,盡管兩者的 MC@100 都接近于零。前者的失敗通常更接近終點(diǎn),后者則更容易在中早期階段提前掉隊(duì)。這類差異,在傳統(tǒng)成功率下是不可見(jiàn)的。



階段性可達(dá)性揭示了 “最后一公里” 的差距,并將早期崩潰與近乎完全的故障區(qū)分開(kāi)來(lái)。

6.2 成功與成功,并不等價(jià)

為了評(píng)價(jià) policy model 在成功條件下的執(zhí)行質(zhì)量,作者選取了 Handover Mic 任務(wù)上成功的樣本進(jìn)行了分析。結(jié)果顯示,DP 在成功樣本中的 PPL 為 94.9,高于若干對(duì)比方法;同時(shí)其 CRA 僅為 0.26,也顯著低于 OpenVLA-OFT 的 2.55。這意味著,DP 一旦進(jìn)入成功軌道,往往能夠以更高效率、更低回退代價(jià)完成任務(wù)。

但這并不意味著它在總體上最可靠。結(jié)合 Outcome 層結(jié)果可以看到,DP 在 Handover Mic 上的 MC@100 只有 44,而另外一些策略則達(dá)到 98 甚至 100。論文據(jù)此指出:成功條件下的高質(zhì)量執(zhí)行,不必然等于更高的總體可靠性。 有些方法在 “成功時(shí)” 做得非常漂亮,但它們?cè)谑r(shí),完全沒(méi)有從錯(cuò)誤中恢復(fù)的能力。



成功條件下的執(zhí)行質(zhì)量圖:在成功樣本內(nèi)部,不同策略仍然可能呈現(xiàn)顯著不同的執(zhí)行質(zhì)量。路徑效率與回退代價(jià)共同表明:成功并不自動(dòng)意味著高質(zhì)量成功,高精度執(zhí)行與整體可靠性也并不總是一致。

6.3 “失敗” 也有不同機(jī)制

Diagnosis 層則把原本統(tǒng)一的失敗標(biāo)簽,進(jìn)一步拆解為不同的失效機(jī)制。以 Place Bread Basket 任務(wù)為例,OpenVLA-OFT 的 MP 達(dá)到 92.6,說(shuō)明它常常能夠推進(jìn)到相當(dāng)靠后的位置;但其 CRA 達(dá)到 26.3,顯示出明顯的晚期回退和恢復(fù)代價(jià)。與之相對(duì),ACT 在該任務(wù)上的 MP 為 73.1,而 STR 達(dá)到 65.4,更接近一種早期停滯主導(dǎo)的失敗模式。

類似地,在 Handover Mic 上,DP 的失敗更偏向高停滯,即 STR 為 57.2;OpenVLA-OFT 則表現(xiàn)為更高的回退和較低效率,其 PPL 為 66.2,CRA 為 5.66。作者據(jù)此提出,OPD 給出的并不是簡(jiǎn)單的 “好 / 壞” 排序,而是一種可復(fù)現(xiàn)的 failure fingerprint:不同策略家族會(huì)在 OPD 空間中表現(xiàn)出相對(duì)穩(wěn)定的失效畫像,這種畫像能夠?yàn)楹罄m(xù)改進(jìn)提供更具針對(duì)性的方向。



失敗指紋圖:在失敗樣本上,CRA 與 STR 將 failure 從單一終局標(biāo)簽進(jìn)一步拆解為不同機(jī)制:有些策略更接近晚期失穩(wěn)與明顯回退,有些策略則更表現(xiàn)為長(zhǎng)時(shí)間停滯和推進(jìn)不足。相同的 “失敗” 標(biāo)簽背后,可能對(duì)應(yīng)完全不同的原因。

6.4 差異體現(xiàn)在指標(biāo)聯(lián)合畫像中

作者也將 OPD 框架應(yīng)用到RoboChallenge Table30公開(kāi)榜單比較中,使用 Robo-Dopamine-2.0-8B-Preview 作為評(píng)估器,對(duì)不同模型在真實(shí)執(zhí)行中的軌跡特征進(jìn)行統(tǒng)一分析。

從 OPD 指標(biāo)下的 RoboChallenge 總榜來(lái)看,可以清楚地發(fā)現(xiàn):真正拉開(kāi)方法差距的,往往不只是 “最后是否完成”,而是推進(jìn)深度、執(zhí)行質(zhì)量與失敗形態(tài)這幾類信號(hào)的共同作用。在頭部模型中,DM0 的優(yōu)勢(shì)并不只是更常完成任務(wù),而是同時(shí)體現(xiàn)在推進(jìn)深度和執(zhí)行質(zhì)量上:它不僅擁有最高的 Avg MC@100(62.0),也同時(shí)在 Avg MP(70.3)和 Avg PPL(31.2)上領(lǐng)先。這說(shuō)明它的領(lǐng)先并不是單純依賴更高的終局完成率,而是同時(shí)來(lái)自更深的平均可達(dá)性和更高的執(zhí)行效率。

相比之下,GigaBrain-0.1 雖然在 Avg MP 上幾乎與 DM0 持平,但 Avg PPL(26.2)明顯更低,說(shuō)明它雖然能夠推進(jìn)到接近的位置,路徑質(zhì)量卻相對(duì)較差。因此,OPD 所刻畫的并不只是誰(shuí)成功更多,而是誰(shuí)的成功更接近高效、平穩(wěn)、少修正的成功。



OPD 指標(biāo)下的 RoboChallenge Table30 總榜:DM0 擁有最高的 Avg MC@100,Avg MP 和 Avg PPL,其成功來(lái)自更高水平的推進(jìn)深度和執(zhí)行質(zhì)量;GigaBrain-0.1 則呈現(xiàn)出 “最后一公里” 差距。詳細(xì)指標(biāo)見(jiàn)官方博客:https://prm-as-a-judge.github.io/leaderboard.html

與之相比,GigaBrain-0.1 則呈現(xiàn)出一種更典型的 “最后一公里” 差距。它的 Avg MP 達(dá)到 70.1,與 DM0 的 70.3 幾乎相同,但 Avg MC@100 卻只有 51.7,相比 DM0 的 62.0 明顯更低,說(shuō)明兩者并不是在 “能否把軌跡推進(jìn)到高進(jìn)度區(qū)間” 上存在本質(zhì)差異,而是在 “能否把已經(jīng)獲得的高進(jìn)度穩(wěn)定轉(zhuǎn)化為最終完成” 上拉開(kāi)了距離。把 Avg MP 和 MC@100 一起納入分析后就會(huì)發(fā)現(xiàn),GigaBrain-0.1 在末段收束上仍然存在缺口。

值得注意的是,回退、停滯與推進(jìn)深度不能被割裂地理解。RoboChallenge 中 RDT-1B 的 Avg MC@100 只有 15.0,但 Avg CRA 卻僅為 5.3,是總榜中最低的一檔;這并不意味著它的執(zhí)行更平滑,而更說(shuō)明其整體推進(jìn)深度本就有限,因此較少出現(xiàn)推進(jìn)到后期再明顯回退的情況。

相對(duì)地,wall-oss-v0.1 的 Avg MP 仍達(dá)到 59.7,說(shuō)明它并非完全缺乏推進(jìn)能力,但其 Avg STR 高達(dá) 41.2,則顯示出更明顯的停滯和低效推進(jìn)。低回退或中等進(jìn)度本身都不足以說(shuō)明執(zhí)行更強(qiáng)或更順;OPD 的價(jià)值不在于提供彼此孤立的若干指標(biāo),而在于通過(guò) Outcome、Process 與 Diagnosis 三層信號(hào)的聯(lián)合刻畫,更完整地揭示軌跡的推進(jìn)狀態(tài)、執(zhí)行質(zhì)量與失效機(jī)制。



9 個(gè)模型在 RoboChallenge Table30 上的整體表現(xiàn):OPD 指標(biāo)提供了聯(lián)合而非孤立的軌跡畫像,通過(guò) Outcome、Process 與 Diagnosis 三層信號(hào)的統(tǒng)一刻畫,揭示模型走到了哪里、走得如何,以及問(wèn)題主要出現(xiàn)在什么階段。

7. 交互式軌跡審計(jì):把指標(biāo)變化和物理行為對(duì)齊

除了論文和基準(zhǔn),項(xiàng)目博客還提供了交互式軌跡分析界面。用戶可以在頁(yè)面中同步查看視頻播放、進(jìn)度曲線以及 MC、MP、PPL、CRA、STR 等核心指標(biāo),并隨著時(shí)間軸拖動(dòng)觀察它們?nèi)绾螌?shí)時(shí)更新。博客將這一模塊定位為單條軌跡的完整時(shí)間審計(jì)工具:進(jìn)度上升、回退和停滯,不再只是抽象曲線,而能和具體物理行為逐幀對(duì)應(yīng)起來(lái)。

讀者可進(jìn)一步訪問(wèn)項(xiàng)目主頁(yè)與博客中的交互式 Demo,查看單條軌跡的逐幀審計(jì)結(jié)果https://prm-as-a-judge.github.io/blog.html

8. 總結(jié):從 “是否完成” 走向 “如何完成”

PRM-as-a-Judge 的意義,不只是對(duì) success rate 做一次補(bǔ)充,而是把機(jī)器人評(píng)測(cè)從終局判定推進(jìn)到了過(guò)程刻畫。借助任務(wù)條件化的進(jìn)度勢(shì)能、OPD 三層指標(biāo)體系以及 RoboPulse 的細(xì)粒度驗(yàn)證,這項(xiàng)工作把原本被壓縮為單一標(biāo)簽的執(zhí)行軌跡,重新表示為可解釋、可比較、可診斷的過(guò)程信號(hào)。

對(duì)于越來(lái)越長(zhǎng)程、越來(lái)越復(fù)雜的具身操作任務(wù)來(lái)說(shuō),單一二元標(biāo)簽已經(jīng)很難完整反映模型行為的真實(shí)差異。相比只比較 “做沒(méi)做成”,過(guò)程級(jí)審計(jì)更關(guān)心 “推進(jìn)到了哪里”“成功得是否高效穩(wěn)定”“失敗主要由什么機(jī)制導(dǎo)致”。從這個(gè)意義上說(shuō),PRM-as-a-Judge 提供的不只是一個(gè)新指標(biāo)系統(tǒng),更是一種更適合長(zhǎng)程機(jī)器人任務(wù)的評(píng)測(cè)視角。

該團(tuán)隊(duì)表示:「我們也呼吁更多 benchmark 組織者與模型開(kāi)發(fā)者,在提交 leaderboard 結(jié)果的同時(shí)公開(kāi)執(zhí)行視頻與 rollout 證據(jù),讓機(jī)器人評(píng)測(cè)從 “只看分?jǐn)?shù)” 進(jìn)一步走向 “可回放、可核查、可診斷”。只有當(dāng)軌跡本身是開(kāi)放和透明的,我們才真正有機(jī)會(huì)比較不同策略在推進(jìn)深度、執(zhí)行質(zhì)量與失敗模式上的真實(shí)差異,而不僅僅停留在最終是否完成任務(wù)這一單點(diǎn)結(jié)論。

我們也期待與更多基準(zhǔn)團(tuán)隊(duì)和研究者協(xié)作,把這種面向過(guò)程的稠密審計(jì)擴(kuò)展到更廣泛的機(jī)器人任務(wù)中,共同建立一個(gè)跨 benchmark、可復(fù)核、可演進(jìn)的透明評(píng)測(cè)生態(tài)。評(píng)測(cè)不應(yīng)只是終點(diǎn)處的一次裁決,而應(yīng)成為理解機(jī)器人行為、診斷系統(tǒng)能力邊界、推動(dòng)社區(qū)共同進(jìn)步的基礎(chǔ)設(shè)施?!?/p>

作者簡(jiǎn)介

本文第一作者冀昱衡,為中國(guó)科學(xué)院自動(dòng)化研究所博士生,研究方向?yàn)榫呱碇悄芘c基礎(chǔ)模型,已在 NeurIPS、CVPR、AAAI、ACM MM 等國(guó)際頂級(jí)會(huì)議上發(fā)表多篇論文,通訊作者為仉尚航助理教授和鄭曉龍研究員。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
5月1日正式落地!醫(yī)院全面大整改,老百姓看病再也不用遭罪了!

5月1日正式落地!醫(yī)院全面大整改,老百姓看病再也不用遭罪了!

老特有話說(shuō)
2026-04-19 15:35:43
匈牙利巨變:記者繼續(xù)當(dāng)喉舌是羞恥的

匈牙利巨變:記者繼續(xù)當(dāng)喉舌是羞恥的

黔有虎
2026-04-18 20:58:58
太尷尬了!9個(gè)姐妹聚餐,臨時(shí)倡議各邀請(qǐng)一男生,竟然無(wú)一人到場(chǎng)

太尷尬了!9個(gè)姐妹聚餐,臨時(shí)倡議各邀請(qǐng)一男生,竟然無(wú)一人到場(chǎng)

火山詩(shī)話
2026-04-19 08:06:38
長(zhǎng)沙火了!全球最大零食店開(kāi)業(yè)3天就被擠停售,背后真相曝光

長(zhǎng)沙火了!全球最大零食店開(kāi)業(yè)3天就被擠停售,背后真相曝光

西昆侖Bruce
2026-04-19 19:52:58
什么原因??jī)H僅一百五十年,江陰靖江長(zhǎng)江江面居然縮窄了80%

什么原因??jī)H僅一百五十年,江陰靖江長(zhǎng)江江面居然縮窄了80%

抽象派大師
2026-04-20 01:27:38
協(xié)議即將達(dá)成!美國(guó)聯(lián)合27國(guó),準(zhǔn)備廢除中國(guó)王牌,中國(guó)一點(diǎn)都不慌

協(xié)議即將達(dá)成!美國(guó)聯(lián)合27國(guó),準(zhǔn)備廢除中國(guó)王牌,中國(guó)一點(diǎn)都不慌

福建睿平
2026-04-19 07:50:32
41歲C羅獲評(píng)7.3分:打入第969球,率隊(duì)4-0進(jìn)亞冠二級(jí)4強(qiáng),太牛了

41歲C羅獲評(píng)7.3分:打入第969球,率隊(duì)4-0進(jìn)亞冠二級(jí)4強(qiáng),太牛了

俯身沖頂
2026-04-19 23:59:09
湖人1比0火箭:勒布朗比烏度卡像教練

湖人1比0火箭:勒布朗比烏度卡像教練

張佳瑋寫字的地方
2026-04-19 12:13:14
堂姐讓我擔(dān)保388萬(wàn),拒絕后被全家罵,銀行上門見(jiàn)擔(dān)保書全家傻眼

堂姐讓我擔(dān)保388萬(wàn),拒絕后被全家罵,銀行上門見(jiàn)擔(dān)保書全家傻眼

刺頭體育
2026-04-19 02:37:31
比黃金還稀缺!比爾蓋茨、社保重倉(cāng)硬科技龍頭,全是高成長(zhǎng)+高roe

比黃金還稀缺!比爾蓋茨、社保重倉(cāng)硬科技龍頭,全是高成長(zhǎng)+高roe

長(zhǎng)風(fēng)價(jià)值掘金
2026-04-19 11:03:37
隨著41歲C羅破門+利雅得勝利4-0,亞冠二級(jí)4強(qiáng)已誕生3席

隨著41歲C羅破門+利雅得勝利4-0,亞冠二級(jí)4強(qiáng)已誕生3席

側(cè)身凌空斬
2026-04-20 00:01:29
荷蘭站比賽結(jié)束,張雪機(jī)車目前在WSBK制造商積分榜排名第三

荷蘭站比賽結(jié)束,張雪機(jī)車目前在WSBK制造商積分榜排名第三

新京報(bào)
2026-04-19 21:23:27
魏積安現(xiàn)狀:在山東過(guò)田園生活,70歲身體很硬朗,妻兒都是普通人

魏積安現(xiàn)狀:在山東過(guò)田園生活,70歲身體很硬朗,妻兒都是普通人

大魚簡(jiǎn)科
2026-04-19 19:19:17
正大光明官宣!中國(guó)艦艇編隊(duì)過(guò)航橫當(dāng)水道

正大光明官宣!中國(guó)艦艇編隊(duì)過(guò)航橫當(dāng)水道

武器縱論
2026-04-19 21:56:32
綠軍123-91大勝76人!我不得不承認(rèn)5個(gè)現(xiàn)實(shí):東部冠軍懸念不大

綠軍123-91大勝76人!我不得不承認(rèn)5個(gè)現(xiàn)實(shí):東部冠軍懸念不大

毒舌NBA
2026-04-20 04:55:07
回加拿大生活的大山,60歲須發(fā)皆白很滄桑,重慶妻子仍風(fēng)韻猶存

回加拿大生活的大山,60歲須發(fā)皆白很滄桑,重慶妻子仍風(fēng)韻猶存

胡一舸南游y
2026-04-04 15:41:43
CBA罰單:山西主帥潘江辱罵裁判 停賽3場(chǎng)罰6萬(wàn) 缺席首場(chǎng)季后賽

CBA罰單:山西主帥潘江辱罵裁判 停賽3場(chǎng)罰6萬(wàn) 缺席首場(chǎng)季后賽

醉臥浮生
2026-04-19 17:22:23
現(xiàn)場(chǎng)開(kāi)炮!波蘭議員當(dāng)眾嘲諷以色列:看好了,你們國(guó)旗長(zhǎng)這樣才對(duì)

現(xiàn)場(chǎng)開(kāi)炮!波蘭議員當(dāng)眾嘲諷以色列:看好了,你們國(guó)旗長(zhǎng)這樣才對(duì)

諦聽(tīng)骨語(yǔ)本尊
2026-04-15 18:13:09
戲劇性收?qǐng)?!賽道紅旗提前結(jié)束,荷蘭站次回合張雪機(jī)車第7名完賽

戲劇性收?qǐng)觯≠惖兰t旗提前結(jié)束,荷蘭站次回合張雪機(jī)車第7名完賽

全景體育V
2026-04-19 20:31:05
美國(guó)游客中國(guó)急診10小時(shí),直呼驚呆,坦言:這才叫“人民至上”

美國(guó)游客中國(guó)急診10小時(shí),直呼驚呆,坦言:這才叫“人民至上”

金哥說(shuō)新能源車
2026-04-19 10:08:48
2026-04-20 07:32:52
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12795文章數(shù) 142632關(guān)注度
往期回顧 全部

科技要聞

50分26秒破人類紀(jì)錄!300臺(tái)機(jī)器人狂飆半馬

頭條要聞

半年下沉22厘米 女子家中坐擁價(jià)值上億別墅卻沒(méi)法住人

頭條要聞

半年下沉22厘米 女子家中坐擁價(jià)值上億別墅卻沒(méi)法住人

體育要聞

湖人1比0火箭:老詹比烏度卡像教練

娛樂(lè)要聞

何潤(rùn)東漲粉百萬(wàn)!內(nèi)娛隔空掀桌第一人

財(cái)經(jīng)要聞

華誼兄弟,8年虧光85億

汽車要聞

29分鐘大定破萬(wàn) 極氪8X為什么這么多人買?

態(tài)度原創(chuàng)

親子
數(shù)碼
游戲
教育
公開(kāi)課

親子要聞

孩子總打噴嚏、起疹子,時(shí)過(guò)敏嗎?

數(shù)碼要聞

華為新機(jī)發(fā)布前瞻:闊折疊X Max+影像旗艦Pura 90,都沒(méi)懸念了

"二次元GTA"直播爆了:疑似貼臉嘲諷其他二游!

教育要聞

中國(guó)為什么不禁網(wǎng)絡(luò)游戲?

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版