国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

港科大研究團(tuán)隊讓機(jī)器人擁有"人類視覺"

0
分享至


這項由香港科技大學(xué)研究團(tuán)隊完成的創(chuàng)新工作發(fā)表于2026年的計算機(jī)視覺與模式識別會議(CVPR),論文編號為arXiv:2603.23478v1,為3D功能理解領(lǐng)域帶來了重要突破。

想象這樣一個場景:你走進(jìn)一個陌生的房間,有人告訴你"打開電視旁邊柜子的左上角抽屜",你會怎么做?首先,你的眼睛會在房間里掃視,尋找電視的位置,然后定位到旁邊的柜子,接著識別出這個柜子的左上角部分,最后精確地找到抽屜的把手并操作它。這個看似簡單的過程其實包含了復(fù)雜的視覺理解、空間推理和功能判斷。

現(xiàn)在,香港科技大學(xué)的研究團(tuán)隊開發(fā)出了一套名為UniFunc3D的系統(tǒng),能讓機(jī)器人具備類似人類的這種復(fù)雜理解能力。這套系統(tǒng)的特別之處在于,它不僅能理解物體是什么,更重要的是能理解如何與這些物體互動。這就像教會了機(jī)器人"察言觀色"的能力——不只是看到一個柜子,還能理解"這個柜子的哪個部分是用來打開的"。

傳統(tǒng)的機(jī)器人視覺系統(tǒng)面臨著一個根本性的挑戰(zhàn):它們往往像一個"近視眼",只能機(jī)械地執(zhí)行預(yù)設(shè)的指令,卻無法像人類一樣靈活地理解復(fù)雜的空間描述和功能需求。比如,當(dāng)你說"插上左邊插座后面的設(shè)備"時,現(xiàn)有系統(tǒng)經(jīng)常會搞混哪個是真正需要操作的對象,可能錯誤地識別成"設(shè)備"而不是"插座"。

UniFunc3D系統(tǒng)的革新之處在于它采用了一種類似人類觀察習(xí)慣的"粗看細(xì)看"策略。就像你在尋找某個東西時,會先在房間里大致瀏覽一圈,然后聚焦到可能的區(qū)域進(jìn)行仔細(xì)觀察。這套系統(tǒng)首先在低分辨率下快速瀏覽整個視頻場景,識別出最有可能包含目標(biāo)物體的區(qū)域,然后自動切換到高分辨率模式進(jìn)行精確定位。

更令人驚喜的是,這套系統(tǒng)還具備了"自我驗證"的能力。當(dāng)它識別出某個區(qū)域后,會像一個謹(jǐn)慎的工匠一樣,再次檢查這個識別結(jié)果是否正確。這種設(shè)計大大減少了錯誤識別的可能性,讓機(jī)器人的操作更加可靠。

一、破解機(jī)器人的"視覺盲區(qū)"難題

要理解這項研究的重要性,我們得先了解現(xiàn)有機(jī)器人系統(tǒng)面臨的困境。目前的大多數(shù)機(jī)器人視覺系統(tǒng)就像是一個分工過細(xì)的工廠流水線,每個環(huán)節(jié)都由不同的"工人"負(fù)責(zé):一個專門負(fù)責(zé)理解文字指令,另一個負(fù)責(zé)在畫面中尋找物體,還有一個負(fù)責(zé)最終的操作決策。

這種分工看起來很合理,但問題在于,第一個"工人"在理解指令時完全看不到實際的場景。這就像讓一個蒙著眼睛的人來指揮你在房間里找東西一樣荒謬。比如,當(dāng)指令是"插上左邊插座后面的設(shè)備"時,這個"盲人指揮官"只能基于文字猜測,可能會錯誤地認(rèn)為需要找的是"設(shè)備",而實際上真正需要操作的是"插座"。

更糟糕的是,這些系統(tǒng)在選擇觀察角度時也很笨拙。它們往往使用一些粗糙的規(guī)則來決定從哪個角度看場景,比如簡單地選擇物體最居中的畫面。這種方法完全沒有考慮到具體任務(wù)的需求。想象一下,如果你要找一個抽屜的把手,最重要的不是抽屜在畫面中最居中,而是能否清楚地看到把手的位置。

第三個問題是這些系統(tǒng)缺乏"變焦"能力。人類在尋找小物件時,會自然地湊近去看,或者瞇起眼睛專注于細(xì)節(jié)。但現(xiàn)有系統(tǒng)只能用固定的分辨率處理圖像,面對細(xì)小的功能部件時就束手無策了。一個開關(guān)按鈕可能在整個房間的畫面中只占幾個像素點,這樣的細(xì)節(jié)根本無法被準(zhǔn)確識別。

香港科技大學(xué)的研究團(tuán)隊深入分析了這些問題,發(fā)現(xiàn)它們的根源都指向同一個核心缺陷:缺乏統(tǒng)一的、具備視覺感知能力的推理系統(tǒng)。現(xiàn)有方法就像讓一群聾啞人通過紙條溝通一樣低效,信息在傳遞過程中不斷丟失和扭曲。

二、UniFunc3D的"人類視覺"解決方案

面對這些挑戰(zhàn),研究團(tuán)隊設(shè)計的UniFunc3D系統(tǒng)采用了一個根本性的不同思路:讓一個具備視覺能力的"大腦"來統(tǒng)一處理所有任務(wù)。這就像用一個既能看又能思考的智能助手,替代原來那個由多個盲人組成的團(tuán)隊。

這個"智能助手"的核心是一個多模態(tài)大語言模型,它既能理解文字指令,也能"看懂"圖像內(nèi)容。更重要的是,它能夠?qū)⒄Z言理解和視覺感知緊密結(jié)合起來進(jìn)行推理。當(dāng)收到"打開裝有美容產(chǎn)品的柜子的左上角抽屜"這樣的指令時,它不會盲目猜測,而是會實際觀察場景,尋找真正裝有美容產(chǎn)品的柜子,然后精確定位到左上角的抽屜把手。

系統(tǒng)的觀察策略模仿了人類的視覺習(xí)慣。當(dāng)人們在復(fù)雜環(huán)境中尋找特定物體時,通常會采用"掃視-聚焦"的模式。UniFunc3D也是這樣工作的:它首先會對整個場景進(jìn)行多次快速掃描,每次掃描都從不同的時間點開始,就像從不同角度觀察房間一樣。這種多樣化的觀察方式確保了不會錯過任何重要的視覺線索。

在快速掃描階段,系統(tǒng)會降低圖像分辨率以提高處理速度,同時保持足夠的視野范圍。這個階段的目標(biāo)不是看清每一個細(xì)節(jié),而是確定大致的目標(biāo)區(qū)域。就像你進(jìn)入一個新房間時,會快速環(huán)視一圈來了解整體布局,而不會立即專注于某個小物件。

一旦確定了候選區(qū)域,系統(tǒng)就會進(jìn)入"聚焦模式"。它會提取包含候選目標(biāo)的時間段,并以原始的高分辨率重新處理這些圖像。這個過程類似于你在找到可能的目標(biāo)后,會走近仔細(xì)觀察,或者瞇起眼睛看清楚細(xì)節(jié)。

特別巧妙的是,系統(tǒng)在高分辨率處理時不會像傳統(tǒng)方法那樣"裁剪"圖像,而是保持完整的視野。這種設(shè)計很重要,因為很多時候我們需要依靠周圍的環(huán)境信息來確認(rèn)目標(biāo)。比如,要找"電視旁邊柜子的抽屜",就必須能看到電視和柜子的相對位置關(guān)系。

三、雙重驗證確保精確無誤

僅僅能夠定位目標(biāo)還不夠,UniFunc3D還具備了一套精妙的驗證機(jī)制。這個機(jī)制的工作原理類似于醫(yī)生看X光片時的"雙讀"制度,即由兩個獨立的專家分別判斷,以減少誤診的可能性。

當(dāng)系統(tǒng)初步識別出目標(biāo)區(qū)域后,它會使用一個專門的分割算法來精確勾畫出目標(biāo)物體的邊界。這個過程就像用畫筆精心描摹物體的輪廓,確保每一個像素點的歸屬都是準(zhǔn)確的。

接下來就是關(guān)鍵的驗證步驟。系統(tǒng)會將識別出的區(qū)域用鮮明的顏色標(biāo)記出來,然后"問"自己:這個紅色高亮的區(qū)域真的是我要找的功能部件嗎?它會從多個角度檢查這個判斷:首先確認(rèn)被標(biāo)記的確實是正確類型的物體,比如是把手而不是裝飾品;其次檢查這個區(qū)域的范圍是否合適,沒有包含不相關(guān)的部分。

這種自我質(zhì)疑的機(jī)制非常重要。傳統(tǒng)系統(tǒng)經(jīng)常出現(xiàn)"過度分割"的問題,比如在尋找抽屜把手時,卻把整個抽屜都標(biāo)記出來。UniFunc3D的驗證機(jī)制能夠發(fā)現(xiàn)這類錯誤,確保最終結(jié)果的精確性。

更令人印象深刻的是,這個驗證過程是完全自動化的,不需要人工干預(yù)。系統(tǒng)會根據(jù)預(yù)定的標(biāo)準(zhǔn)自動判斷識別結(jié)果的質(zhì)量,只有通過驗證的結(jié)果才會被接受。這就像有一個內(nèi)置的"質(zhì)檢員",時刻監(jiān)督著工作質(zhì)量。

通過這種雙重保險機(jī)制,UniFunc3D大大提高了識別的準(zhǔn)確性。在實際測試中,這套系統(tǒng)能夠準(zhǔn)確識別出傳統(tǒng)方法經(jīng)常搞錯的復(fù)雜場景,比如在多個相似柜子中準(zhǔn)確找到指定的那一個,或者在密密麻麻的開關(guān)面板上精確定位特定的按鈕。

四、多視角融合構(gòu)建完整3D理解

單純的2D圖像識別還不能滿足機(jī)器人操作的需求,因為現(xiàn)實世界是三維的。UniFunc3D的另一個創(chuàng)新之處在于它能夠巧妙地將多個2D視角的信息融合成完整的3D理解。

這個過程可以比作拼圖游戲。每個視角提供的信息就像一塊拼圖碎片,單獨看可能不完整,但當(dāng)所有碎片組合在一起時,就能呈現(xiàn)出完整的圖像。系統(tǒng)會收集來自不同時間點、不同角度的觀察結(jié)果,然后像一個經(jīng)驗豐富的拼圖高手一樣,將這些碎片信息巧妙地組合起來。

在融合過程中,系統(tǒng)采用了一種"多數(shù)投票"的策略。如果某個3D空間點在多個不同視角中都被識別為目標(biāo)物體的一部分,那么它被納入最終結(jié)果的可能性就更高。這種方法能夠有效過濾掉偶然的識別錯誤,提高整體結(jié)果的可靠性。

考慮到不同視角的可靠性可能不同,系統(tǒng)還會根據(jù)每個視角的質(zhì)量給予不同的權(quán)重。比如,如果某個角度的圖像特別清晰,或者包含了更多的上下文信息,那么來自這個角度的識別結(jié)果就會獲得更高的重要性。

這種多視角融合策略特別適合處理部分遮擋的情況。在現(xiàn)實環(huán)境中,目標(biāo)物體經(jīng)常被其他物品部分擋住,單一視角很難獲得完整信息。但通過綜合多個角度的觀察,系統(tǒng)能夠"繞過"這些遮擋,構(gòu)建出目標(biāo)物體的完整3D模型。

最終,系統(tǒng)會輸出一個精確的3D分割結(jié)果,清楚地標(biāo)明哪些3D空間點屬于目標(biāo)功能部件。這個結(jié)果可以直接用于機(jī)器人的路徑規(guī)劃和動作執(zhí)行,實現(xiàn)真正意義上的智能操作。

五、實驗結(jié)果證明卓越性能

為了驗證UniFunc3D的實際效果,研究團(tuán)隊在SceneFun3D數(shù)據(jù)集上進(jìn)行了全面的測試。這個數(shù)據(jù)集包含了230個高分辨率的真實室內(nèi)場景,涵蓋了超過3000個復(fù)雜的功能操作任務(wù),是目前該領(lǐng)域最具挑戰(zhàn)性的基準(zhǔn)測試。

實驗結(jié)果令人印象深刻。與現(xiàn)有最好的無需訓(xùn)練方法Fun3DU相比,UniFunc3D在關(guān)鍵指標(biāo)上取得了顯著提升。在精確度要求最高的AP50指標(biāo)上,改進(jìn)幅度達(dá)到了84.9%,這意味著系統(tǒng)在嚴(yán)格標(biāo)準(zhǔn)下的識別準(zhǔn)確率幾乎翻了一番。在稍微寬松一些的AP25指標(biāo)上,改進(jìn)幅度也達(dá)到了53.2%。

更令人驚喜的是,UniFunc3D在平均交并比(mIoU)指標(biāo)上實現(xiàn)了59.9%的相對提升。這個指標(biāo)衡量的是識別出的區(qū)域與真實目標(biāo)區(qū)域的重合程度,高分?jǐn)?shù)意味著系統(tǒng)不僅能找到目標(biāo),還能精確地確定其邊界。

與需要大量訓(xùn)練數(shù)據(jù)的方法相比,UniFunc3D的優(yōu)勢更加明顯。那些需要訓(xùn)練的系統(tǒng)雖然在特定數(shù)據(jù)集上經(jīng)過了長時間的優(yōu)化,但UniFunc3D仍然能夠在大多數(shù)指標(biāo)上超越它們。這證明了統(tǒng)一架構(gòu)設(shè)計的優(yōu)越性:有時候,好的設(shè)計比大量的訓(xùn)練數(shù)據(jù)更重要。

在處理具有挑戰(zhàn)性的場景時,UniFunc3D表現(xiàn)得特別出色。比如,在"打開裝有美容產(chǎn)品的柜子的左上角抽屜"這個任務(wù)中,系統(tǒng)需要首先識別哪個柜子上放著美容產(chǎn)品,然后準(zhǔn)確定位左上角的位置,最后找到抽屜的把手。傳統(tǒng)方法經(jīng)常在這種復(fù)雜的空間推理任務(wù)上出錯,要么找錯了柜子,要么搞混了方向。但UniFunc3D能夠準(zhǔn)確完成這些任務(wù),展現(xiàn)出了接近人類水平的理解能力。

系統(tǒng)在處理小尺寸功能部件時也表現(xiàn)突出。許多實際的操作目標(biāo)都很小,比如開關(guān)按鈕、插座孔或者小把手,這些在整個場景中可能只占很小的比例。傳統(tǒng)方法往往無法準(zhǔn)確識別這些細(xì)微的目標(biāo),但UniFunc3D通過其"變焦"機(jī)制能夠很好地處理這類挑戰(zhàn)。

六、效率優(yōu)勢顯著提升實用性

除了準(zhǔn)確性的提升,UniFunc3D在處理效率方面也有顯著優(yōu)勢。在相同的硬件條件下,這套系統(tǒng)的處理速度比現(xiàn)有最好的方法快了3.2倍,每個場景的處理時間從82分鐘縮短到了26分鐘。

這種效率提升的原因在于系統(tǒng)設(shè)計的巧妙之處。傳統(tǒng)方法需要運行多個不同的模型,每個模型都要單獨加載和運行,就像需要啟動多個不同的應(yīng)用程序來完成一個任務(wù)。而UniFunc3D只需要運行一個統(tǒng)一的模型,避免了模型切換和數(shù)據(jù)傳遞的開銷。

更重要的是,系統(tǒng)的"先粗后細(xì)"策略大大減少了需要高分辨率處理的圖像數(shù)量。在粗略掃描階段,系統(tǒng)使用較低的分辨率快速定位候選區(qū)域,只有在確定了目標(biāo)位置后才切換到高分辨率處理。這種策略避免了對所有圖像進(jìn)行全分辨率處理的龐大開銷。

系統(tǒng)還通過智能的時間窗口選擇進(jìn)一步提高了效率。不是對視頻中的每一幀都進(jìn)行處理,而是根據(jù)內(nèi)容的變化情況選擇最有信息量的幀進(jìn)行分析。這就像一個經(jīng)驗豐富的攝影師知道什么時候按快門一樣,系統(tǒng)能夠識別出最有價值的觀察時機(jī)。

這種效率優(yōu)勢對實際應(yīng)用具有重要意義。在真實的機(jī)器人系統(tǒng)中,響應(yīng)速度往往和準(zhǔn)確性同樣重要。用戶不希望向機(jī)器人發(fā)出指令后等待一個多小時才看到結(jié)果。UniFunc3D的高效率使得實時或近實時的應(yīng)用成為可能,大大提升了用戶體驗。

七、系統(tǒng)設(shè)計的精妙之處

UniFunc3D成功的關(guān)鍵在于其巧妙的系統(tǒng)設(shè)計。與傳統(tǒng)的"組裝式"方法不同,這套系統(tǒng)采用了"一體化"的設(shè)計理念,就像用一塊完整的木材雕刻藝術(shù)品,而不是用膠水粘接不同的零件。

系統(tǒng)的核心是一個經(jīng)過精心設(shè)計的推理鏈條。當(dāng)接收到任務(wù)指令時,系統(tǒng)不會將其簡單地分解為獨立的子任務(wù),而是在每個步驟中都保持對整體目標(biāo)的理解。這種設(shè)計避免了傳統(tǒng)方法中常見的"誤差積累"問題,即前面步驟的小錯誤在后續(xù)處理中被不斷放大。

在處理多模態(tài)信息時,系統(tǒng)采用了一種"交織式"的融合策略。文本信息和視覺信息不是分別處理后再簡單合并,而是在處理的每個階段都進(jìn)行深度交互。這就像兩個經(jīng)驗豐富的偵探一邊觀察現(xiàn)場一邊討論線索,而不是一個人負(fù)責(zé)觀察、另一個人負(fù)責(zé)推理。

系統(tǒng)還具備了強(qiáng)大的自適應(yīng)能力。面對不同類型的任務(wù)和不同的場景復(fù)雜度,系統(tǒng)能夠自動調(diào)整其處理策略。比如,對于相對簡單的任務(wù),系統(tǒng)可能會更快地收斂到結(jié)果;而對于復(fù)雜的場景,系統(tǒng)會自動增加觀察的角度和細(xì)節(jié)程度。

特別值得注意的是,整個系統(tǒng)是完全"免訓(xùn)練"的,即不需要針對特定任務(wù)進(jìn)行額外的訓(xùn)練或調(diào)優(yōu)。這種設(shè)計大大降低了系統(tǒng)部署的門檻,使其能夠更容易地應(yīng)用到各種不同的場景中。用戶不需要準(zhǔn)備大量的訓(xùn)練數(shù)據(jù),也不需要進(jìn)行復(fù)雜的模型調(diào)優(yōu),就能獲得優(yōu)秀的性能表現(xiàn)。

八、深入分析系統(tǒng)的各個組件貢獻(xiàn)

為了更好地理解UniFunc3D成功的原因,研究團(tuán)隊進(jìn)行了詳細(xì)的組件分析實驗。這些實驗就像拆解一臺精密機(jī)器,逐個檢查每個零件的作用,從而理解整體性能的來源。

首先,研究團(tuán)隊驗證了"兩階段處理"相對于"單階段處理"的優(yōu)勢。實驗結(jié)果顯示,如果直接用高分辨率處理所有圖像,雖然能夠捕捉到更多細(xì)節(jié),但實際效果反而更差。這是因為單階段方法無法有效地處理長序列信息,而且缺乏全局視野的引導(dǎo),容易在細(xì)節(jié)中迷失方向。

相反,"先低分辨率后高分辨率"的兩階段策略表現(xiàn)出色。在低分辨率階段,系統(tǒng)能夠快速獲得全局理解,確定大致的目標(biāo)區(qū)域。然后在高分辨率階段,系統(tǒng)能夠?qū)W⒂谶@些候選區(qū)域,既保證了細(xì)節(jié)的清晰度,又避免了信息過載的問題。

多重采樣策略的重要性也得到了實驗驗證。如果只進(jìn)行一次觀察,系統(tǒng)的性能會顯著下降,因為單一的觀察角度可能遺漏關(guān)鍵信息。通過從不同時間偏移開始的多次采樣,系統(tǒng)能夠更全面地覆蓋整個場景,大大提高了找到目標(biāo)的概率。

時間窗口處理機(jī)制帶來了最顯著的性能提升。當(dāng)系統(tǒng)從單幀處理擴(kuò)展到多幀時間窗口處理時,AP50指標(biāo)提升了超過5個百分點,AP25指標(biāo)提升了超過10個百分點。這證明了時間上下文信息對于準(zhǔn)確理解3D場景功能的重要性。

驗證機(jī)制的作用同樣不可忽視。通過對識別結(jié)果進(jìn)行視覺檢查,系統(tǒng)能夠過濾掉許多錯誤的候選結(jié)果。特別是在候選數(shù)量較多的情況下,驗證機(jī)制的效果更加明顯,能夠從眾多候選中準(zhǔn)確選出正確的目標(biāo)。

有趣的是,當(dāng)采樣次數(shù)從1增加到2時,性能提升最為顯著。繼續(xù)增加到4次采樣帶來了進(jìn)一步的改善,但收益遞減。而增加到8次采樣時,改善幅度變得很小。這個結(jié)果為系統(tǒng)的實際部署提供了重要的參考:4次采樣是效果和效率之間的最佳平衡點。

九、面向未來的技術(shù)發(fā)展方向

雖然UniFunc3D已經(jīng)取得了顯著的成果,但研究團(tuán)隊也清醒地認(rèn)識到現(xiàn)有技術(shù)的局限性。對于極小的功能部件(占圖像面積不到0.1%)或者嚴(yán)重遮擋的場景,系統(tǒng)仍然面臨挑戰(zhàn)。

針對這些挑戰(zhàn),未來的研究可能會朝幾個方向發(fā)展。首先是更智能的"變焦"機(jī)制?,F(xiàn)有的系統(tǒng)雖然能夠在不同分辨率之間切換,但這種切換相對簡單。未來可能會開發(fā)出更精細(xì)的注意力機(jī)制,能夠在保持全局視野的同時,對關(guān)鍵區(qū)域進(jìn)行超高分辨率的處理。

另一個有前途的方向是將顯式的3D幾何推理直接整合到系統(tǒng)中。現(xiàn)有方法主要依賴于2D圖像的處理,然后通過多視角融合獲得3D理解。未來的系統(tǒng)可能會直接在3D空間中進(jìn)行推理,這樣能夠更直接地處理復(fù)雜的空間關(guān)系和幾何約束。

交互式改進(jìn)也是一個重要的發(fā)展方向?,F(xiàn)有系統(tǒng)是"一次性"的,即給出結(jié)果后就完成了任務(wù)。但在實際應(yīng)用中,用戶可能需要對結(jié)果進(jìn)行微調(diào)或提供額外的指導(dǎo)。未來的系統(tǒng)可能會支持交互式的改進(jìn)過程,允許用戶通過簡單的反饋來完善識別結(jié)果。

擴(kuò)展到更多樣化的場景也是重要的研究方向。目前的研究主要集中在室內(nèi)環(huán)境,但機(jī)器人的應(yīng)用場景遠(yuǎn)不止于此。戶外環(huán)境、工業(yè)場景、醫(yī)療環(huán)境等都有其特殊的挑戰(zhàn)和需求。如何讓類似的技術(shù)適應(yīng)這些不同的應(yīng)用場景,是一個值得探索的問題。

說到底,UniFunc3D代表了機(jī)器人視覺理解領(lǐng)域的一個重要里程碑。它不僅在技術(shù)上實現(xiàn)了突破,更重要的是展示了一種全新的設(shè)計理念:用統(tǒng)一的、具備視覺感知能力的智能系統(tǒng)來處理復(fù)雜的多模態(tài)任務(wù)。這種理念可能會影響未來很多其他領(lǐng)域的技術(shù)發(fā)展。

歸根結(jié)底,這項研究讓我們看到了機(jī)器人智能的一個重要發(fā)展方向。未來的機(jī)器人不僅要能執(zhí)行指令,更要能像人類一樣理解復(fù)雜的環(huán)境和任務(wù)需求。UniFunc3D在這個方向上邁出了堅實的一步,為我們展現(xiàn)了機(jī)器人具備"人類視覺"能力的可能性。對于普通人來說,這意味著未來的智能家居和服務(wù)機(jī)器人將會變得更加智能和實用,能夠理解更復(fù)雜的指令并準(zhǔn)確執(zhí)行各種精細(xì)操作。

那些對這項技術(shù)感興趣的讀者,可以通過論文編號arXiv:2603.23478v1查找完整的技術(shù)細(xì)節(jié),或者關(guān)注香港科技大學(xué)相關(guān)實驗室的后續(xù)研究進(jìn)展。

Q&A

Q1:UniFunc3D系統(tǒng)是如何工作的?

A:UniFunc3D采用類似人類觀察習(xí)慣的"粗看細(xì)看"策略,先用低分辨率快速掃描整個場景找到大致目標(biāo)區(qū)域,然后切換到高分辨率進(jìn)行精確定位,最后通過自我驗證機(jī)制確保識別結(jié)果的準(zhǔn)確性。整個過程由一個統(tǒng)一的多模態(tài)大語言模型完成,避免了傳統(tǒng)方法中多個系統(tǒng)協(xié)作時的信息丟失問題。

Q2:相比現(xiàn)有方法,UniFunc3D有什么優(yōu)勢?

A:UniFunc3D在準(zhǔn)確性上比現(xiàn)有最好的無需訓(xùn)練方法提升了84.9%,處理速度快了3.2倍,甚至超越了需要大量訓(xùn)練數(shù)據(jù)的專門方法。最重要的是,它能夠像人一樣理解復(fù)雜的空間描述,準(zhǔn)確找到"電視旁邊柜子的左上角抽屜"這類需要復(fù)合推理的目標(biāo)。

Q3:UniFunc3D技術(shù)什么時候能應(yīng)用到日常生活中?

A:雖然該技術(shù)已經(jīng)在實驗環(huán)境中取得了優(yōu)異表現(xiàn),但要真正應(yīng)用到家用機(jī)器人還需要進(jìn)一步的工程化開發(fā)。不過這項研究為智能家居和服務(wù)機(jī)器人的發(fā)展指明了方向,未來的機(jī)器人將能更好地理解和執(zhí)行復(fù)雜的家務(wù)指令。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
董事長“失聯(lián)”!000752,一字跌停

董事長“失聯(lián)”!000752,一字跌停

中國基金報
2026-04-03 11:29:46
虧慘了!楊浦新盤,8折賣!原價1300萬,現(xiàn)在900+萬!!

虧慘了!楊浦新盤,8折賣!原價1300萬,現(xiàn)在900+萬??!

新浪財經(jīng)
2026-04-03 10:53:43
"最猛新生兒"走紅!帶著臍帶站起來就想跑,醫(yī)生險些都沒能抓住

"最猛新生兒"走紅!帶著臍帶站起來就想跑,醫(yī)生險些都沒能抓住

大果小果媽媽
2026-03-31 13:27:53
烏軍日斃6名俄指揮官,川普威脅不幫忙就散伙,歐洲各國集體硬剛

烏軍日斃6名俄指揮官,川普威脅不幫忙就散伙,歐洲各國集體硬剛

史政先鋒
2026-04-02 15:03:54
記者親測賈國龍新品牌“天邊砂鍋燜面”:人均50元,部分門店由西貝換牌

記者親測賈國龍新品牌“天邊砂鍋燜面”:人均50元,部分門店由西貝換牌

第一財經(jīng)資訊
2026-04-02 17:32:19
CBA4月3日焦點戰(zhàn):上海沖擊15連勝,殘陣北京VS廣州,遼浙大戰(zhàn)

CBA4月3日焦點戰(zhàn):上海沖擊15連勝,殘陣北京VS廣州,遼浙大戰(zhàn)

薇說體育
2026-04-03 10:42:52
59歲鞏俐身材引熱議,外套都快撐不住豐腴身材了,卻被夸少女體態(tài)

59歲鞏俐身材引熱議,外套都快撐不住豐腴身材了,卻被夸少女體態(tài)

一盅情懷
2026-03-16 16:52:57
Opta世界杯奪冠概率:西班牙15.83%第一、法英阿葡巴2-6位

Opta世界杯奪冠概率:西班牙15.83%第一、法英阿葡巴2-6位

懂球帝
2026-04-03 09:25:08
峨眉山猴子攻擊游客,把女子推下山崖,警方將其擊斃后愣住了

峨眉山猴子攻擊游客,把女子推下山崖,警方將其擊斃后愣住了

第四思維
2025-08-26 09:48:57
4隊犬牙交錯!火箭不能再贏了?對陣湖人掘金2選1,烏帥隨機(jī)應(yīng)變

4隊犬牙交錯!火箭不能再贏了?對陣湖人掘金2選1,烏帥隨機(jī)應(yīng)變

楊仔述
2026-04-03 12:28:41
1725年,14歲的乾隆被安排第一個試婚宮女,侍寢后讓他終生難忘

1725年,14歲的乾隆被安排第一個試婚宮女,侍寢后讓他終生難忘

掠影后有感
2026-03-28 10:18:18
東體:蔣光太已經(jīng)回到上海進(jìn)行康復(fù),劉若釩接近能踢比賽

東體:蔣光太已經(jīng)回到上海進(jìn)行康復(fù),劉若釩接近能踢比賽

懂球帝
2026-04-03 11:44:18
林青霞親口爆料:當(dāng)年我全裸給他看,他卻嚇得扭頭就跑!

林青霞親口爆料:當(dāng)年我全裸給他看,他卻嚇得扭頭就跑!

達(dá)文西看世界
2026-03-04 15:07:30
運氣太好了!買個AMD散熱器:盒子里竟塞了一顆銳龍5 8400F

運氣太好了!買個AMD散熱器:盒子里竟塞了一顆銳龍5 8400F

快科技
2026-04-01 10:06:11
受刺激了,一伙計2天干了430個W。

受刺激了,一伙計2天干了430個W。

觀世不語笑紅塵
2026-03-28 11:18:50
直播間標(biāo)題被指“內(nèi)涵”張雪機(jī)車,凱越機(jī)車緊急回應(yīng):從未否定雪總曾是凱越的靈魂,其離開前持股近36%

直播間標(biāo)題被指“內(nèi)涵”張雪機(jī)車,凱越機(jī)車緊急回應(yīng):從未否定雪總曾是凱越的靈魂,其離開前持股近36%

每日經(jīng)濟(jì)新聞
2026-04-02 18:54:18
發(fā)現(xiàn)一個殘忍真相:極度自律,每天鍛煉的人,不一定能長壽

發(fā)現(xiàn)一個殘忍真相:極度自律,每天鍛煉的人,不一定能長壽

富書
2026-04-03 10:43:23
浙大名嘴揭開殘酷真相:當(dāng)年恒大倒臺,壓根不是因為2萬億負(fù)債!

浙大名嘴揭開殘酷真相:當(dāng)年恒大倒臺,壓根不是因為2萬億負(fù)債!

阿器談史
2026-04-02 13:31:44
特朗普對中國隔空喊話,美國將退出海峽,讓中國自己去打通

特朗普對中國隔空喊話,美國將退出海峽,讓中國自己去打通

訊崽侃天下
2026-04-03 10:06:04
澳門世界杯:8強(qiáng)誕生!德日潰不成軍,小莫開啟暴走 王楚欽遇鬼才

澳門世界杯:8強(qiáng)誕生!德日潰不成軍,小莫開啟暴走 王楚欽遇鬼才

桃葉渡春
2026-04-03 10:34:53
2026-04-03 13:40:49
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
7865文章數(shù) 556關(guān)注度
往期回顧 全部

科技要聞

5萬輛庫存車,給了特斯拉一記重拳

頭條要聞

牛彈琴:美國干了一件令人發(fā)指的事 全世界都無法接受

頭條要聞

牛彈琴:美國干了一件令人發(fā)指的事 全世界都無法接受

體育要聞

沖擊世界杯失敗,80歲老帥一氣之下病倒了

娛樂要聞

《浪姐7》最新人氣TOP 曾沛慈斷層第一

財經(jīng)要聞

專家稱長期攝入“飄香劑”存在健康隱患

汽車要聞

你介意和遠(yuǎn)房親戚長得很像嗎?

態(tài)度原創(chuàng)

數(shù)碼
親子
本地
公開課
軍事航空

數(shù)碼要聞

瘋狂!Intel CPU今年將漲價30%:還好有AMD

親子要聞

清明假期,想更快的療愈躺平孩子,一定要這樣做!

本地新聞

跟著歌聲游安徽,聽古村回響

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

中方:不認(rèn)同伊朗對海合會國家的攻擊

無障礙瀏覽 進(jìn)入關(guān)懷版