近日,在計算機視覺與模式識別領(lǐng)域頂級會議CVPR 2025舉辦的RoboTwin雙臂機器人競賽中,地平線機器人實驗室與清華大學計算機系朱軍團隊聯(lián)合提出的H-RDT憑強大性能和領(lǐng)先成功率,一舉斬獲真機賽冠軍(一等獎第一名),并在仿真賽中榮獲亞軍(一等獎第二名),為全球機器人學習領(lǐng)域提供了高效解法。
作為全球人工智能領(lǐng)域最具影響力的頂級會議之一,CVPR每年匯聚學術(shù)界與工業(yè)界的最新研究成果,引領(lǐng)計算機視覺發(fā)展前沿。2025年CVPR中的第二屆MEIS研討會以“生成式人工智能時代的多智能體具身系統(tǒng)”為焦點,發(fā)起并舉辦了RoboTwin雙臂協(xié)作挑戰(zhàn)賽,成為全球首個專注于“建圖-感知-操作”全鏈條能力的權(quán)威機器人競賽,吸引了全球眾多科研團隊參與。
比賽聚焦于雙臂機器人的復雜操作能力,要求參賽模型在仿真與真實環(huán)境中完成一系列高難度任務,包括但不限于柔性物體操作、空間推理、雙手協(xié)作等,全面評估機器人的智能水平與操作精度。在真機賽環(huán)節(jié),機器人需在真實世界中完成指定任務,如疊毛巾、精準放置物品等,對模型的泛化能力、環(huán)境適應性和操作穩(wěn)定性提出了極高要求。仿真賽則側(cè)重于模型在虛擬環(huán)境中的多任務處理能力。
面對通用機器人操作數(shù)據(jù)的規(guī)模與泛化問題,地平線機器人實驗室聯(lián)合清華大學計算機系朱軍教授團隊提出了從海量人類操作數(shù)據(jù)中學習的VLA模型H-RDT (Human to Robotics Diffusion Transformer) ,能夠利用帶有3D手部位姿標注的人類操作視頻增強機器人操作能力,為通用機器人操作技能的規(guī)?;瘜W習提供了新范式。
(點擊文末“閱讀原文”可獲取論文鏈接)
技術(shù)和架構(gòu)創(chuàng)新,實現(xiàn)跨本體遷移與高效動作生成
不同機器人本體和動作空間的差異導致統(tǒng)一訓練困難,現(xiàn)有數(shù)據(jù)集規(guī)模有限且質(zhì)量參差不齊。這些問題從根本上制約了通用機器人操作數(shù)據(jù)的規(guī)模與泛化能力。
H-RDT模型采用獨特的兩階段訓練范式用于實現(xiàn)跨本體部署。首先在大規(guī)模第一人稱人類操作數(shù)據(jù)上進行預訓練,構(gòu)建共享動作表征空間;隨后通過模塊化動作編解碼器在機器人數(shù)據(jù)上進行微調(diào),實現(xiàn)跨本體遷移。這一設(shè)計有效解決了不同機器人本體和動作空間差異導致的統(tǒng)一訓練難題,顯著提升了模型的泛化能力。
在架構(gòu)方面,H-RDT基于一個具有20億參數(shù)的擴散Transformer架構(gòu),配備專門的動作編碼器和解碼器,利用流匹配方法建模復雜的動作分布,實現(xiàn)了更優(yōu)的訓練穩(wěn)定性與推理效率。為解決人類與機器人之間的差異,團隊采用了精細的3D手部姿態(tài)表示方法,將動作編碼為緊湊的48維向量,以捕捉關(guān)鍵的雙手靈巧操作信息,為機器人操作提供了豐富的“上層動作空間”指導,顯著提升了策略的泛化能力,有效緩解了不同機器人之間的差異問題。
在真機實驗中,H-RDT模型在Aloha-Agilex-2.0、雙臂ARX5、UR5+UMI三種真機設(shè)置上展現(xiàn)了領(lǐng)先的性能和出色的跨本體遷移能力。下面4個表格給出了詳細的測試指標。
表1 H-RDT在Agilex2.0真機疊毛巾任務中的表現(xiàn)
表2 H-RDT在Agilex2.0真機掛杯子任務中的表現(xiàn)
表3 H-RDT在ARX5真機少樣本實驗中表現(xiàn)出優(yōu)越的樣本利用效率
表4 H-RDT在雙UR5+UMI真機實驗中在每個子任務上都表現(xiàn)出優(yōu)越的性能
在仿真實驗中,H-RDT在RoboTwin 2.0基準測試的45項任務上取得了87.2%的平均成功率,顯著優(yōu)于RDT、π0等基線方法,證明了其在多任務處理中的領(lǐng)先優(yōu)勢。
優(yōu)異的實驗結(jié)果充分驗證了H-RDT模型的技術(shù)先進性和實用性,為其在實際應用中的推廣奠定了堅實基礎(chǔ)。
前景廣闊,H-RDT模型賦能多領(lǐng)域智能化升級
H-RDT模型的成功,為機器人學習領(lǐng)域提供了新的研究思路與技術(shù)路徑。通過利用海量人類操作數(shù)據(jù)預訓練,H-RDT模型能有效緩解大規(guī)模高質(zhì)量機器人演示數(shù)據(jù)稀缺的問題,為通用機器人操作數(shù)據(jù)的規(guī)模與泛化能力提升開辟了新途徑。這一創(chuàng)新方法不僅在學術(shù)上取得了突破,更在具身智能技術(shù)的實際應用中展現(xiàn)了巨大潛力。
H-RDT模型的跨本體遷移能力與少樣本學習效率,為機器人在不同場景下的快速適應與高效操作提供了可能,有望推動智能家居、工業(yè)制造、醫(yī)療護理等多領(lǐng)域的智能化應用升級。
作為機器人產(chǎn)業(yè)界的重要推動者之一,地平線在人工智能學習領(lǐng)域積累了深厚的技術(shù)底蘊,展現(xiàn)出強大的創(chuàng)新能力。早在2023年,由地平線學者作為一作公開發(fā)表的業(yè)界首個端到端自動駕駛大模型UniAD,便榮獲CVPR 2023最佳論文獎,現(xiàn)已成為行業(yè)端到端技術(shù)的Benchmark。而此次H-RDT模型在CVPR 2025 RoboTwin雙臂機器人競賽中的出色表現(xiàn),更是地平線在人工智能領(lǐng)域持續(xù)深耕、不斷突破的又一有力見證。
地平線認為:“真正的智能是說每一輛車、每一個電器都具有環(huán)境感知、人機交互和決策控制的能力”。隨著技術(shù)成熟與應用深化,以H-RDT模型為代表的創(chuàng)新技術(shù)將助力具身智能技術(shù)拓展更廣泛的發(fā)展與應用。未來,地平線將繼續(xù)秉承創(chuàng)新驅(qū)動發(fā)展的理念,堅持“賦能智能汽車和機器人,讓人類生活更安全、更美好”的愿景,加大在機器人和智能汽車領(lǐng)域的技術(shù)研發(fā)投入,不斷探索新技術(shù)、新應用,為推動全球智能化技術(shù)普惠貢獻更多力量,真正實現(xiàn)“讓機器的歸機器,人的歸人”。