亚洲五月天一区二区三区-日本午夜福利视频在线-日本欧美一区二区不卡免费-日韩深夜视频在线观看

地平線EmbodiedGen:為具身智能打造可交互3D世界生成引擎丨開發(fā)者說

來源:地平線HorizonRobotics #地平線# #具身智能#
2982

概述

具身智能的發(fā)展離不開高質量、多樣化的可交互3D仿真環(huán)境。為突破傳統(tǒng)構建方式的瓶頸,我們提出了EmbodiedGen,一個基于生成式AI技術的自動化3D世界生成引擎,助力低成本、高效率地創(chuàng)建真實且可交互的3D場景。用戶僅需輸入任務定義或場景圖像,即可自動化生成多樣化、可交互的3D世界。

為了解決傳統(tǒng)機器人仿真環(huán)境因高度依賴人工建模,所導致的高成本、低效率瓶頸,我們提出EmbodiedGen,面向具身智能的可交互3D世界的生成式平臺。系統(tǒng)通過多模態(tài)Agent (Scene Designer) 智能解析用戶輸入的場景圖像或任務文本描述,自動化生成符合交互規(guī)則與任務流程的結構化布局 (Scene Graph) ,實現高度定制化的場景設計。基于布局藍圖智能調用資產生成模塊,高效生成物理合理的多樣性3D資產:圖像生成3D(從圖像生成物理真實的3D資產),文本生成3D(從自然語言生成3D資產),活動關節(jié)物體生成(從雙狀態(tài)圖像生成可活動的3D資產),紋理生成編輯(多風格的3D紋理生成與編輯),場景生成(多樣化3D環(huán)境背景生成)。最終輸出高保真的可交互3D世界,為機器人感知-決策-執(zhí)行閉環(huán)提供物理精確的仿真環(huán)境。

單圖生成物理真實3D資產

賦能高保真數字孿生

核心能力:

生成的3D資產具有業(yè)界領先的幾何質量,真實物理屬性、水密性與簡化網格,可無縫導入多種仿真器中使用;

自動標注語義與質檢標簽,包括資產描述、紋理美學打分、前景提取質量檢驗與幾何質量校驗等;

消除紋理高光,結合法線信息多視角融合,輸出2K分辨率紋理,細節(jié)更精致。

自然語言生成3D資產

資產庫規(guī)?;统杀緲嫿?/p>

核心能力:

支持通過自然語言描述(中&英)生成具備語義一致性、物理真實性的3D資產;

通過Agent系統(tǒng)智能拆解復雜生成需求(如“生成100種風格的杯子”)為不同的風格與形狀描述,并通過質檢標簽自動篩選出視覺效果美觀并且物理幾何合理3D物體資產。

活動關節(jié)物體生成

雙狀態(tài)圖像構建可活動3D資產

核心能力:

支持櫥柜、抽屜等常見活動關節(jié)物體的生成,捕捉幾何結構的同時建模部件之間的連接關系與運動行為;

采用擴散模型實現高質量的可控生成,通過雙狀態(tài)消除運動歧義,準確建模物體的關節(jié)關系;

輸出的3D物體資產具備物理合理性,適用于交互式仿真環(huán)境中的操作與交互,詳見我們發(fā)表的另一篇工作 DIPO。

紋理生成與編輯

3D資產視覺風格化增廣

核心能力:

支持以3D網格和文本描述為輸入,生成語義一致、幾何視角一致的高質量2K分辨率紋理;

采用可插拔的可學習模塊,將社區(qū)文生圖基礎模型能力遷移到3D紋理生成,最小化再訓練成本;

輸出資產紋理清晰、風格豐富,具備真實感與藝術表現力,支持3D文字紋理生成。

多樣性場景生成

幾何一致的背景3D資產

核心能力:

自然語言或圖像輸入,生成語義一致、結構合理、尺度真實的3D場景資產;

良好的可擴展性,主要包括全景圖像生成、3D場景生成&迭代補全與尺度坐標對齊三個模塊;

輸出場景包含3D網格與3DGS兩種表達,可作為機器人仿真中的背景資產。

任務驅動的布局生成

構建可交互3D世界藍圖

核心能力

支持輸入自然語言任務描述(如"Franka robotic arm picks shoes")或圖片,一鍵生成語義合理、結構完整的3D可交互世界;

采用多叉樹結構表達3D世界布局藍圖,節(jié)點為3D資產描述,邊表示父子從屬關系與空間布局關系;

利用LLM實現低代碼布局搭建,結合物理引擎求解穩(wěn)態(tài)位姿,確保物理可行與交互合理。

具身智能應用

EmbodiedGen以生成式AI重構3D世界構建范式,低成本生成幾何精確、渲染真實的仿真資產(網格+3DGS混合表示),可快速導入仿真引擎,支撐機器人感知-決策-執(zhí)行全流程閉環(huán),賦能仿真數據生成與算法閉環(huán)評測等核心應用,包括以下具體示例:

通過EmbodiedGen構建物理精確數字孿生,在MuJoCo仿真環(huán)境中進行動態(tài)交互仿真。

通過EmbodiedGen生成待評測3D資產,并在Isaac中對操作模型性能進行仿真評測。

通過EmbodiedGen編輯物體紋理,生成多樣性場景,對RoboTwin搭建的操作任務進行數據資產增廣。

通過EmbodiedGen生成3D物體資產,用于OpenAI Gym中的導航及避障任務仿真。

總結與展望

EmbodiedGen通過整合圖像、文本等多模態(tài)輸入,打通從單體資產生成到物理真實的可交互式3D世界構建的全流程。模塊化設計與生成式AI的深度融合,提高具身智能數據獲取效率與仿真環(huán)境多樣性。未來,EmbodiedGen將作為開放平臺持續(xù)演進,助力通用智能體的開發(fā)與評測,推動具身智能從研究走向應用落地。

致謝

EmbodiedGen涉及以下出色的開源模型和項目:

[1] Jianfeng Xiang, et al. TRELLIS: Structured 3D Latents for Scalable and Versatile 3D Generation. arXiv preprint arXiv:2412.01506.

[2] Tencent Hunyuan3D Team. Hunyuan3D?Delight?v2.0 Model Card, 2025.

[3] Wu Ruiqi, et al. DIPO: Dual-state images controlled articulated object generation powered by diverse data. arXiv preprint arXiv:2505.20460, 2025.

[4] Kirillov Alexander, et al. Segment anything. arXiv preprint arXiv:2304.02643, 2023.

[5] Daniel Gatis, et al. Rembg: A tool to remove images background. 2022.

[6] Xintao Wang, et al. Real-ESRGAN: Training Real-World Blind Super-Resolution with Pure Synthetic Data. ICCVW, 2021.

[7] Kolors Team. Kolors: Effective Training of Diffusion Model for Photorealistic Text-to-Image Synthesis.

[8] Guo Pu, et al. Pano2Room: Novel View Synthesis from a Single Indoor Panorama. SIGGRAPH Asia 2024.

[9] Feng Mingyuan, et al. Diffusion360: Seamless 360 Degree Panoramic Image Generation based on Diffusion Models. arXiv preprint arXiv:2311.13141, 2023.

[10] Stability AI. Stable Diffusion 3.5 Medium. 2024.

[11] Eftekhar Ainaz, et. Omnidata: A Scalable Pipeline for Making Multi-Task Mid-Level Vision Datasets from 3D Scans. ICCV 2021.

[12] Qwen2.5-VL team. Qwen2.5-VL Technical Report. arXiv preprint arXiv:2502.13923. 2025.

[13] OpenAI. GPT-4o https://openai.com/index/hello-gpt-4o 2024.

責編: 集小微
來源:地平線HorizonRobotics #地平線# #具身智能#
THE END
關閉
加載

PDF 加載中...