地平線EmbodiedGen：為具身智能打造可交互3D世界生成引擎丨開發(fā)者說

作者：集小微 8小時前

來源：地平線HorizonRobotics #地平線# #具身智能#

2982

概述

具身智能的發(fā)展離不開高質量、多樣化的可交互3D仿真環(huán)境。為突破傳統(tǒng)構建方式的瓶頸，我們提出了EmbodiedGen，一個基于生成式AI技術的自動化3D世界生成引擎，助力低成本、高效率地創(chuàng)建真實且可交互的3D場景。用戶僅需輸入任務定義或場景圖像，即可自動化生成多樣化、可交互的3D世界。

為了解決傳統(tǒng)機器人仿真環(huán)境因高度依賴人工建模，所導致的高成本、低效率瓶頸，我們提出EmbodiedGen，面向具身智能的可交互3D世界的生成式平臺。系統(tǒng)通過多模態(tài)Agent (Scene Designer) 智能解析用戶輸入的場景圖像或任務文本描述，自動化生成符合交互規(guī)則與任務流程的結構化布局 (Scene Graph) ，實現高度定制化的場景設計。基于布局藍圖智能調用資產生成模塊，高效生成物理合理的多樣性3D資產：圖像生成3D（從圖像生成物理真實的3D資產），文本生成3D（從自然語言生成3D資產），活動關節(jié)物體生成（從雙狀態(tài)圖像生成可活動的3D資產），紋理生成編輯（多風格的3D紋理生成與編輯），場景生成（多樣化3D環(huán)境背景生成）。最終輸出高保真的可交互3D世界，為機器人感知-決策-執(zhí)行閉環(huán)提供物理精確的仿真環(huán)境。

單圖生成物理真實3D資產

賦能高保真數字孿生

核心能力：

生成的3D資產具有業(yè)界領先的幾何質量，真實物理屬性、水密性與簡化網格，可無縫導入多種仿真器中使用；

自動標注語義與質檢標簽，包括資產描述、紋理美學打分、前景提取質量檢驗與幾何質量校驗等；

消除紋理高光，結合法線信息多視角融合，輸出2K分辨率紋理，細節(jié)更精致。

自然語言生成3D資產

資產庫規(guī)?；统杀緲嫿?/p>

核心能力：

支持通過自然語言描述（中&英）生成具備語義一致性、物理真實性的3D資產；

通過Agent系統(tǒng)智能拆解復雜生成需求（如“生成100種風格的杯子”）為不同的風格與形狀描述，并通過質檢標簽自動篩選出視覺效果美觀并且物理幾何合理3D物體資產。

活動關節(jié)物體生成

雙狀態(tài)圖像構建可活動3D資產

核心能力：

支持櫥柜、抽屜等常見活動關節(jié)物體的生成，捕捉幾何結構的同時建模部件之間的連接關系與運動行為；

采用擴散模型實現高質量的可控生成，通過雙狀態(tài)消除運動歧義，準確建模物體的關節(jié)關系；

輸出的3D物體資產具備物理合理性，適用于交互式仿真環(huán)境中的操作與交互，詳見我們發(fā)表的另一篇工作 DIPO。

紋理生成與編輯

3D資產視覺風格化增廣

核心能力：

支持以3D網格和文本描述為輸入，生成語義一致、幾何視角一致的高質量2K分辨率紋理；

采用可插拔的可學習模塊，將社區(qū)文生圖基礎模型能力遷移到3D紋理生成，最小化再訓練成本；

輸出資產紋理清晰、風格豐富，具備真實感與藝術表現力，支持3D文字紋理生成。

多樣性場景生成

幾何一致的背景3D資產

核心能力：

自然語言或圖像輸入，生成語義一致、結構合理、尺度真實的3D場景資產；

良好的可擴展性，主要包括全景圖像生成、3D場景生成&迭代補全與尺度坐標對齊三個模塊；

輸出場景包含3D網格與3DGS兩種表達，可作為機器人仿真中的背景資產。

任務驅動的布局生成

構建可交互3D世界藍圖

核心能力：

支持輸入自然語言任務描述（如"Franka robotic arm picks shoes"）或圖片，一鍵生成語義合理、結構完整的3D可交互世界；

采用多叉樹結構表達3D世界布局藍圖，節(jié)點為3D資產描述，邊表示父子從屬關系與空間布局關系；

利用LLM實現低代碼布局搭建，結合物理引擎求解穩(wěn)態(tài)位姿，確保物理可行與交互合理。

具身智能應用

EmbodiedGen以生成式AI重構3D世界構建范式，低成本生成幾何精確、渲染真實的仿真資產（網格+3DGS混合表示），可快速導入仿真引擎，支撐機器人感知-決策-執(zhí)行全流程閉環(huán)，賦能仿真數據生成與算法閉環(huán)評測等核心應用，包括以下具體示例：

通過EmbodiedGen構建物理精確數字孿生，在MuJoCo仿真環(huán)境中進行動態(tài)交互仿真。

通過EmbodiedGen生成待評測3D資產，并在Isaac中對操作模型性能進行仿真評測。

通過EmbodiedGen編輯物體紋理，生成多樣性場景，對RoboTwin搭建的操作任務進行數據資產增廣。

通過EmbodiedGen生成3D物體資產，用于OpenAI Gym中的導航及避障任務仿真。

總結與展望

EmbodiedGen通過整合圖像、文本等多模態(tài)輸入，打通從單體資產生成到物理真實的可交互式3D世界構建的全流程。模塊化設計與生成式AI的深度融合，提高具身智能數據獲取效率與仿真環(huán)境多樣性。未來，EmbodiedGen將作為開放平臺持續(xù)演進，助力通用智能體的開發(fā)與評測，推動具身智能從研究走向應用落地。

致謝

EmbodiedGen涉及以下出色的開源模型和項目：

[1] Jianfeng Xiang, et al. TRELLIS: Structured 3D Latents for Scalable and Versatile 3D Generation. arXiv preprint arXiv:2412.01506.

[2] Tencent Hunyuan3D Team. Hunyuan3D?Delight?v2.0 Model Card, 2025.

[3] Wu Ruiqi, et al. DIPO: Dual-state images controlled articulated object generation powered by diverse data. arXiv preprint arXiv:2505.20460, 2025.

[4] Kirillov Alexander, et al. Segment anything. arXiv preprint arXiv:2304.02643, 2023.

[5] Daniel Gatis, et al. Rembg: A tool to remove images background. 2022.

[6] Xintao Wang, et al. Real-ESRGAN: Training Real-World Blind Super-Resolution with Pure Synthetic Data. ICCVW, 2021.

[7] Kolors Team. Kolors: Effective Training of Diffusion Model for Photorealistic Text-to-Image Synthesis.

[8] Guo Pu, et al. Pano2Room: Novel View Synthesis from a Single Indoor Panorama. SIGGRAPH Asia 2024.

[9] Feng Mingyuan, et al. Diffusion360: Seamless 360 Degree Panoramic Image Generation based on Diffusion Models. arXiv preprint arXiv:2311.13141, 2023.

[10] Stability AI. Stable Diffusion 3.5 Medium. 2024.

[11] Eftekhar Ainaz, et. Omnidata: A Scalable Pipeline for Making Multi-Task Mid-Level Vision Datasets from 3D Scans. ICCV 2021.

[12] Qwen2.5-VL team. Qwen2.5-VL Technical Report. arXiv preprint arXiv:2502.13923. 2025.

[13] OpenAI. GPT-4o https://openai.com/index/hello-gpt-4o 2024.