Genex-DB
收藏Generative World Explorer (Genex)
概述
Generative World Explorer (Genex) 是一个面向具身AI的框架,旨在通过生成式探索来解决部分观测下的规划问题。与传统依赖物理探索更新世界信念的方法不同,Genex 允许代理通过生成式视频模拟来探索大规模3D环境(如城市场景),从而在不进行物理探索的情况下更新信念。
主要特点
- 视频生成:Genex 使用视频生成模型创建逼真的360度全景视频序列,模拟前进运动。
- 探索一致性:通过生成一致的视图确保导航循环一致性,当返回原点时保持视图一致。
- 具身AI集成:支持机器人、自动驾驶车辆和虚拟环境等应用。
架构
Genex 的架构基于一个经过修改的视频生成模型,该模型将输入的全景图像转换为逼真的视频序列,利用图像到视频扩散模型确保导航过程中的球面一致性,并保持帧间的视觉真实性。
探索
Genex 与多模态LLMs(如GPT-4)集成,支持代理在想象世界中的导航。代理执行前进和方向变化等动作,通过全景视频生成无缝适应未见环境。
具身AI
Genex 为具身AI代理提供了新的智能水平。在单一代理决策场景中,想象自己在驾驶时听到警报声但看不到来源,Genex 揭示了前方拐角处的救护车,从而做出让路决策。在多代理交互场景中,Genex 帮助识别行人无法看到接近的车辆,反之亦然,从而采取行动防止碰撞。
交互式演示
尝试 交互式演示 以探索 Genex 的功能。[待完成]
代码使用
待发布
BibTeX
bibtex @misc{lu2024generativeworldexplorer, title={Generative World Explorer}, author={Taiming Lu and Tianmin Shu and Alan Yuille and Daniel Khashabi and Jieneng Chen}, year={2024}, eprint={2411.11844}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2411.11844}, }




