five

Genex-DB

收藏
github2024-11-27 更新2024-11-28 收录
下载链接:
https://github.com/Beckschen/genex
下载链接
链接失效反馈
官方服务:
资源简介:
Genex-DB是一个合成数据集,用于训练Generative World Explorer (Genex)模型。该数据集生成高质量的观察结果,跨越长时间范围,通过提供更新的信念来改进LLM代理的决策。

Genex-DB is a synthetic dataset developed for training the Generative World Explorer (Genex) model. It generates high-quality observations spanning long time horizons, and enhances the decision-making capabilities of LLM agents by providing updated beliefs.
创建时间:
2024-11-19
原始信息汇总

Generative World Explorer (Genex)

概述

Generative World Explorer (Genex) 是一个面向具身AI的框架,旨在通过生成式探索来解决部分观测下的规划问题。与传统依赖物理探索更新世界信念的方法不同,Genex 允许代理通过生成式视频模拟来探索大规模3D环境(如城市场景),从而在不进行物理探索的情况下更新信念。

主要特点

  • 视频生成:Genex 使用视频生成模型创建逼真的360度全景视频序列,模拟前进运动。
  • 探索一致性:通过生成一致的视图确保导航循环一致性,当返回原点时保持视图一致。
  • 具身AI集成:支持机器人、自动驾驶车辆和虚拟环境等应用。

架构

Genex 的架构基于一个经过修改的视频生成模型,该模型将输入的全景图像转换为逼真的视频序列,利用图像到视频扩散模型确保导航过程中的球面一致性,并保持帧间的视觉真实性。

探索

Genex 与多模态LLMs(如GPT-4)集成,支持代理在想象世界中的导航。代理执行前进和方向变化等动作,通过全景视频生成无缝适应未见环境。

具身AI

Genex 为具身AI代理提供了新的智能水平。在单一代理决策场景中,想象自己在驾驶时听到警报声但看不到来源,Genex 揭示了前方拐角处的救护车,从而做出让路决策。在多代理交互场景中,Genex 帮助识别行人无法看到接近的车辆,反之亦然,从而采取行动防止碰撞。

交互式演示

尝试 交互式演示 以探索 Genex 的功能。[待完成]

代码使用

待发布

BibTeX

bibtex @misc{lu2024generativeworldexplorer, title={Generative World Explorer}, author={Taiming Lu and Tianmin Shu and Alan Yuille and Daniel Khashabi and Jieneng Chen}, year={2024}, eprint={2411.11844}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2411.11844}, }

搜集汇总
数据集介绍
main_image_url
构建方式
在构建Genex-DB数据集时,研究团队采用了先进的图像生成技术,特别是基于图像到视频扩散模型的方法。这些模型被用来生成高分辨率的360度全景视频序列,模拟在大型3D环境中的前向移动。通过这种方式,数据集不仅捕捉了视觉上的连续性和一致性,还确保了在导航过程中返回原点时的视图一致性。这种构建方式使得数据集能够为智能体提供丰富的想象空间,从而在没有实际物理探索的情况下更新其对环境的认知。
使用方法
使用Genex-DB数据集时,研究人员和开发者可以通过提供的API接口访问生成的全景视频序列。这些序列可以用于训练和验证智能体在部分观测环境中的决策能力。具体来说,数据集可以与现有的机器学习框架结合,用于训练智能体在想象环境中进行导航和决策。此外,数据集还支持与多模态大型语言模型的集成,使得智能体能够在复杂的交互场景中进行更为精细的决策。通过这些方法,Genex-DB为提升智能体的认知和决策能力提供了强有力的数据支持。
背景与挑战
背景概述
在具身人工智能领域,规划与部分观测的结合一直是核心挑战。传统方法依赖于物理探索来更新对世界的信念,而人类则通过心理想象未见部分来做出决策,无需持续的物理探索。Genex-DB数据集由Taiming Lu、Tianmin Shu、Alan Yuille、Daniel Khashabi和Jieneng Chen等研究人员于2024年创建,旨在模拟这一人类行为。该数据集支持Generative World Explorer (Genex)框架,使代理能够在大型3D世界(如城市场景)中进行心理探索,并通过想象观测来更新信念。这一创新显著提升了如大型语言模型代理的决策能力,为具身AI领域带来了新的智能水平。
当前挑战
Genex-DB数据集在构建过程中面临多项挑战。首先,生成高质量的长时间观测视频序列需要复杂的视频生成模型,确保在导航过程中保持视觉一致性和真实性。其次,确保探索的一致性,即在返回原点时生成一致的视图,是一个技术难题。此外,将这一框架与多模态大型语言模型(如GPT-4)集成,以支持代理在想象世界中的导航,涉及复杂的跨模态数据处理和模型协同。这些挑战不仅涉及技术实现,还关系到如何在实际应用中确保系统的稳定性和可靠性,如在机器人、自动驾驶车辆和虚拟环境中的应用。
常用场景
经典使用场景
在具身人工智能领域,Genex-DB数据集的经典使用场景主要体现在其支持的生成世界探索(Genex)框架中。该框架通过视频生成模型,使智能体能够在不进行实际物理探索的情况下,对大规模3D环境(如城市场景)进行心理探索。这种能力使得智能体能够生成高质量的观察数据,从而在长时程内更新其对环境的信念,显著提升了决策模型的性能,特别是在与大型语言模型(如LLM)结合时。
解决学术问题
Genex-DB数据集解决了具身人工智能中一个关键的学术问题,即在部分观测条件下进行有效规划。传统方法依赖于物理探索来更新对世界的信念,而Genex-DB通过引入心理探索的概念,使得智能体能够在不进行实际探索的情况下,通过想象未见部分来更新信念。这一创新不仅提高了决策的准确性,还为具身AI的研究开辟了新的方向,特别是在复杂环境中的导航和决策制定方面。
实际应用
在实际应用中,Genex-DB数据集的应用场景广泛,涵盖了机器人、自动驾驶车辆和虚拟环境等多个领域。例如,在自动驾驶领域,车辆可以通过Genex框架生成前方道路的虚拟视图,从而在没有实际行驶的情况下预见潜在的危险,提前做出反应。在机器人导航中,机器人可以利用该数据集进行心理探索,规划最优路径,避免物理探索带来的资源消耗和时间延迟。
数据集最近研究
最新研究方向
在具身人工智能领域,Genex-DB数据集的最新研究方向聚焦于通过生成式世界探索(Generative World Explorer, Genex)实现对大规模3D环境(如城市场景)的虚拟探索。不同于依赖物理探索的传统方法,Genex框架使智能体能够通过想象未见部分来更新对世界的信念,从而在不进行实际物理探索的情况下做出决策。这一研究不仅提升了决策模型的效率,还为机器人、自动驾驶车辆和虚拟环境中的应用提供了新的可能性。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作