Genex-DB

github2024-11-27 更新2024-11-28 收录

下载链接：

https://github.com/Beckschen/genex

下载链接

链接失效反馈

官方服务：

资源简介：

Genex-DB是一个合成数据集，用于训练Generative World Explorer (Genex)模型。该数据集生成高质量的观察结果，跨越长时间范围，通过提供更新的信念来改进LLM代理的决策。

Genex-DB is a synthetic dataset developed for training the Generative World Explorer (Genex) model. It generates high-quality observations spanning long time horizons, and enhances the decision-making capabilities of LLM agents by providing updated beliefs.

创建时间：

2024-11-19

原始信息汇总

Generative World Explorer (Genex)

概述

Generative World Explorer (Genex) 是一个面向具身AI的框架，旨在通过生成式探索来解决部分观测下的规划问题。与传统依赖物理探索更新世界信念的方法不同，Genex 允许代理通过生成式视频模拟来探索大规模3D环境（如城市场景），从而在不进行物理探索的情况下更新信念。

主要特点

视频生成：Genex 使用视频生成模型创建逼真的360度全景视频序列，模拟前进运动。
探索一致性：通过生成一致的视图确保导航循环一致性，当返回原点时保持视图一致。
具身AI集成：支持机器人、自动驾驶车辆和虚拟环境等应用。

架构

Genex 的架构基于一个经过修改的视频生成模型，该模型将输入的全景图像转换为逼真的视频序列，利用图像到视频扩散模型确保导航过程中的球面一致性，并保持帧间的视觉真实性。

探索

Genex 与多模态LLMs（如GPT-4）集成，支持代理在想象世界中的导航。代理执行前进和方向变化等动作，通过全景视频生成无缝适应未见环境。

具身AI

Genex 为具身AI代理提供了新的智能水平。在单一代理决策场景中，想象自己在驾驶时听到警报声但看不到来源，Genex 揭示了前方拐角处的救护车，从而做出让路决策。在多代理交互场景中，Genex 帮助识别行人无法看到接近的车辆，反之亦然，从而采取行动防止碰撞。

交互式演示

尝试交互式演示以探索 Genex 的功能。[待完成]

代码使用

待发布

BibTeX

bibtex @misc{lu2024generativeworldexplorer, title={Generative World Explorer}, author={Taiming Lu and Tianmin Shu and Alan Yuille and Daniel Khashabi and Jieneng Chen}, year={2024}, eprint={2411.11844}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2411.11844}, }

搜集汇总

数据集介绍

构建方式

在构建Genex-DB数据集时，研究团队采用了先进的图像生成技术，特别是基于图像到视频扩散模型的方法。这些模型被用来生成高分辨率的360度全景视频序列，模拟在大型3D环境中的前向移动。通过这种方式，数据集不仅捕捉了视觉上的连续性和一致性，还确保了在导航过程中返回原点时的视图一致性。这种构建方式使得数据集能够为智能体提供丰富的想象空间，从而在没有实际物理探索的情况下更新其对环境的认知。

使用方法

使用Genex-DB数据集时，研究人员和开发者可以通过提供的API接口访问生成的全景视频序列。这些序列可以用于训练和验证智能体在部分观测环境中的决策能力。具体来说，数据集可以与现有的机器学习框架结合，用于训练智能体在想象环境中进行导航和决策。此外，数据集还支持与多模态大型语言模型的集成，使得智能体能够在复杂的交互场景中进行更为精细的决策。通过这些方法，Genex-DB为提升智能体的认知和决策能力提供了强有力的数据支持。

背景与挑战

背景概述

在具身人工智能领域，规划与部分观测的结合一直是核心挑战。传统方法依赖于物理探索来更新对世界的信念，而人类则通过心理想象未见部分来做出决策，无需持续的物理探索。Genex-DB数据集由Taiming Lu、Tianmin Shu、Alan Yuille、Daniel Khashabi和Jieneng Chen等研究人员于2024年创建，旨在模拟这一人类行为。该数据集支持Generative World Explorer (Genex)框架，使代理能够在大型3D世界（如城市场景）中进行心理探索，并通过想象观测来更新信念。这一创新显著提升了如大型语言模型代理的决策能力，为具身AI领域带来了新的智能水平。

当前挑战

Genex-DB数据集在构建过程中面临多项挑战。首先，生成高质量的长时间观测视频序列需要复杂的视频生成模型，确保在导航过程中保持视觉一致性和真实性。其次，确保探索的一致性，即在返回原点时生成一致的视图，是一个技术难题。此外，将这一框架与多模态大型语言模型（如GPT-4）集成，以支持代理在想象世界中的导航，涉及复杂的跨模态数据处理和模型协同。这些挑战不仅涉及技术实现，还关系到如何在实际应用中确保系统的稳定性和可靠性，如在机器人、自动驾驶车辆和虚拟环境中的应用。

常用场景

经典使用场景

在具身人工智能领域，Genex-DB数据集的经典使用场景主要体现在其支持的生成世界探索（Genex）框架中。该框架通过视频生成模型，使智能体能够在不进行实际物理探索的情况下，对大规模3D环境（如城市场景）进行心理探索。这种能力使得智能体能够生成高质量的观察数据，从而在长时程内更新其对环境的信念，显著提升了决策模型的性能，特别是在与大型语言模型（如LLM）结合时。

解决学术问题

Genex-DB数据集解决了具身人工智能中一个关键的学术问题，即在部分观测条件下进行有效规划。传统方法依赖于物理探索来更新对世界的信念，而Genex-DB通过引入心理探索的概念，使得智能体能够在不进行实际探索的情况下，通过想象未见部分来更新信念。这一创新不仅提高了决策的准确性，还为具身AI的研究开辟了新的方向，特别是在复杂环境中的导航和决策制定方面。

实际应用

在实际应用中，Genex-DB数据集的应用场景广泛，涵盖了机器人、自动驾驶车辆和虚拟环境等多个领域。例如，在自动驾驶领域，车辆可以通过Genex框架生成前方道路的虚拟视图，从而在没有实际行驶的情况下预见潜在的危险，提前做出反应。在机器人导航中，机器人可以利用该数据集进行心理探索，规划最优路径，避免物理探索带来的资源消耗和时间延迟。

数据集最近研究