PersReFex

Hugging Face2024-10-27 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/ZinengTang/PersReFex

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含用于3D环境中多智能体指称通信任务的空间对话数据。它包括在逼真的室内场景中显示说话者和听众视角的图像对，以及目标对象位置的自然语言描述。该数据集的关键特征是捕捉在共享3D空间中具有不同物理视角的两个智能体之间的通信。每个智能体都有自己独特的场景视角，需要在生成和解释空间参考时考虑彼此的视角。数据集由加州大学伯克利分校策划，并根据MIT许可证发布。它包含1,485个场景中的2,970个对话实例，总共生成了27,504个场景。该数据集旨在用于涉及具身智能体之间指称通信的任务，主要语言为英语。每个实例包含说话者和听众视角的图像、自然语言指称表达、目标对象位置、听众对象选择以及场景元数据，包括智能体位置和方向、指称放置方法和基础环境标识符。

创建时间：

2024-10-27

原始信息汇总

数据集概述

基本信息

语言: 英语
许可证: MIT
数据集大小: 2,970 对话实例
任务类型: 图像到文本、视觉问答
标签: 空间、对话、视觉定位

数据集结构

特征

instance_id: 整数
scene_key: 字符串
listener_view_image: 图像
speaker_view_image: 图像
human_speaker_message: 字符串
speaker_elapsed_time: 浮点数
positions: 字符串
listener_target_bbox: 字符串
listener_distractor_0_bbox: 字符串
listener_distractor_1_bbox: 字符串
speaker_target_bbox: 字符串
speaker_distractor_0_bbox: 字符串
speaker_distractor_1_bbox: 字符串
human_listener_message: 字符串
listener_elapsed_time: 浮点数
type: 字符串

分割

validation: 2,970 实例

数据集创建

基础环境: ScanNet++ (450 高质量 3D 室内环境)
场景生成过程:
- 放置两个具有受控相对方向的代理 (0°到180°)
- 使用随机或对抗性放置方法放置 3 个参考对象
- 从每个代理的角度渲染图像
- 使用 GPT-4V 进行质量过滤

引用

@article{tang2024grounding, title={Grounding Language in Multi-Perspective Referential Communication}, author={Tang, Zineng and Mao, Lingjun and Suhr, Alane}, journal={EMNLP}, year={2024} }

搜集汇总

数据集介绍

构建方式

PersReFex数据集的构建基于ScanNet++中的450个高质量3D室内环境。在场景生成过程中，研究者将两个智能体以0°至180°的相对角度放置，并采用随机或对抗性方式布置三个参考物体。随后，从每个智能体的视角渲染图像，并通过GPT-4V进行质量过滤，以确保数据的准确性和可靠性。这一过程不仅捕捉了多智能体在共享3D空间中的交互，还生成了丰富的视觉和语言数据。

使用方法

PersReFex数据集主要用于多智能体指称通信任务的研究，特别是在3D环境中的视觉与语言交互。研究者可以通过分析说话者和倾听者的视角图像以及自然语言描述，探索智能体在共享空间中的指称表达和对象定位能力。数据集的结构化设计使其能够支持多种任务，如图像到文本生成、视觉问答以及视觉定位。通过使用该数据集，研究者可以深入理解多智能体在复杂环境中的通信机制，并开发更高效的交互模型。

背景与挑战

背景概述

PersReFex数据集由加州大学伯克利分校的研究团队于2024年创建，旨在解决多智能体在3D环境中的指称通信问题。该数据集的核心研究问题在于如何通过自然语言描述，使不同视角的智能体能够准确理解并定位目标物体。数据集基于ScanNet++的高质量3D室内环境，生成了27,504个场景，包含2,970个对话实例。PersReFex的独特之处在于其捕捉了两个智能体在共享3D空间中的不同物理视角，要求智能体在生成和解释空间指称时考虑彼此的视角。该数据集对视觉定位、多智能体通信和自然语言处理领域的研究具有重要影响。

当前挑战

PersReFex数据集在解决多智能体指称通信问题时面临多重挑战。首先，智能体需要在不同的物理视角下生成和理解自然语言描述，这对模型的跨视角推理能力提出了高要求。其次，数据集的构建过程中，场景生成和对象放置的复杂性增加了数据采集的难度，尤其是在随机和对抗性放置策略下，确保数据的多样性和质量成为一大挑战。此外，数据集的规模较大，处理高分辨率图像和复杂的场景元数据对计算资源提出了较高要求。最后，如何通过GPT-4V等先进技术进行质量过滤，确保数据的准确性和一致性，也是构建过程中的关键挑战。

常用场景

经典使用场景

PersReFex数据集在视觉问答和图像到文本生成任务中展现了其独特的价值。通过提供多视角的室内场景图像和自然语言描述，该数据集为研究者提供了一个理想的平台，用于探索多智能体之间的指代沟通。经典的使用场景包括模拟两个智能体在共享3D空间中的对话，其中一个智能体通过语言描述引导另一个智能体定位目标物体。这种场景不仅考验了智能体的视觉理解能力，还测试了其语言生成和解释能力。

解决学术问题

PersReFex数据集解决了多智能体指代沟通中的关键学术问题，特别是在不同视角下的空间理解和语言生成方面。通过提供丰富的多视角图像和自然语言描述，该数据集帮助研究者深入探讨智能体如何在共享环境中进行有效沟通。此外，数据集中的对抗性物体放置方法为研究智能体在复杂环境中的鲁棒性提供了宝贵的数据支持。这些研究不仅推动了多智能体系统的发展，还为自然语言处理和计算机视觉的交叉领域提供了新的研究方向。

实际应用

在实际应用中，PersReFex数据集为智能家居、虚拟助手和机器人导航等领域的开发提供了重要支持。例如，在智能家居系统中，用户可以通过自然语言指令控制智能设备，而设备需要准确理解用户的空间描述。该数据集通过模拟多智能体在3D环境中的沟通，为这些应用场景提供了真实且复杂的数据基础。此外，数据集还可用于训练和评估虚拟助手在复杂环境中的语言理解和生成能力，提升其在实际应用中的表现。

数据集最近研究