VFD Dataset

github2022-12-24 更新2024-05-31 收录

下载链接：

https://github.com/yahoojapan/VFD-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

我们提出了一种视觉基础的第一人称对话（VFD）数据集，包含口头和非口头响应。该数据集提供手动标注的内容包括：（1）代理的第一人称图像，（2）人类说话者的语句，（3）说话者的眼睛注视位置，以及（4）代理的口头和非口头响应。所有语句和响应均为日文。

We introduce a Visual Foundation Dialogue (VFD) dataset that encompasses both verbal and non-verbal responses. This dataset provides manually annotated content including: (1) first-person images of the agent, (2) utterances from the human speaker, (3) the speaker's eye gaze positions, and (4) the agent's verbal and non-verbal responses. All utterances and responses are in Japanese.

创建时间：

2020-09-23

原始信息汇总

VFD Dataset (Japanese)

数据集概述

类型: 视觉基础的第一人称对话（VFD）数据集，包含口头和非口头响应。
内容: 数据集提供以下内容：
- 第一人称图像
- 人类说话者的言语
- 说话者的目光位置
- 代理的口头和非口头响应
语言: 所有言语和响应均为日语。
图像与目光位置: 图像及其目光位置数据来自GazeFollow (MIT)。

标注格式

存储: 单个TSV文件
字段描述:
- utterance: 图像中人物的言语（文本）
- image_path: GazeFollow数据集中的图像文件路径
- gfid: GazeFollow数据集的标注ID
- verbal_response: 代理的口头响应（文本）
- non_verbal_response: 代理的非口头响应（文本）

数据集使用

图像下载: 首先从Download GazeFollow (MIT)下载图像数据。
数据准备: 使用python prepare_data_for_selection_task.py脚本输出训练/验证/测试数据。

许可证

许可证: Creative Commons Attribution 4.0 License

搜集汇总

数据集介绍

构建方式

VFD数据集的构建基于视觉基础的第一人称对话，涵盖了人类说话者的言语、非言语反应以及说话者的眼动注视位置。数据集通过手动标注的方式，收集了第一人称视角的图像、说话者的言语、眼动注视位置以及代理的言语和非言语反应。所有数据均以日语呈现，图像数据来源于GazeFollow数据集，确保了数据的多样性和真实性。

特点

VFD数据集的特点在于其多模态的数据结构，结合了视觉、语言和眼动信息，为研究第一人称对话提供了丰富的资源。数据集中包含了人类说话者的言语、代理的言语和非言语反应，以及眼动注视位置，这些信息以TSV文件格式存储，便于后续的分析和处理。此外，所有数据均以日语呈现，为日语自然语言处理研究提供了独特的数据支持。

使用方法

使用VFD数据集时，首先需要从GazeFollow数据集下载图像数据。随后，通过运行提供的Python脚本，可以生成训练、验证和测试数据。该脚本依赖于Python 3.8.5和pandas 1.1.3库，确保了数据处理的高效性和可重复性。数据集的TSV文件格式使得数据加载和分析变得简便，适用于多种自然语言处理和计算机视觉任务。

背景与挑战

背景概述

VFD数据集（Visually-grounded First-person Dialogue Dataset）由Hisashi Kamezawa等研究人员于2020年提出，旨在解决视觉基础的第一人称对话问题。该数据集结合了第一人称视角的图像、人类说话者的言语、说话者的眼动位置以及代理的言语和非言语回应，所有数据均以日语呈现。该数据集的构建基于MIT的GazeFollow数据集，通过人工标注的方式，提供了丰富的多模态信息。VFD数据集的发布为自然语言处理领域，特别是视觉与语言交互研究提供了重要的数据支持，推动了对话系统、眼动追踪等技术的发展。

当前挑战

VFD数据集在构建和应用过程中面临多重挑战。首先，视觉基础的第一人称对话任务要求模型能够同时理解视觉信息与语言信息，这对多模态融合技术提出了较高要求。其次，数据集中的眼动位置标注需要精确捕捉人类视觉注意力，这对标注的准确性和一致性提出了挑战。此外，由于数据集的言语和非言语回应均为日语，跨语言模型的开发和应用也面临语言差异带来的障碍。最后，数据集的构建依赖于GazeFollow数据集，如何有效整合外部数据资源并确保数据质量，也是研究中的一大难题。

常用场景

经典使用场景

VFD数据集在视觉基础对话系统研究中具有重要应用，特别是在涉及第一人称视角的对话场景中。该数据集通过提供带有眼动追踪信息的第一人称图像和对应的对话文本，为研究者提供了一个多模态的对话交互平台。经典的使用场景包括模拟真实世界中的对话情境，研究人类在视觉信息引导下的语言生成机制，以及探索非语言响应（如眼神交流）在对话中的作用。

解决学术问题

VFD数据集解决了多模态对话系统中视觉与语言信息融合的难题。通过提供第一人称视角的图像和对应的对话文本，研究者可以深入探讨视觉信息如何影响语言生成和理解。此外，数据集中的眼动追踪数据为研究人类注意力机制提供了宝贵资源，帮助揭示视觉信息在对话中的动态作用。这些研究不仅推动了对话系统的发展，还为认知科学和心理学领域提供了新的研究视角。

衍生相关工作

VFD数据集自发布以来，已衍生出多项经典研究工作。例如，基于该数据集的视觉基础对话生成模型在自然语言处理领域取得了显著进展。研究者利用数据集中的多模态信息，开发了能够同时处理视觉和语言输入的对话系统。此外，数据集还被用于研究眼动追踪与语言生成的关系，推动了多模态交互技术的发展。这些工作不仅丰富了对话系统的研究内容，还为未来的智能系统设计提供了新的思路。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集