Visual Scenes with Utterances Dataset

github2024-04-21 更新2024-05-31 收录

下载链接：

https://github.com/yahoojapan/VSU-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

为了促进智能系统的发展，我们创建了一个名为视觉场景与话语数据集（VSU）的模拟数据集，该数据集包含大量视觉场景中的图像变体，以及带有相应被注释者的注释话语。该数据集基于GazeFollow数据集（Recasens等人，2015年），并进一步注释了话语文本和话语的接收者。

To advance the development of intelligent systems, we have created a simulated dataset named Visual Scenes and Utterances (VSU). This dataset encompasses a vast array of image variations within visual scenes, along with annotated utterances from corresponding annotators. The dataset is built upon the GazeFollow dataset (Recasens et al., 2015) and further annotates the text of utterances and their recipients.

创建时间：

2018-12-10

原始信息汇总

Visual Scenes with Utterances Dataset (VSU)

数据集概述

目的: 为了促进智能系统的发展，创建了一个模拟数据集，名为Visual Scenes with Utterances (VSU)，包含大量视觉场景的图像变化，以及带有注释的言语和相应的对话对象。
基础: 基于GazeFollow数据集（Recasens et al., 2015），该数据集包含原始图像、带头部位置注释的裁剪演讲者图像和凝视方向。
新增注释: 在GazeFollow数据集的基础上，新增了言语文本注释和言语对象注释。

数据集版本

VSU Dataset 1.0 (ARVSU): 使用第一版数据集开发了一个基于多模态深度学习的模型，用于从特定说话者的视角预测对话对象。此版本在IJCAI论文中称为ARVSU，应用为对话对象识别。

注释格式

存储: 注释存储于单一的TSV文件中。
字段描述:
- id: VSU注释的唯一标识符。
- gfid: GazeFollow数据集的注释ID。
- image: GazeFollow数据集中的图像文件名。
- addressee: 对话对象类型列表，以逗号分隔。可能的类型包括line_of_sight, photographer, monologue, others, not_applicable。
- utterance: 图像中人物的言语（文本）。

引用信息

@inproceedings{ijcai2018-214, title = {Deep Learning Based Multi-modal Addressee Recognition in Visual Scenes with Utterances}, author = {Thao Minh Le and Nobuyuki Shimizu and Takashi Miyazaki and Koichi Shinoda}, booktitle = {Proceedings of the Twenty-Seventh International Joint Conference on Artificial Intelligence, {IJCAI-18}}, publisher = {International Joint Conferences on Artificial Intelligence Organization},
pages = {1546--1553}, year = {2018}, month = {7}, doi = {10.24963/ijcai.2018/214}, url = {https://doi.org/10.24963/ijcai.2018/214}, }

搜集汇总

数据集介绍

构建方式

在智能系统日益普及的背景下，为了促进对复杂社交场景的理解，研究者们构建了名为Visual Scenes with Utterances (VSU)的数据集。该数据集基于GazeFollow数据集（Recasens等，2015），在其原有的图像、裁剪的说话者图像及其头部位置标注和注视方向的基础上，进一步添加了文本形式的言语标注以及言语所指向的对象。通过这种方式，VSU数据集不仅保留了原始数据集的视觉信息，还引入了语言和社交互动的维度，从而为多模态学习提供了丰富的资源。

特点

VSU数据集的显著特点在于其多模态的特性，结合了视觉场景和言语信息，使得研究者能够探索视觉与语言之间的复杂关系。数据集中的每个样本不仅包含图像和言语，还详细标注了言语的接收者，这为研究社交互动中的言语指向问题提供了宝贵的数据支持。此外，数据集的标注格式统一，便于不同研究者进行数据处理和模型训练，增强了数据集的实用性和可扩展性。

使用方法

VSU数据集的使用方法相对直观，研究者可以通过下载数据集中的图像和标注文件，利用TSV格式的标注文件进行数据解析。标注文件中包含了每个样本的唯一标识符、GazeFollow数据集的标注ID、图像文件名、言语接收者的类型以及具体的言语内容。研究者可以根据这些信息，结合深度学习模型，进行多模态数据的处理和分析，特别是在言语指向识别和社交场景理解等领域。

背景与挑战

背景概述

随着智能系统的广泛应用，社会对其在复杂社交场景中的理解能力提出了更高的期望。为推动这一领域的发展，研究人员创建了名为Visual Scenes with Utterances (VSU)的数据集。该数据集基于GazeFollow数据集（Recasens等，2015），并进一步标注了文本中的话语及其对应的听众。VSU数据集的核心研究问题在于通过多模态深度学习模型预测特定说话者的对话对象。该数据集的创建不仅丰富了视觉场景与语言交互的研究资源，还为智能系统在社交场景中的应用提供了重要的数据支持。

当前挑战

VSU数据集在构建过程中面临多项挑战。首先，如何在视觉场景中准确标注话语及其对应的听众是一个复杂的问题，涉及到多模态数据的整合与分析。其次，数据集的多样性和覆盖范围需要确保，以避免模型在特定场景下的过拟合。此外，多模态深度学习模型的训练与优化也是一个技术难题，需要平衡不同模态数据之间的特征融合与信息提取。这些挑战不仅影响了数据集的质量，也对后续研究提出了更高的技术要求。

常用场景

经典使用场景

在智能系统日益普及的背景下，Visual Scenes with Utterances Dataset（VSU）数据集的经典使用场景主要集中在多模态深度学习模型的开发上，特别是用于预测特定说话者的对话对象。通过结合视觉场景中的图像与对应的文本标注，研究者能够训练模型以识别和理解复杂的社交场景，从而提升智能系统在社交互动中的理解能力。

实际应用

在实际应用中，VSU数据集可广泛应用于智能助手、社交机器人和虚拟现实等领域。例如，在智能助手中，该数据集可以帮助系统更准确地识别用户的对话对象，从而提供更加个性化和精准的服务。此外，在社交机器人和虚拟现实中，该数据集的应用能够增强人机交互的自然性和流畅性。

衍生相关工作

基于VSU数据集，许多相关研究工作得以展开，特别是在多模态深度学习领域。例如，研究者们开发了多种模型用于对话对象的识别，并在此基础上进一步探索了多模态数据的融合与处理方法。这些工作不仅丰富了多模态学习的理论框架，还为实际应用提供了强有力的技术支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集