AffectVisDial

Name: AffectVisDial
Creator: 阿卜杜拉国王科技大学
Published: 2023-09-12 12:37:37
License: 暂无描述

arXiv2023-09-12 更新2024-06-21 收录

下载链接：

https://affective-visual-dialog.github.io

下载链接

链接失效反馈

官方服务：

资源简介：

AffectVisDial是一个大规模数据集，由阿卜杜拉国王科技大学创建，包含50,000个基于视觉的对话，每个对话包含10轮问答，总共有27,180个工作小时的数据。该数据集旨在研究情感解释和推理任务，特别是在视觉基础对话中情感的形成。数据集内容丰富，涉及多种视觉艺术作品，旨在通过对话捕捉参与者的情感反应和解释。创建过程采用实时通信协议，确保数据的质量和相关性。该数据集的应用领域包括开发情感感知AI系统，以及通过人类反馈增强模型的情感理解能力。

AffectVisDial is a large-scale dataset developed by King Abdullah University of Science and Technology. It contains 50,000 vision-grounded dialogues, each consisting of 10 rounds of question-answer exchanges, with a total of 27,180 working hours of collected data. This dataset is targeted at research on emotion interpretation and reasoning tasks, especially the emergence of emotions in vision-grounded dialogues. Featuring rich content covering a wide variety of visual artworks, it aims to capture the emotional responses and explanations of participants through dialogues. The dataset was constructed using real-time communication protocols to ensure the quality and relevance of the collected data. Its application domains include the development of emotion-aware AI systems, as well as enhancing models' emotional understanding capabilities via human feedback.

提供机构：

阿卜杜拉国王科技大学

创建时间：

2023-08-31

搜集汇总

数据集介绍

构建方式

AffectVisDial数据集通过一种创新的实时通信协议构建，其中两个代理（提问者和回答者）参与对话。提问者对隐藏的图像提出问题，而回答者则观察图像并提供答案。对话开始时，展示两个对立的意见（正面和负面）以激发讨论。经过10轮问答后，提问者需提供情感类别响应及其解释，随后揭示隐藏图像，双方再次表达情感响应。此过程确保了数据集的多样性和深度，涵盖了情感的动态变化。

使用方法

AffectVisDial数据集可用于多种情感理解和生成任务，包括对话基础的问答、情感分类和情感解释生成。研究者可以利用该数据集训练和评估模型，以提高其在视觉基础对话中理解和生成情感反应的能力。此外，数据集还可用于探索情感引导的答案生成和情感驱动的图像编辑，为情感智能系统的开发提供丰富的资源。

背景与挑战

背景概述

情感在塑造人类体验中扮演着至关重要的角色，影响着我们的感知、注意力、记忆和决策过程。随着人工智能系统的日益普及，考虑人类情感的方面变得至关重要，以开发能够根据感知到的情感灵活自然地响应的系统，从而提高人工智能的社会接受度并更好地支持人类。AffectVisDial数据集由King Abdullah University of Science and Technology (KAUST)和Google DeepMind的研究人员于2023年创建，旨在通过视觉基础对话研究情感的形成和推理。该数据集包含50,000个10轮视觉基础对话，以及最终的情感归属和对话引导的文本情感解释，总计27,180个工作小时。AffectVisDial数据集的引入填补了现有研究在视觉基础语言对情感响应影响的综合考察方面的空白，为情感感知AI系统的开发提供了重要的资源。

当前挑战

AffectVisDial数据集在构建过程中面临多个挑战。首先，收集大规模的视觉基础对话数据需要克服视觉引导对话中的情感预测和解释的复杂性。其次，确保数据集的质量和相关性，排除不完整或不相关的对话，需要进行严格的数据筛选和手动检查。此外，该数据集需要处理情感的主观性和多样性，确保情感标签和解释的准确性和一致性。最后，训练模型以理解和生成基于对话的情感解释，同时保持与人类情感体验的契合度，是一个持续的挑战。这些挑战共同构成了AffectVisDial数据集在情感推理和视觉基础对话研究中的核心难题。

常用场景

经典使用场景

AffectVisDial数据集的经典使用场景在于情感推理任务，特别是在视觉基础对话中。该数据集通过收集50,000个10轮的视觉基础对话，结合情感属性和对话驱动的文本情感解释，为研究情感在视觉对话中的形成和推理提供了丰富的资源。研究者可以利用此数据集训练和评估模型在对话中的情感预测和解释能力，从而推动情感智能系统的发展。

解决学术问题

AffectVisDial数据集解决了在视觉基础对话中情感理解和推理的学术研究问题。传统研究多集中在视觉刺激对情感的直接影响，而忽视了对话中语言对情感反应的综合影响。该数据集通过捕捉视觉和语言在对话中的交互，填补了这一研究空白，为开发能够理解和生成情感解释的AI系统提供了重要支持，推动了情感计算和多模态交互领域的研究进展。

实际应用

AffectVisDial数据集在实际应用中具有广泛潜力，特别是在情感智能系统和人机交互领域。例如，在心理健康支持系统中，该数据集可以用于训练能够识别和响应用户情感状态的对话代理，提供更为个性化和情感化的支持。此外，在教育、娱乐和客户服务等领域，基于该数据集的模型可以增强虚拟助手的情感理解能力，提升用户体验和互动质量。

数据集最近研究