Osaka University Multimodal Dialogue Corpus (Hazumi2010)

github2024-05-08 更新2024-05-31 收录

下载链接：

https://github.com/ouktlab/Hazumi2010

下载链接

链接失效反馈

官方服务：

资源简介：

Hazumi2010数据集包含以下文件群：1. 视频数据；2. 浏览用ELAN文件；3. 实验用数据文件；4. 问卷数据。这些数据用于多模态对话语料的研究，包括对话的音频、视频、文本和用户反馈等。数据集详细描述了如何获取和使用这些数据，以及数据的具体内容和格式。

The Hazumi2010 dataset comprises the following file groups: 1. Video data; 2. ELAN files for browsing; 3. Experimental data files; 4. Questionnaire data. These data are utilized for research on multimodal dialogue corpora, encompassing audio, video, text, and user feedback from dialogues. The dataset provides a detailed description of how to acquire and utilize these data, along with specifics on the content and format of the data.

创建时间：

2021-09-08

原始信息汇总

数据集概述

数据集名称

Hazumi2010
大阪大学多模态对话语料库（Hazumi2010）

数据集内容

视频数据
- 仅对签订数据使用协议的用户提供，由NII IDR（国立信息学研究所信息学研究数据存储库）分发。
- 获取方法和概要说明文档请参考NII IDR网站。
浏览用ELAN文件
- 包含所有注释和转录的eaf（ELAN注释格式）文件。
- 使用ELAN注释工具，配合视频数据使用。
- 文件命名格式：(实验参与者ID).eaf，实验参与者ID为YYMMGAANN，其中YYMM表示语料库版本，G表示性别，AA表示年龄，NN为编号。
- 包含的注释结果：
  - 实验参与者的发言转录
  - 系统发言及其对话行为
  - 心理印象注释（UI）
  - 话题持续性注释（TC）
实验用转储文件
- 用于预测对话中用户（实验参与者）的心理印象的标签数据。
- 包含用户的声音、视频、发言内容（语言）提取的多模态特征量（实数值）以及由第三方赋予的心理印象值和话题持续性注释值（均为连续值）。
- 文件结构：dumpfiles/下，每个文件名如2010F2002.csv，包含各会话中参与者的交换（发言对）之间的多模态特征量和注释值。
问卷数据
- 实验开始前和实验结束后的问卷数据。
- 包含文件：
  - questionnaire.xlsx：本人和Wizard的问卷结果
  - questionnaire-3rdparty-rapport.xlsx：第三方注释者5名赋予的18项关系
  - questionnaire-3rdparty-personality.xlsx：第三方注释者5名赋予的性格特性

数据集特点

多模态数据，包括视频、音频、语言和注释数据。
详细的注释和转录，适用于多模态机器学习实验。
包含第三方注释者的心理印象和话题持续性注释，增加了数据的多视角分析可能性。

搜集汇总

数据集介绍

构建方式

大阪大学多模态对话语料库（Hazumi2010）的构建方式涵盖了多模态数据的采集与标注。该数据集通过视频记录、ELAN标注文件、实验用数据转储文件以及问卷数据等多种形式，全面捕捉了对话过程中的语言、情感、话题延续性等多维度信息。视频数据通过NII IDR平台进行分发，ELAN文件包含了详细的标注和转写信息，实验用转储文件则整合了多模态特征，如语音、视频和语言特征，并附带了第三方标注的心象值和话题延续性值。

特点

Hazumi2010数据集的显著特点在于其多模态数据的丰富性和细致的标注。该数据集不仅包含了对话的语音和视频记录，还通过ELAN工具进行了详细的标注，涵盖了对话行为、心象和话题延续性等多方面的信息。此外，实验用转储文件提供了机器学习所需的特征量，包括语音的韵律特征、面部表情特征以及语言特征，这些特征量通过OpenSmile和OpenFace等工具提取，确保了数据的高质量和多样性。

使用方法

Hazumi2010数据集的使用方法多样，适用于多模态对话系统的研究与开发。研究者可以通过ELAN文件进行对话的详细分析，或利用实验用转储文件进行机器学习模型的训练与评估。转储文件中的多模态特征可以直接用于输入模型的训练，而第三方标注的心象值和话题延续性值则可作为模型的输出标签。此外，问卷数据提供了对话前后参与者的主观感受，进一步丰富了数据集的应用场景。

背景与挑战

背景概述

大阪大学多模态对话语料库（Hazumi2010）是由大阪大学产业科学研究所和北陸先端科学技術大学院大学的研究人员共同创建的。该数据集专注于多模态对话系统的研究，旨在通过整合视频、音频、文本和用户反馈等多种数据类型，深入探讨对话系统中的情感分析、话题延续性以及用户心象等核心问题。Hazumi2010的创建时间为2010年，主要研究人员包括駒谷和範和岡田将吾。该数据集的发布对多模态对话系统的研究具有重要影响，尤其是在情感计算和对话行为分析领域，为相关研究提供了丰富的实验数据和标注信息。

当前挑战

Hazumi2010数据集在构建过程中面临了多重挑战。首先，多模态数据的同步与整合是一个复杂的问题，尤其是在视频、音频和文本数据的时序对齐方面。其次，情感和话题延续性的标注依赖于第三方评估，如何确保标注的一致性和可靠性是一个重要的挑战。此外，数据集的规模和多样性也对模型的泛化能力提出了要求。在应用层面，如何有效利用多模态特征进行情感预测和对话行为分析，以及如何处理不同模态之间的噪声和不确定性，都是当前研究中亟待解决的问题。

常用场景

经典使用场景

大阪大学多模态对话语料库（Hazumi2010）广泛应用于多模态对话系统的研究中，尤其是在对话行为分析、用户情感预测以及话题延续性评估等领域。该数据集通过整合视频、音频、文本以及用户情感和话题延续性的标注数据，为研究者提供了一个全面的实验平台，用于开发和验证多模态对话系统的算法和模型。

解决学术问题

Hazumi2010数据集解决了多模态对话系统中的多个关键学术问题，包括如何有效整合音频、视频和文本数据以进行对话行为分析，以及如何通过多模态特征预测用户的情感和话题延续性。这些问题的解决不仅推动了对话系统领域的技术进步，还为情感计算和自然语言处理提供了新的研究方向。

衍生相关工作

基于Hazumi2010数据集，研究者们开发了多种多模态对话分析模型，如情感预测模型、对话行为分类器和话题延续性评估系统。这些工作不仅在学术界引起了广泛关注，还在工业界得到了实际应用。此外，该数据集还激发了关于多模态数据融合和对话系统鲁棒性研究的进一步探索，推动了相关领域的技术发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集