five

IVLLab/MultiDialog|多模态对话数据集|情感分析数据集

收藏
hugging_face2024-07-20 更新2024-03-04 收录
多模态对话
情感分析
下载链接:
https://hf-mirror.com/datasets/IVLLab/MultiDialog
下载链接
链接失效反馈
资源简介:
该数据集包含手动注释的元数据,将音频文件与转录、情感和其他属性链接起来。数据集支持多种任务,包括多模态对话生成、自动语音识别和文本到语音转换。数据集的语言为英语,并提供了一个黄金情感对话子集,用于研究对话中的情感动态。数据集的结构包括音频文件、对话ID、话语ID、来源、音频特征、转录文本、情感标签和原始路径等信息。

该数据集包含手动注释的元数据,将音频文件与转录、情感和其他属性链接起来。数据集支持多种任务,包括多模态对话生成、自动语音识别和文本到语音转换。数据集的语言为英语,并提供了一个黄金情感对话子集,用于研究对话中的情感动态。数据集的结构包括音频文件、对话ID、话语ID、来源、音频特征、转录文本、情感标签和原始路径等信息。
提供机构:
IVLLab
原始信息汇总

数据集描述

该数据集包含手动标注的元数据,将音频文件与转录、情感和其他属性关联起来。对于MultiDialog的视频文件访问,请在此处下载

数据集统计

train valid_freq valid_rare test_freq test_rare Total
# 对话数 7,011 448 443 450 381 8,733
# 话语数 151,645 8,516 9,556 9,811 8,331 187,859
平均每对话话语数 21.63 19.01 21.57 21.80 21.87 21.51
平均每话语长度(秒) 6.50 6.23 6.40 6.99 6.49 6.51
平均每对话长度(分钟) 2.34 1.97 2.28 2.54 2.36 2.33
总长度(小时) 273.93 14.74 17.00 19.04 15.01 339.71

示例用法

数据集包含train, test_freq, test_rare, valid_freq, 和 valid_rare 几个部分。以下是一个示例用法:

python from datasets import load_dataset

MultiD = load_dataset("IVLLab/MultiDialog", "valid_freq", use_auth_token=True)

查看结构

print(MultiD)

动态加载音频样本

audio_input = MultiD["valid_freq"][0]["audio"] # 第一个解码的音频样本 transcription = MultiD["valid_freq"][0]["value"] # 第一个转录

支持的任务

  • 多模态对话生成:该数据集可用于训练端到端的多模态对话生成模型。
  • 自动语音识别:该数据集可用于训练自动语音识别(ASR)模型。
  • 文本到语音:该数据集也可用于训练文本到语音(TTS)模型。

语言

Multidialog包含英语的音频和转录数据。

黄金情感对话子集

我们提供了一个黄金情感对话子集,这是一个更可靠的资源,用于研究对话中的情感动态。我们将情感准确率高于40%的演员的对话分类为黄金情感对话。请使用以下id的演员的对话:a, b, c, e, f, g, i, j, 和 k。

数据集结构

数据实例

python { file_name: t_ffa55df6-114d-4b36-87a1-7af6b8b63d9b/t_ffa55df6-114d-4b36-87a1-7af6b8b63d9b_0k.wav conv_id: t_ffa55df6-114d-4b36-87a1-7af6b8b63d9b, utterance_id: 0, from: gpt, audio: { path: /home/user/.cache/huggingface/datasets/downloads/extracted/cache_id/t_152ee99a-fec0-4d37-87a8-b1510a9dc7e5/t_152ee99a-fec0-4d37-87a8-b1510a9dc7e5_0i.wav, array: array([0.0005188 , 0.00085449, 0.00012207, ..., 0.00125122, 0.00076294, 0.00036621], dtype=float32), sampling_rate: 16000 }, value: Are you a football fan?, emotion: Neutral, original_full_path: valid_freq/t_ffa55df6-114d-4b36-87a1-7af6b8b63d9b/t_ffa55df6-114d-4b36-87a1-7af6b8b63d9b_0k.wav }

数据字段

  • file_name (字符串) - 特定分割目录中音频样本的相对文件路径。
  • conv_id (字符串) - 每个对话的唯一标识符。
  • utterance_id (浮点数) - 话语索引。
  • from (字符串) - 消息的来源(人类,gpt)。
  • audio (音频特征) - 包含音频路径、解码的音频数组和采样率的字典。
    • 在非流模式(默认)中,路径指向本地提取的音频。在流模式中,路径是存档内音频段的相对路径(文件未下载并本地提取)。
  • value (字符串) - 话语的转录。
  • emotion (字符串) - 话语的情感。
  • original_full_path (字符串) - 原始数据目录中原始完整音频样本的相对路径。

情感标签包括:"Neutral", "Happy", "Fear", "Angry", "Disgusting", "Surprising", "Sad"

AI搜集汇总
数据集介绍
main_image_url
构建方式
MultiDialog数据集通过精心设计,包含了大量手动注释的元数据,这些元数据将音频文件与转录、情感和其他属性紧密关联。数据集的构建过程中,研究人员对音频文件进行了详细的标注,确保每个对话片段都能与相应的情感标签和转录文本精确匹配。此外,数据集还提供了视频文件的链接,进一步丰富了多模态对话的资源。
使用方法
使用MultiDialog数据集时,研究者可以通过HuggingFace的datasets库加载数据,并根据需要选择不同的数据分割(如train、test_freq、test_rare等)。数据集提供了详细的API接口,支持动态加载音频样本和转录文本。此外,数据集还支持多模态对话生成、自动语音识别和文本到语音转换等任务,为多领域的研究提供了广泛的应用场景。
背景与挑战
背景概述
在自然语言处理和多模态对话系统领域,IVLLab/MultiDialog数据集的引入标志着对面对面对话模型研究的重要进展。该数据集由韩国KAIST大学的研究人员主导,于2024年创建,旨在解决多模态对话生成、自动语音识别和文本到语音转换等核心问题。通过包含手动注释的元数据,该数据集不仅提供了音频文件与转录、情感和其他属性的关联,还为研究情感动态在对话中的作用提供了宝贵资源。其影响力在于推动了多模态对话系统的实际应用,并为相关领域的研究提供了新的基准。
当前挑战
尽管IVLLab/MultiDialog数据集在多模态对话生成和情感分析方面展现了显著潜力,但其构建过程中仍面临若干挑战。首先,多模态数据的整合与同步要求高精度的技术处理,以确保音频、视频和文本数据的一致性。其次,情感标注的准确性依赖于高质量的注释,这需要大量的人力和时间投入。此外,数据集的规模和多样性虽然较大,但仍需进一步扩展以覆盖更广泛的对话场景和情感表达。这些挑战不仅影响了数据集的构建效率,也对其在实际应用中的表现提出了更高的要求。
常用场景
经典使用场景
在多模态对话生成领域,IVLLab/MultiDialog数据集被广泛应用于训练端到端的对话系统。该数据集不仅包含丰富的音频和文本数据,还提供了详细的情感标注,使得研究者能够构建更加智能和情感丰富的对话模型。通过结合音频和文本信息,该数据集支持多模态对话生成任务,为研究者提供了丰富的资源来探索和优化对话系统的性能。
解决学术问题
IVLLab/MultiDialog数据集解决了多模态对话生成中的关键学术问题,如情感识别和情感对话生成。通过提供详细的情感标注,该数据集帮助研究者开发能够理解和生成情感丰富对话的模型,从而提升了对话系统的自然性和用户体验。此外,该数据集还为自动语音识别(ASR)和文本到语音(TTS)任务提供了宝贵的资源,推动了相关领域的研究进展。
实际应用
在实际应用中,IVLLab/MultiDialog数据集被用于开发智能客服系统、情感支持机器人和虚拟助手等。这些应用场景需要系统能够理解和生成情感丰富的对话,以提供更加人性化和有效的交互体验。通过利用该数据集,开发者能够训练出更加智能和情感敏感的对话系统,从而在实际应用中取得更好的效果。
数据集最近研究
最新研究方向
在多模态对话生成领域,IVLLab/MultiDialog数据集的最新研究方向主要集中在提升对话系统的情感理解和生成能力。该数据集通过丰富的音频和文本标注,为研究者提供了深入探索情感对话生成的机会。前沿研究不仅关注于提高自动语音识别(ASR)和文本到语音(TTS)的准确性,还致力于开发能够理解和生成情感丰富的对话内容的模型。这些研究对于提升人机交互的自然性和情感共鸣具有重要意义,尤其是在虚拟助手和情感支持系统等应用中。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

CatMeows

该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。

huggingface 收录

猫狗图像数据集

该数据集包含猫和狗的图像,每类各12500张。训练集和测试集分别包含10000张和2500张图像,用于模型的训练和评估。

github 收录

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

NACC

NACC(National Alzheimer's Coordinating Center)数据集包含了来自美国各地的阿尔茨海默病研究中心的临床和神经病理学数据。该数据集主要用于研究阿尔茨海默病和其他相关痴呆症的进展和治疗。数据包括患者的临床评估、认知测试、神经影像学数据、遗传信息和病理学报告等。

naccdata.org 收录

Subway Dataset

该数据集包含了全球多个城市的地铁系统数据,包括车站信息、线路图、列车时刻表、乘客流量等。数据集旨在帮助研究人员和开发者分析和模拟城市交通系统,优化地铁运营和乘客体验。

www.kaggle.com 收录