five

IVLLab/MultiDialog|多模态对话数据集|情感分析数据集

收藏
hugging_face2024-07-20 更新2024-03-04 收录
多模态对话
情感分析
下载链接:
https://hf-mirror.com/datasets/IVLLab/MultiDialog
下载链接
链接失效反馈
资源简介:
该数据集包含手动注释的元数据,将音频文件与转录、情感和其他属性链接起来。数据集支持多种任务,包括多模态对话生成、自动语音识别和文本到语音转换。数据集的语言为英语,并提供了一个黄金情感对话子集,用于研究对话中的情感动态。数据集的结构包括音频文件、对话ID、话语ID、来源、音频特征、转录文本、情感标签和原始路径等信息。

该数据集包含手动注释的元数据,将音频文件与转录、情感和其他属性链接起来。数据集支持多种任务,包括多模态对话生成、自动语音识别和文本到语音转换。数据集的语言为英语,并提供了一个黄金情感对话子集,用于研究对话中的情感动态。数据集的结构包括音频文件、对话ID、话语ID、来源、音频特征、转录文本、情感标签和原始路径等信息。
提供机构:
IVLLab
原始信息汇总

数据集描述

该数据集包含手动标注的元数据,将音频文件与转录、情感和其他属性关联起来。对于MultiDialog的视频文件访问,请在此处下载

数据集统计

train valid_freq valid_rare test_freq test_rare Total
# 对话数 7,011 448 443 450 381 8,733
# 话语数 151,645 8,516 9,556 9,811 8,331 187,859
平均每对话话语数 21.63 19.01 21.57 21.80 21.87 21.51
平均每话语长度(秒) 6.50 6.23 6.40 6.99 6.49 6.51
平均每对话长度(分钟) 2.34 1.97 2.28 2.54 2.36 2.33
总长度(小时) 273.93 14.74 17.00 19.04 15.01 339.71

示例用法

数据集包含train, test_freq, test_rare, valid_freq, 和 valid_rare 几个部分。以下是一个示例用法:

python from datasets import load_dataset

MultiD = load_dataset("IVLLab/MultiDialog", "valid_freq", use_auth_token=True)

查看结构

print(MultiD)

动态加载音频样本

audio_input = MultiD["valid_freq"][0]["audio"] # 第一个解码的音频样本 transcription = MultiD["valid_freq"][0]["value"] # 第一个转录

支持的任务

  • 多模态对话生成:该数据集可用于训练端到端的多模态对话生成模型。
  • 自动语音识别:该数据集可用于训练自动语音识别(ASR)模型。
  • 文本到语音:该数据集也可用于训练文本到语音(TTS)模型。

语言

Multidialog包含英语的音频和转录数据。

黄金情感对话子集

我们提供了一个黄金情感对话子集,这是一个更可靠的资源,用于研究对话中的情感动态。我们将情感准确率高于40%的演员的对话分类为黄金情感对话。请使用以下id的演员的对话:a, b, c, e, f, g, i, j, 和 k。

数据集结构

数据实例

python { file_name: t_ffa55df6-114d-4b36-87a1-7af6b8b63d9b/t_ffa55df6-114d-4b36-87a1-7af6b8b63d9b_0k.wav conv_id: t_ffa55df6-114d-4b36-87a1-7af6b8b63d9b, utterance_id: 0, from: gpt, audio: { path: /home/user/.cache/huggingface/datasets/downloads/extracted/cache_id/t_152ee99a-fec0-4d37-87a8-b1510a9dc7e5/t_152ee99a-fec0-4d37-87a8-b1510a9dc7e5_0i.wav, array: array([0.0005188 , 0.00085449, 0.00012207, ..., 0.00125122, 0.00076294, 0.00036621], dtype=float32), sampling_rate: 16000 }, value: Are you a football fan?, emotion: Neutral, original_full_path: valid_freq/t_ffa55df6-114d-4b36-87a1-7af6b8b63d9b/t_ffa55df6-114d-4b36-87a1-7af6b8b63d9b_0k.wav }

数据字段

  • file_name (字符串) - 特定分割目录中音频样本的相对文件路径。
  • conv_id (字符串) - 每个对话的唯一标识符。
  • utterance_id (浮点数) - 话语索引。
  • from (字符串) - 消息的来源(人类,gpt)。
  • audio (音频特征) - 包含音频路径、解码的音频数组和采样率的字典。
    • 在非流模式(默认)中,路径指向本地提取的音频。在流模式中,路径是存档内音频段的相对路径(文件未下载并本地提取)。
  • value (字符串) - 话语的转录。
  • emotion (字符串) - 话语的情感。
  • original_full_path (字符串) - 原始数据目录中原始完整音频样本的相对路径。

情感标签包括:"Neutral", "Happy", "Fear", "Angry", "Disgusting", "Surprising", "Sad"

AI搜集汇总
数据集介绍
main_image_url
构建方式
MultiDialog数据集通过精心设计,包含了大量手动注释的元数据,这些元数据将音频文件与转录、情感和其他属性紧密关联。数据集的构建过程中,研究人员对音频文件进行了详细的标注,确保每个对话片段都能与相应的情感标签和转录文本精确匹配。此外,数据集还提供了视频文件的链接,进一步丰富了多模态对话的资源。
使用方法
使用MultiDialog数据集时,研究者可以通过HuggingFace的datasets库加载数据,并根据需要选择不同的数据分割(如train、test_freq、test_rare等)。数据集提供了详细的API接口,支持动态加载音频样本和转录文本。此外,数据集还支持多模态对话生成、自动语音识别和文本到语音转换等任务,为多领域的研究提供了广泛的应用场景。
背景与挑战
背景概述
在自然语言处理和多模态对话系统领域,IVLLab/MultiDialog数据集的引入标志着对面对面对话模型研究的重要进展。该数据集由韩国KAIST大学的研究人员主导,于2024年创建,旨在解决多模态对话生成、自动语音识别和文本到语音转换等核心问题。通过包含手动注释的元数据,该数据集不仅提供了音频文件与转录、情感和其他属性的关联,还为研究情感动态在对话中的作用提供了宝贵资源。其影响力在于推动了多模态对话系统的实际应用,并为相关领域的研究提供了新的基准。
当前挑战
尽管IVLLab/MultiDialog数据集在多模态对话生成和情感分析方面展现了显著潜力,但其构建过程中仍面临若干挑战。首先,多模态数据的整合与同步要求高精度的技术处理,以确保音频、视频和文本数据的一致性。其次,情感标注的准确性依赖于高质量的注释,这需要大量的人力和时间投入。此外,数据集的规模和多样性虽然较大,但仍需进一步扩展以覆盖更广泛的对话场景和情感表达。这些挑战不仅影响了数据集的构建效率,也对其在实际应用中的表现提出了更高的要求。
常用场景
经典使用场景
在多模态对话生成领域,IVLLab/MultiDialog数据集被广泛应用于训练端到端的对话系统。该数据集不仅包含丰富的音频和文本数据,还提供了详细的情感标注,使得研究者能够构建更加智能和情感丰富的对话模型。通过结合音频和文本信息,该数据集支持多模态对话生成任务,为研究者提供了丰富的资源来探索和优化对话系统的性能。
解决学术问题
IVLLab/MultiDialog数据集解决了多模态对话生成中的关键学术问题,如情感识别和情感对话生成。通过提供详细的情感标注,该数据集帮助研究者开发能够理解和生成情感丰富对话的模型,从而提升了对话系统的自然性和用户体验。此外,该数据集还为自动语音识别(ASR)和文本到语音(TTS)任务提供了宝贵的资源,推动了相关领域的研究进展。
实际应用
在实际应用中,IVLLab/MultiDialog数据集被用于开发智能客服系统、情感支持机器人和虚拟助手等。这些应用场景需要系统能够理解和生成情感丰富的对话,以提供更加人性化和有效的交互体验。通过利用该数据集,开发者能够训练出更加智能和情感敏感的对话系统,从而在实际应用中取得更好的效果。
数据集最近研究
最新研究方向
在多模态对话生成领域,IVLLab/MultiDialog数据集的最新研究方向主要集中在提升对话系统的情感理解和生成能力。该数据集通过丰富的音频和文本标注,为研究者提供了深入探索情感对话生成的机会。前沿研究不仅关注于提高自动语音识别(ASR)和文本到语音(TTS)的准确性,还致力于开发能够理解和生成情感丰富的对话内容的模型。这些研究对于提升人机交互的自然性和情感共鸣具有重要意义,尤其是在虚拟助手和情感支持系统等应用中。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

CHARLS

中国健康与养老追踪调查(CHARLS)数据集,旨在收集反映中国45岁及以上中老年人家庭和个人的高质量微观数据,用以分析人口老龄化问题,内容包括健康状况、经济状况、家庭结构和社会支持等。

charls.pku.edu.cn 收录

中国近海台风路径集合数据集(1945-2024)

1945-2024年度,中国近海台风路径数据集,包含每个台风的真实路径信息、台风强度、气压、中心风速、移动速度、移动方向。 数据源为获取温州台风网(http://www.wztf121.com/)的真实观测路径数据,经过处理整合后形成文件,如使用csv文件需使用文本编辑器打开浏览,否则会出现乱码,如要使用excel查看数据,请使用xlsx的格式。

国家海洋科学数据中心 收录

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

典型分布式光伏出力预测数据集

光伏电站出力数据每5分钟从电站机房监控系统获取;气象实测数据从气象站获取,气象站建于电站30号箱变附近,每5分钟将采集的数据通过光纤传输到机房;数值天气预报数据利用中国电科院新能源气象应用机房的WRF业务系统(包括30TF计算刀片机、250TB并行存储)进行中尺度模式计算后输出预报产品,每日8点前通过反向隔离装置推送到电站内网预测系统。

国家基础学科公共科学数据中心 收录