five

IVLLab/MultiDialog|多模态对话数据集|情感分析数据集

收藏
hugging_face2024-07-20 更新2024-03-04 收录
多模态对话
情感分析
下载链接:
https://hf-mirror.com/datasets/IVLLab/MultiDialog
下载链接
链接失效反馈
资源简介:
该数据集包含手动注释的元数据,将音频文件与转录、情感和其他属性链接起来。数据集支持多种任务,包括多模态对话生成、自动语音识别和文本到语音转换。数据集的语言为英语,并提供了一个黄金情感对话子集,用于研究对话中的情感动态。数据集的结构包括音频文件、对话ID、话语ID、来源、音频特征、转录文本、情感标签和原始路径等信息。

该数据集包含手动注释的元数据,将音频文件与转录、情感和其他属性链接起来。数据集支持多种任务,包括多模态对话生成、自动语音识别和文本到语音转换。数据集的语言为英语,并提供了一个黄金情感对话子集,用于研究对话中的情感动态。数据集的结构包括音频文件、对话ID、话语ID、来源、音频特征、转录文本、情感标签和原始路径等信息。
提供机构:
IVLLab
原始信息汇总

数据集描述

该数据集包含手动标注的元数据,将音频文件与转录、情感和其他属性关联起来。对于MultiDialog的视频文件访问,请在此处下载

数据集统计

train valid_freq valid_rare test_freq test_rare Total
# 对话数 7,011 448 443 450 381 8,733
# 话语数 151,645 8,516 9,556 9,811 8,331 187,859
平均每对话话语数 21.63 19.01 21.57 21.80 21.87 21.51
平均每话语长度(秒) 6.50 6.23 6.40 6.99 6.49 6.51
平均每对话长度(分钟) 2.34 1.97 2.28 2.54 2.36 2.33
总长度(小时) 273.93 14.74 17.00 19.04 15.01 339.71

示例用法

数据集包含train, test_freq, test_rare, valid_freq, 和 valid_rare 几个部分。以下是一个示例用法:

python from datasets import load_dataset

MultiD = load_dataset("IVLLab/MultiDialog", "valid_freq", use_auth_token=True)

查看结构

print(MultiD)

动态加载音频样本

audio_input = MultiD["valid_freq"][0]["audio"] # 第一个解码的音频样本 transcription = MultiD["valid_freq"][0]["value"] # 第一个转录

支持的任务

  • 多模态对话生成:该数据集可用于训练端到端的多模态对话生成模型。
  • 自动语音识别:该数据集可用于训练自动语音识别(ASR)模型。
  • 文本到语音:该数据集也可用于训练文本到语音(TTS)模型。

语言

Multidialog包含英语的音频和转录数据。

黄金情感对话子集

我们提供了一个黄金情感对话子集,这是一个更可靠的资源,用于研究对话中的情感动态。我们将情感准确率高于40%的演员的对话分类为黄金情感对话。请使用以下id的演员的对话:a, b, c, e, f, g, i, j, 和 k。

数据集结构

数据实例

python { file_name: t_ffa55df6-114d-4b36-87a1-7af6b8b63d9b/t_ffa55df6-114d-4b36-87a1-7af6b8b63d9b_0k.wav conv_id: t_ffa55df6-114d-4b36-87a1-7af6b8b63d9b, utterance_id: 0, from: gpt, audio: { path: /home/user/.cache/huggingface/datasets/downloads/extracted/cache_id/t_152ee99a-fec0-4d37-87a8-b1510a9dc7e5/t_152ee99a-fec0-4d37-87a8-b1510a9dc7e5_0i.wav, array: array([0.0005188 , 0.00085449, 0.00012207, ..., 0.00125122, 0.00076294, 0.00036621], dtype=float32), sampling_rate: 16000 }, value: Are you a football fan?, emotion: Neutral, original_full_path: valid_freq/t_ffa55df6-114d-4b36-87a1-7af6b8b63d9b/t_ffa55df6-114d-4b36-87a1-7af6b8b63d9b_0k.wav }

数据字段

  • file_name (字符串) - 特定分割目录中音频样本的相对文件路径。
  • conv_id (字符串) - 每个对话的唯一标识符。
  • utterance_id (浮点数) - 话语索引。
  • from (字符串) - 消息的来源(人类,gpt)。
  • audio (音频特征) - 包含音频路径、解码的音频数组和采样率的字典。
    • 在非流模式(默认)中,路径指向本地提取的音频。在流模式中,路径是存档内音频段的相对路径(文件未下载并本地提取)。
  • value (字符串) - 话语的转录。
  • emotion (字符串) - 话语的情感。
  • original_full_path (字符串) - 原始数据目录中原始完整音频样本的相对路径。

情感标签包括:"Neutral", "Happy", "Fear", "Angry", "Disgusting", "Surprising", "Sad"

AI搜集汇总
数据集介绍
main_image_url
构建方式
MultiDialog数据集通过精心设计,包含了大量手动注释的元数据,这些元数据将音频文件与转录、情感和其他属性紧密关联。数据集的构建过程中,研究人员对音频文件进行了详细的标注,确保每个对话片段都能与相应的情感标签和转录文本精确匹配。此外,数据集还提供了视频文件的链接,进一步丰富了多模态对话的资源。
使用方法
使用MultiDialog数据集时,研究者可以通过HuggingFace的datasets库加载数据,并根据需要选择不同的数据分割(如train、test_freq、test_rare等)。数据集提供了详细的API接口,支持动态加载音频样本和转录文本。此外,数据集还支持多模态对话生成、自动语音识别和文本到语音转换等任务,为多领域的研究提供了广泛的应用场景。
背景与挑战
背景概述
在自然语言处理和多模态对话系统领域,IVLLab/MultiDialog数据集的引入标志着对面对面对话模型研究的重要进展。该数据集由韩国KAIST大学的研究人员主导,于2024年创建,旨在解决多模态对话生成、自动语音识别和文本到语音转换等核心问题。通过包含手动注释的元数据,该数据集不仅提供了音频文件与转录、情感和其他属性的关联,还为研究情感动态在对话中的作用提供了宝贵资源。其影响力在于推动了多模态对话系统的实际应用,并为相关领域的研究提供了新的基准。
当前挑战
尽管IVLLab/MultiDialog数据集在多模态对话生成和情感分析方面展现了显著潜力,但其构建过程中仍面临若干挑战。首先,多模态数据的整合与同步要求高精度的技术处理,以确保音频、视频和文本数据的一致性。其次,情感标注的准确性依赖于高质量的注释,这需要大量的人力和时间投入。此外,数据集的规模和多样性虽然较大,但仍需进一步扩展以覆盖更广泛的对话场景和情感表达。这些挑战不仅影响了数据集的构建效率,也对其在实际应用中的表现提出了更高的要求。
常用场景
经典使用场景
在多模态对话生成领域,IVLLab/MultiDialog数据集被广泛应用于训练端到端的对话系统。该数据集不仅包含丰富的音频和文本数据,还提供了详细的情感标注,使得研究者能够构建更加智能和情感丰富的对话模型。通过结合音频和文本信息,该数据集支持多模态对话生成任务,为研究者提供了丰富的资源来探索和优化对话系统的性能。
解决学术问题
IVLLab/MultiDialog数据集解决了多模态对话生成中的关键学术问题,如情感识别和情感对话生成。通过提供详细的情感标注,该数据集帮助研究者开发能够理解和生成情感丰富对话的模型,从而提升了对话系统的自然性和用户体验。此外,该数据集还为自动语音识别(ASR)和文本到语音(TTS)任务提供了宝贵的资源,推动了相关领域的研究进展。
实际应用
在实际应用中,IVLLab/MultiDialog数据集被用于开发智能客服系统、情感支持机器人和虚拟助手等。这些应用场景需要系统能够理解和生成情感丰富的对话,以提供更加人性化和有效的交互体验。通过利用该数据集,开发者能够训练出更加智能和情感敏感的对话系统,从而在实际应用中取得更好的效果。
数据集最近研究
最新研究方向
在多模态对话生成领域,IVLLab/MultiDialog数据集的最新研究方向主要集中在提升对话系统的情感理解和生成能力。该数据集通过丰富的音频和文本标注,为研究者提供了深入探索情感对话生成的机会。前沿研究不仅关注于提高自动语音识别(ASR)和文本到语音(TTS)的准确性,还致力于开发能够理解和生成情感丰富的对话内容的模型。这些研究对于提升人机交互的自然性和情感共鸣具有重要意义,尤其是在虚拟助手和情感支持系统等应用中。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国1km分辨率逐月降水量数据集(1901-2024)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2024.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

ReferCOCO数据集

ReferCOCO数据集包括refcoco、refcoco+和refcocog三个子集,用于视觉定位任务。数据集包含图像和对应的描述性文本,用于训练和测试模型识别图像中特定对象的能力。

github 收录

VisDrone2019

VisDrone2019数据集由AISKYEYE团队在天津大学机器学习和数据挖掘实验室收集,包含288个视频片段共261,908帧和10,209张静态图像。数据集覆盖了中国14个不同城市的城市和乡村环境,包括行人、车辆、自行车等多种目标,以及稀疏和拥挤场景。数据集使用不同型号的无人机在各种天气和光照条件下收集,手动标注了超过260万个目标边界框,并提供了场景可见性、对象类别和遮挡等重要属性。

github 收录

OpenSonarDatasets

OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库,旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合,以增加开放源代码声纳数据集的可见性,并提供一个更容易查找和比较数据集的方式。

github 收录

CMNEE(Chinese Military News Event Extraction dataset)

CMNEE(Chinese Military News Event Extraction dataset)是国防科技大学、东南大学和清华大学联合构建的一个大规模的、基于文档标注的开源中文军事新闻事件抽取数据集。该数据集包含17,000份文档和29,223个事件,所有事件均基于预定义的军事领域模式人工标注,包括8种事件类型和11种论元角色。数据集构建遵循两阶段多轮次标注策略,首先通过权威网站获取军事新闻文本并预处理,然后依据触发词字典进行预标注,经领域专家审核后形成事件模式。随后,通过人工分批、迭代标注并持续修正,直至满足既定质量标准。CMNEE作为首个专注于军事领域文档级事件抽取的数据集,对推动相关研究具有显著意义。

github 收录