IVLLab/MultiDialog|多模态对话数据集|情感分析数据集
收藏数据集描述
该数据集包含手动标注的元数据,将音频文件与转录、情感和其他属性关联起来。对于MultiDialog的视频文件访问,请在此处下载。
数据集统计
train | valid_freq | valid_rare | test_freq | test_rare | Total | |
---|---|---|---|---|---|---|
# 对话数 | 7,011 | 448 | 443 | 450 | 381 | 8,733 |
# 话语数 | 151,645 | 8,516 | 9,556 | 9,811 | 8,331 | 187,859 |
平均每对话话语数 | 21.63 | 19.01 | 21.57 | 21.80 | 21.87 | 21.51 |
平均每话语长度(秒) | 6.50 | 6.23 | 6.40 | 6.99 | 6.49 | 6.51 |
平均每对话长度(分钟) | 2.34 | 1.97 | 2.28 | 2.54 | 2.36 | 2.33 |
总长度(小时) | 273.93 | 14.74 | 17.00 | 19.04 | 15.01 | 339.71 |
示例用法
数据集包含train, test_freq, test_rare, valid_freq, 和 valid_rare 几个部分。以下是一个示例用法:
python from datasets import load_dataset
MultiD = load_dataset("IVLLab/MultiDialog", "valid_freq", use_auth_token=True)
查看结构
print(MultiD)
动态加载音频样本
audio_input = MultiD["valid_freq"][0]["audio"] # 第一个解码的音频样本 transcription = MultiD["valid_freq"][0]["value"] # 第一个转录
支持的任务
多模态对话生成
:该数据集可用于训练端到端的多模态对话生成模型。自动语音识别
:该数据集可用于训练自动语音识别(ASR)模型。文本到语音
:该数据集也可用于训练文本到语音(TTS)模型。
语言
Multidialog包含英语的音频和转录数据。
黄金情感对话子集
我们提供了一个黄金情感对话子集,这是一个更可靠的资源,用于研究对话中的情感动态。我们将情感准确率高于40%的演员的对话分类为黄金情感对话。请使用以下id的演员的对话:a, b, c, e, f, g, i, j, 和 k。
数据集结构
数据实例
python { file_name: t_ffa55df6-114d-4b36-87a1-7af6b8b63d9b/t_ffa55df6-114d-4b36-87a1-7af6b8b63d9b_0k.wav conv_id: t_ffa55df6-114d-4b36-87a1-7af6b8b63d9b, utterance_id: 0, from: gpt, audio: { path: /home/user/.cache/huggingface/datasets/downloads/extracted/cache_id/t_152ee99a-fec0-4d37-87a8-b1510a9dc7e5/t_152ee99a-fec0-4d37-87a8-b1510a9dc7e5_0i.wav, array: array([0.0005188 , 0.00085449, 0.00012207, ..., 0.00125122, 0.00076294, 0.00036621], dtype=float32), sampling_rate: 16000 }, value: Are you a football fan?, emotion: Neutral, original_full_path: valid_freq/t_ffa55df6-114d-4b36-87a1-7af6b8b63d9b/t_ffa55df6-114d-4b36-87a1-7af6b8b63d9b_0k.wav }
数据字段
file_name
(字符串) - 特定分割目录中音频样本的相对文件路径。conv_id
(字符串) - 每个对话的唯一标识符。utterance_id
(浮点数) - 话语索引。from
(字符串) - 消息的来源(人类,gpt)。audio
(音频特征) - 包含音频路径、解码的音频数组和采样率的字典。- 在非流模式(默认)中,路径指向本地提取的音频。在流模式中,路径是存档内音频段的相对路径(文件未下载并本地提取)。
value
(字符串) - 话语的转录。emotion
(字符串) - 话语的情感。original_full_path
(字符串) - 原始数据目录中原始完整音频样本的相对路径。
情感标签包括:"Neutral", "Happy", "Fear", "Angry", "Disgusting", "Surprising", "Sad"

CatMeows
该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。
huggingface 收录
猫狗图像数据集
该数据集包含猫和狗的图像,每类各12500张。训练集和测试集分别包含10000张和2500张图像,用于模型的训练和评估。
github 收录
Figshare
Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。
figshare.com 收录
NACC
NACC(National Alzheimer's Coordinating Center)数据集包含了来自美国各地的阿尔茨海默病研究中心的临床和神经病理学数据。该数据集主要用于研究阿尔茨海默病和其他相关痴呆症的进展和治疗。数据包括患者的临床评估、认知测试、神经影像学数据、遗传信息和病理学报告等。
naccdata.org 收录
Subway Dataset
该数据集包含了全球多个城市的地铁系统数据,包括车站信息、线路图、列车时刻表、乘客流量等。数据集旨在帮助研究人员和开发者分析和模拟城市交通系统,优化地铁运营和乘客体验。
www.kaggle.com 收录