IVLLab/MultiDialog|多模态对话数据集|情感分析数据集
收藏数据集描述
该数据集包含手动标注的元数据,将音频文件与转录、情感和其他属性关联起来。对于MultiDialog的视频文件访问,请在此处下载。
数据集统计
train | valid_freq | valid_rare | test_freq | test_rare | Total | |
---|---|---|---|---|---|---|
# 对话数 | 7,011 | 448 | 443 | 450 | 381 | 8,733 |
# 话语数 | 151,645 | 8,516 | 9,556 | 9,811 | 8,331 | 187,859 |
平均每对话话语数 | 21.63 | 19.01 | 21.57 | 21.80 | 21.87 | 21.51 |
平均每话语长度(秒) | 6.50 | 6.23 | 6.40 | 6.99 | 6.49 | 6.51 |
平均每对话长度(分钟) | 2.34 | 1.97 | 2.28 | 2.54 | 2.36 | 2.33 |
总长度(小时) | 273.93 | 14.74 | 17.00 | 19.04 | 15.01 | 339.71 |
示例用法
数据集包含train, test_freq, test_rare, valid_freq, 和 valid_rare 几个部分。以下是一个示例用法:
python from datasets import load_dataset
MultiD = load_dataset("IVLLab/MultiDialog", "valid_freq", use_auth_token=True)
查看结构
print(MultiD)
动态加载音频样本
audio_input = MultiD["valid_freq"][0]["audio"] # 第一个解码的音频样本 transcription = MultiD["valid_freq"][0]["value"] # 第一个转录
支持的任务
多模态对话生成
:该数据集可用于训练端到端的多模态对话生成模型。自动语音识别
:该数据集可用于训练自动语音识别(ASR)模型。文本到语音
:该数据集也可用于训练文本到语音(TTS)模型。
语言
Multidialog包含英语的音频和转录数据。
黄金情感对话子集
我们提供了一个黄金情感对话子集,这是一个更可靠的资源,用于研究对话中的情感动态。我们将情感准确率高于40%的演员的对话分类为黄金情感对话。请使用以下id的演员的对话:a, b, c, e, f, g, i, j, 和 k。
数据集结构
数据实例
python { file_name: t_ffa55df6-114d-4b36-87a1-7af6b8b63d9b/t_ffa55df6-114d-4b36-87a1-7af6b8b63d9b_0k.wav conv_id: t_ffa55df6-114d-4b36-87a1-7af6b8b63d9b, utterance_id: 0, from: gpt, audio: { path: /home/user/.cache/huggingface/datasets/downloads/extracted/cache_id/t_152ee99a-fec0-4d37-87a8-b1510a9dc7e5/t_152ee99a-fec0-4d37-87a8-b1510a9dc7e5_0i.wav, array: array([0.0005188 , 0.00085449, 0.00012207, ..., 0.00125122, 0.00076294, 0.00036621], dtype=float32), sampling_rate: 16000 }, value: Are you a football fan?, emotion: Neutral, original_full_path: valid_freq/t_ffa55df6-114d-4b36-87a1-7af6b8b63d9b/t_ffa55df6-114d-4b36-87a1-7af6b8b63d9b_0k.wav }
数据字段
file_name
(字符串) - 特定分割目录中音频样本的相对文件路径。conv_id
(字符串) - 每个对话的唯一标识符。utterance_id
(浮点数) - 话语索引。from
(字符串) - 消息的来源(人类,gpt)。audio
(音频特征) - 包含音频路径、解码的音频数组和采样率的字典。- 在非流模式(默认)中,路径指向本地提取的音频。在流模式中,路径是存档内音频段的相对路径(文件未下载并本地提取)。
value
(字符串) - 话语的转录。emotion
(字符串) - 话语的情感。original_full_path
(字符串) - 原始数据目录中原始完整音频样本的相对路径。
情感标签包括:"Neutral", "Happy", "Fear", "Angry", "Disgusting", "Surprising", "Sad"

学生课堂行为数据集 (SCB-dataset3)
学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。
arXiv 收录
CHARLS
中国健康与养老追踪调查(CHARLS)数据集,旨在收集反映中国45岁及以上中老年人家庭和个人的高质量微观数据,用以分析人口老龄化问题,内容包括健康状况、经济状况、家庭结构和社会支持等。
charls.pku.edu.cn 收录
中国近海台风路径集合数据集(1945-2024)
1945-2024年度,中国近海台风路径数据集,包含每个台风的真实路径信息、台风强度、气压、中心风速、移动速度、移动方向。 数据源为获取温州台风网(http://www.wztf121.com/)的真实观测路径数据,经过处理整合后形成文件,如使用csv文件需使用文本编辑器打开浏览,否则会出现乱码,如要使用excel查看数据,请使用xlsx的格式。
国家海洋科学数据中心 收录
中国农村金融统计数据
该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。
www.pbc.gov.cn 收录
典型分布式光伏出力预测数据集
光伏电站出力数据每5分钟从电站机房监控系统获取;气象实测数据从气象站获取,气象站建于电站30号箱变附近,每5分钟将采集的数据通过光纤传输到机房;数值天气预报数据利用中国电科院新能源气象应用机房的WRF业务系统(包括30TF计算刀片机、250TB并行存储)进行中尺度模式计算后输出预报产品,每日8点前通过反向隔离装置推送到电站内网预测系统。
国家基础学科公共科学数据中心 收录