dinner-party-corpus
收藏Hugging Face2024-08-19 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/benjamin-paine/dinner-party-corpus
下载链接
链接失效反馈官方服务:
资源简介:
数据集包含两个配置:mixed-channel和split-channel。每个配置包含音频数据、时间戳、转录文本、参与者信息、设备信息等特征。数据集分为训练和测试两个部分,每个部分都有详细的大小和样本数量。数据集的目的是模拟家庭晚餐场景中的自然对话,用于噪声鲁棒性和远场语音处理的研究。
创建时间:
2024-08-19
原始信息汇总
数据集概述
数据集信息
配置名称:mixed-channel
特征
- audio: 音频数据
- start_timestamp: 开始时间戳(字符串)
- start_time_s: 开始时间(秒,浮点数)
- start_frame: 开始帧(无符号64位整数)
- end_timestamp: 结束时间戳(字符串)
- end_time_s: 结束时间(秒,浮点数)
- end_frame: 结束帧(无符号64位整数)
- duration_s: 持续时间(秒,浮点数)
- duration_frames: 持续帧数(无符号64位整数)
- transcription: 转录文本(字符串)
- mother_tongue: 母语(字符串)
- participant_id: 参与者ID(字符串)
- session_id: 会话ID(字符串)
- device_id: 设备ID(字符串)
- device_channel: 设备通道(无符号8位整数)
- device_distance_mm: 设备距离(毫米,无符号16位整数)
- device_type: 设备类型(分类标签,0: close-talk, 1: far-field)
- gender: 性别(分类标签,0: female, 1: male)
- nativeness: 母语性(分类标签,0: native, 1: non-native)
分割
- train: 训练集,22038个样本,2310562016.25字节
- test: 测试集,20430个样本,2198683986.25字节
数据大小
- download_size: 3840697632字节
- dataset_size: 4509246002.5字节
配置名称:split-channel
特征
- audio: 音频数据
- start_timestamp: 开始时间戳(字符串)
- start_time_s: 开始时间(秒,浮点数)
- start_frame: 开始帧(无符号64位整数)
- end_timestamp: 结束时间戳(字符串)
- end_time_s: 结束时间(秒,浮点数)
- end_frame: 结束帧(无符号64位整数)
- duration_s: 持续时间(秒,浮点数)
- duration_frames: 持续帧数(无符号64位整数)
- transcription: 转录文本(字符串)
- mother_tongue: 母语(字符串)
- participant_id: 参与者ID(字符串)
- session_id: 会话ID(字符串)
- device_id: 设备ID(字符串)
- device_channel: 设备通道(无符号8位整数)
- device_distance_mm: 设备距离(毫米,无符号16位整数)
- device_type: 设备类型(分类标签,0: close-talk, 1: far-field)
- gender: 性别(分类标签,0: female, 1: male)
- nativeness: 母语性(分类标签,0: native, 1: non-native)
分割
- train: 训练集,132228个样本,13863370976.5字节
- test: 测试集,122580个样本,13192103916.5字节
数据大小
- download_size: 23859943038字节
- dataset_size: 27055474893字节
配置文件
mixed-channel
- train: mixed-channel/train-*
- test: mixed-channel/test-*
split-channel
- train: split-channel/train-*
- test: split-channel/test-*
许可证
- cdla-permissive-1.0
任务类别
- automatic-speech-recognition
- audio-classification
语言
- en
标签
- dinner party
- dipco
数据集名称
- DiPCo - Dinner Party Corpus
搜集汇总
数据集介绍

构建方式
Dinner Party Corpus数据集通过模拟家庭环境中的晚餐聚会场景构建而成。该数据集由亚马逊、约翰斯·霍普金斯大学及语言与语音处理中心(CLSP)合作发布,记录了多组四名亚马逊员工志愿者在餐桌旁进行的自然英语对话。录音设备包括单通道近讲麦克风和五个远场七麦克风阵列设备,分别位于录音室的不同位置。数据集包含10个会话的音频录音和人工标注的转录文本,每个会话时长在15至45分钟之间,旨在推动噪声鲁棒性和远场语音处理领域的研究。
特点
Dinner Party Corpus数据集的特点在于其丰富的多模态信息。除了音频数据外,数据集还提供了详细的元数据,如时间戳、持续时间、转录文本、参与者母语、性别、设备类型等。数据集分为split-channel和mixed-channel两种配置,分别对应不同的音频通道处理方式。split-channel配置将音频按通道分离,而mixed-channel配置则将多个通道的音频混合。数据集的总大小约为27GB,包含超过25万条音频样本,适用于自动语音识别和音频分类等任务。
使用方法
Dinner Party Corpus数据集可通过Hugging Face的Datasets库轻松加载。用户可以选择split-channel或mixed-channel配置,并指定训练集或测试集进行加载。加载后的数据集包含音频波形、采样率以及相关元数据,用户可直接使用这些数据进行模型训练或评估。此外,数据集还提供了转换脚本,用户可根据需求对数据进行进一步处理。该数据集的使用不仅限于学术研究,还可用于开发噪声鲁棒性和远场语音处理的实际应用。
背景与挑战
背景概述
Dinner Party Corpus(DiPCo)数据集由亚马逊、约翰霍普金斯大学语言与语音处理中心(CLSP)于2019年9月联合发布,旨在模拟日常家庭环境中的“晚餐派对”场景。该数据集通过记录多组四名亚马逊员工志愿者在餐桌旁进行的自然英语对话,捕捉了单通道近场麦克风和五个远场七麦克风阵列设备的音频数据。数据集包含10个会话的音频录音和人工标注的转录文本,每个会话时长在15至45分钟之间。DiPCo的创建旨在推动噪声鲁棒性和远场语音处理领域的研究,并为相关研究提供公开的基准数据集。
当前挑战
DiPCo数据集在解决远场语音处理和噪声鲁棒性问题上面临多重挑战。首先,远场录音环境中的背景噪声和混响效应显著增加了语音识别的难度,尤其是在多说话人同时发言的情况下。其次,数据集的构建过程中,如何确保录音设备在不同位置捕捉到的音频质量一致,并准确标注多说话人的语音边界,是一项复杂的技术任务。此外,数据集的规模较大,处理和分析这些高维度的音频数据需要高效的算法和计算资源。这些挑战不仅推动了语音处理技术的进步,也为研究者提供了丰富的实验场景和优化方向。
常用场景
经典使用场景
Dinner Party Corpus(DiPCo)数据集在语音处理领域中被广泛应用于噪声鲁棒性和远场语音处理的研究。该数据集模拟了家庭环境中的晚餐聚会场景,包含多组四名参与者的自然对话录音,涵盖了单通道近场麦克风和远场麦克风阵列的录音。研究人员通常利用该数据集来开发和评估自动语音识别(ASR)系统在复杂声学环境下的性能。
解决学术问题
DiPCo数据集解决了远场语音处理和噪声鲁棒性研究中的关键问题。通过提供多设备、多场景的录音数据,该数据集为研究人员提供了丰富的实验材料,帮助他们探索如何在嘈杂环境中准确识别语音。此外,数据集中的多语言背景和性别信息也为语音识别系统的多样性和公平性研究提供了支持。
衍生相关工作
基于DiPCo数据集,许多经典研究工作得以展开。例如,研究人员开发了新的噪声鲁棒性算法,显著提高了远场语音识别的准确性。此外,该数据集还催生了一系列关于多设备语音同步和语音分离的研究,推动了语音处理技术的进一步发展。
以上内容由遇见数据集搜集并总结生成



