DIHARD II

Name: DIHARD II
Creator: 语言数据联盟
Published: 2019-06-19 07:04:09
License: 暂无描述

arXiv2019-06-19 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/1906.07839v1

下载链接

链接失效反馈

官方服务：

资源简介：

DIHARD II数据集是由宾夕法尼亚大学语言数据联盟创建，旨在提升语音分割系统在不同录音设备、噪声环境和对话领域中的鲁棒性。该数据集包含从192个不同来源抽取的约22.49小时音频，涵盖从有声读物到儿童语言学习等多种对话场景。创建过程中，数据集经过了严格的标注和分割，确保了数据的质量和准确性。DIHARD II数据集主要用于语音分割技术的研究和开发，特别是在处理复杂交互和重叠语音方面，以期解决现有系统在特定领域或数据集上过拟合的问题。

The DIHARD II dataset was created by the Language Data Consortium at the University of Pennsylvania. It is designed to improve the robustness of speech segmentation systems across diverse recording devices, noise environments and conversational domains. The dataset contains approximately 22.49 hours of audio extracted from 192 distinct sources, covering a wide range of conversational scenarios from audiobooks to children's language learning. During its development, the dataset underwent rigorous annotation and segmentation to ensure its quality and accuracy. The DIHARD II dataset is primarily used for research and development of speech segmentation technologies, particularly in handling complex interactions and overlapping speech, with the aim of solving the overfitting issue faced by existing systems when deployed in specific domains or datasets.

提供机构：

语言数据联盟

创建时间：

2019-06-19

搜集汇总

数据集介绍

构建方式

在语音识别领域，DIHARD II数据集的构建旨在提升说话人日志系统对多样化录音条件与对话场景的鲁棒性。该数据集通过整合来自11个不同领域的单通道音频，包括朗读有声书、会议语音、儿童语言习得录音、餐厅聚会及网络视频等，确保了数据来源的广泛性与复杂性。构建过程中，研究人员从各原始语料库中选取5至10分钟的音频片段，并统一处理为16kHz单通道FLAC格式。对于多通道数据，则采用CHiME-5晚餐聚会语料库中的远场麦克风阵列录音，每个阵列被视为独立录音单元。所有音频均经过人工标注，生成参考语音分割与说话人标签，标注依据严格的停顿边界规则，确保边界精度在10毫秒内，且涵盖重叠语音与短暂发声片段。

特点

DIHARD II数据集的核心特点在于其极高的多样性与挑战性，旨在模拟真实世界中的复杂语音环境。数据覆盖了从近场清晰录音到远场高噪声录音的广泛场景，如餐厅环境中的背景噪音、儿童家庭录音中的非标准发声，以及网络视频中的多语言混杂。该数据集首次引入多通道输入条件，利用麦克风阵列捕捉空间音频信息，增强了对远场对话的处理需求。同时，数据标注摒弃了传统的宽容边界（如250毫秒容错窗口）与重叠语音排除策略，采用严格的说话人日志错误率（DER）和Jaccard错误率（JER）作为评估指标，从而更真实地反映系统在实际应用中的性能。这种设计使得DIHARD II成为推动鲁棒性说话人日志研究的关键基准。

使用方法

DIHARD II数据集的使用主要围绕其四类评估轨道展开，分别针对单通道与多通道输入、参考语音活动检测（SAD）与系统SAD条件。研究人员可利用开发集进行模型训练与调优，该集提供完整的参考标注，支持任意公开或私有数据的融合训练。评估集则用于最终性能测试，确保系统在未见数据上的泛化能力。数据集鼓励采用先进的语音增强、波束成形及说话人日志技术，例如基于x-向量的聚类方法或深度学习前端处理。使用中需注意，多通道数据需处理麦克风阵列间的同步问题，而所有轨道均要求在不使用容错边界的情况下计算DER与JER，以全面评估系统对重叠语音和短语音段的处理精度。

背景与挑战

背景概述

DIHARD II数据集作为2019年推出的第二届说话人日志挑战赛核心资源，由宾夕法尼亚大学语言数据联盟、百度研究院及多国学术机构联合构建，旨在推动鲁棒性说话人日志系统的研究。该数据集聚焦于解决传统说话人日志系统在多样化录音设备、噪声环境及会话领域中的泛化能力不足问题，通过整合从朗读有声书、会议语音到儿童语言习得记录等11个领域的语音数据，构建了一个具有高度复杂性和真实性的评估基准。其创建不仅延续了NIST富转录评测的严谨传统，更引入了无容忍区间和重叠语音计分的严格评估指标，显著提升了领域内系统性能的可比性与研究深度，对语音处理与对话分析领域产生了深远影响。

当前挑战

DIHARD II数据集所针对的说话人日志任务面临多重挑战：在领域问题层面，系统需在高度交互、重叠语音频繁的嘈杂环境中准确识别说话人边界，同时应对远场录音、设备异构及说话人 demographics 差异带来的声学变异；构建过程中，数据采集涵盖餐厅、网络视频等极端噪声场景，需平衡语音质量与隐私保护，通过低通滤波等技术移除个人身份信息。此外，多通道数据源自CHiME-5晚餐聚会语料，面临设备间同步缺失导致的时序对齐难题，需通过跨相关估计进行边界校正，而儿童语言等领域的数据标注亦需克服语音片段破碎与标注一致性的挑战。

常用场景

经典使用场景

在语音处理领域，DIHARD II 数据集作为一项具有挑战性的基准测试平台，其经典使用场景聚焦于评估和提升说话人日志系统的鲁棒性。该数据集通过整合来自11个不同领域的音频样本，如朗读有声书、会议语音、儿童语言习得记录及餐厅对话等，模拟了真实世界中复杂的声学环境。研究人员利用这一数据集，能够系统地测试其算法在多变录音设备、噪声条件及会话领域下的表现，从而推动说话人日志技术向更广泛的实际应用场景拓展。

实际应用

在实际应用层面，DIHARD II 数据集为多种现实场景中的语音技术提供了关键支持。例如，在智能会议系统中，它帮助优化说话人分离，确保转录准确性；在临床诊断中，可用于分析自闭症儿童的对话模式；在社交媒体内容分析中，则能提升视频语音的说话人识别效果。此外，数据集涵盖的餐厅、家庭聚会等多噪声环境，直接助力于开发更可靠的远场语音交互设备，如智能家居助手或车载系统，从而增强技术在复杂声学条件下的实用性与可靠性。

衍生相关工作

DIHARD II 数据集催生了一系列经典研究工作，显著推动了说话人日志领域的发展。基于该数据集，研究者提出了多种创新方法，如结合深度神经网络嵌入的说话人表征学习、多通道波束成形技术的优化，以及针对重叠语音的端到端系统设计。这些工作不仅提升了在挑战性条件下的性能，还促进了如x-vector与PLDA评分等技术的广泛应用。同时，数据集衍生的基线系统为后续研究提供了重要参考，激励了如Fearless Steps等新挑战的涌现，持续推动着鲁棒语音处理技术的进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集