Large-Scale Dataset

Name: Large-Scale Dataset
Creator: 浙江大学计算机科学与技术学院
Published: 2023-09-07 15:56:10
License: 暂无描述

arXiv2023-09-07 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2308.05987v3

下载链接

链接失效反馈

官方服务：

资源简介：

Large-Scale Dataset是一个用于评估OSD系统通用性的大型测试集，包含151小时的标记语音，涵盖多种风格、语言和声源距离。该数据集由浙江大学计算机科学与技术学院创建，旨在解决现有OSD系统在复杂场景下的准确性和鲁棒性不足的问题。数据集内容丰富，包括不同语言（如中文和英文）、不同录音距离（近场和远场）以及不同语音清洁度的样本。创建过程中，数据集从多个现有开源数据集中收集，如DIHARD、Alimeeting等。该数据集主要应用于语音处理技术中的重叠语音检测，以提高系统的性能和适应性。

The Large-Scale Dataset is a large-scale test set for evaluating the generality of Overlapping Speech Detection (OSD) systems, which contains 151 hours of annotated speech covering diverse speaking styles, languages and source-to-microphone distances. Developed by the College of Computer Science and Technology, Zhejiang University, this dataset aims to address the insufficient accuracy and robustness of existing OSD systems in complex scenarios. The dataset features rich content, including samples with various languages such as Mandarin Chinese and English, different recording distances including near-field and far-field, and varying speech clarity. Collected from multiple existing open-source datasets like DIHARD and Alimeeting during its development, this dataset is primarily applied to overlapping speech detection in speech processing technologies to improve the performance and adaptability of OSD systems.

提供机构：

浙江大学计算机科学与技术学院

创建时间：

2023-08-11

搜集汇总

数据集介绍

构建方式

在重叠语音检测（OSD）领域，现有系统多受限于小规模数据集，其鲁棒性与泛化能力难以在真实声学环境中得到充分验证。为攻克这一瓶颈，本研究构建了一个大规模数据集，作为评估OSD系统通用性的新基准。该数据集的构建遵循多维度平衡原则，从七个公开数据源中精选了总计151小时的高质量标注语音，涵盖会议、访谈、日常对话、有声读物、Vlog等多种风格，包含中文与英语两种语言，并兼顾近场与远场录音条件。数据的采集还考虑了语音的纯净度与重叠比例，确保了数据在风格、语言、声源距离、语音清洁度及重叠语音占比五个维度上的均衡分布，为系统性评估OSD模型的泛化能力奠定了坚实基础。

使用方法

该数据集的使用聚焦于大规模学习（LSL）方法的验证与通用OSD系统的构建。研究人员可将此数据集作为训练集，结合基于Conformer、Transformer、TCN或BiLSTM等不同编码器结构的OSD模型进行训练，通过对比实验评估LSL策略的有效性。具体而言，模型需提取64维对数梅尔频谱特征，并以4秒为单元处理语音片段，采用加权交叉熵损失函数以缓解类别不平衡问题。训练过程中使用Adam优化器，并辅以学习率衰减策略。为进一步提升性能，可引入MUSAN噪声库与模拟房间脉冲响应进行数据增强。最终，模型在包含151小时标注数据的新基准上进行评估，以平均F1值作为核心指标，全面衡量系统的准确性与鲁棒性。

背景与挑战

背景概述

重叠语音检测（Overlapped Speech Detection, OSD）作为多说话人对话分析中的关键环节，在真实声学环境下的鲁棒语音处理中扮演着不可或缺的角色。然而，既有OSD系统大多依赖于小规模、领域局限的数据集进行训练与评估，导致其泛化能力与准确性在复杂场景下难以得到充分验证。为填补这一空白，Zhaohui Yin等人于2023年提出了一项大规模学习（Large-Scale Learning, LSL）研究，并构建了全新的基准测试集与通用系统CF-OSD。该基准集汇集了来自七个开源数据集的151小时标注语音，涵盖中英文、远近场、多风格及不同重叠比例的语料，旨在全面评估OSD系统的语言无关性与场景适应性。此工作由浙江核新同花顺AI研究院与浙江大学联合完成，其提出的LSL方法显著提升了OSD系统的鲁棒性，并在Alimeeting与DIHARD II等小数据集上刷新了最优性能，为多说话人交互场景中的语音分析树立了新标杆。

当前挑战

当前OSD领域面临的核心挑战体现在多个层面。首先，领域问题层面，现有系统在真实声学环境中的准确性与鲁棒性仍显不足，尤其面对复杂场景（如会议、电话客服、家庭对话等）时，模型易受语言、风格、声源距离及噪声干扰，导致泛化能力薄弱。其次，数据集构建过程中面临严峻挑战：需从多个开源数据中筛选并整合高质量标注语音，平衡不同风格（如会议、电视节目、博客）、语言（中英文）、声源距离（远近场）及语音洁净度（干净语音与含噪、混响语音）之间的分布，同时确保重叠语音比例合理（如14%左右）。此外，类别不平衡问题突出——重叠语音占比远低于非重叠语音，需通过加权损失函数与三分类标签策略缓解。最后，大规模学习方法的有效性验证需要设计严谨的对比实验，并选择合适的网络结构（如Conformer）以在泛化性与计算效率间取得最优平衡。

常用场景

经典使用场景

在语音信号处理领域，重叠语音检测（OSD）作为多说话人对话分析的核心任务，长期受困于小规模数据集导致的模型泛化能力不足。该数据集以151小时标注语音构建了跨语言（中英文）、跨风格（会议、访谈、Vlog等）、跨声源距离（近场与远场）的综合性评测基准，为OSD系统提供了首个兼顾多样性、平衡性与现实复杂性的标准化测试平台。研究者和工程师可借助该基准，系统评估模型在不同声学环境（如干净语音、带噪语音、混响场景）下的鲁棒性，从而突破传统小数据集对算法性能的局限。

解决学术问题

该数据集直接回应了OSD领域缺乏大规模、多维度基准的学术困境。现有研究多基于AMI、DIHARD等单一风格或语言的小样本数据训练，导致模型在跨域场景下性能骤降。通过整合七种开源语料库并精细标注静音、单人语音与重叠语音三类标签，该数据集解决了三个关键问题：其一，验证大规模学习（LSL）对OSD任务的有效性，实验表明LSL使模型平均F1值提升72.7%；其二，确立CF-OSD系统作为16k单通道OSD的最优架构，在Alimeeting和DIHARD II上分别达到81.6%和53.8%的SOTA性能；其三，为类不平衡问题提供加权交叉熵损失等解决方案，显著提升了重叠语音占比极低场景下的检测精度。

实际应用

该数据集在真实场景中具有广泛的应用价值。在智能会议系统中，其远场麦克风阵列数据可提升多人同时发言时的转录准确率；在电话客服场景中，单通道重叠语音检测能力有助于分离客户与坐席的混合语音，优化服务质量监控。此外，数据集涵盖的噪音与混响增强数据，可直接用于助听器、智能音箱等设备的抗干扰算法开发，使设备在家庭聚会或公共场合中精准识别目标说话人。其语言无关性设计更支持跨国企业的多语种会议分析系统部署，推动人机交互从实验室走向真实世界的复杂声学环境。

数据集最近研究