toloka/CrowdSpeech

Name: toloka/CrowdSpeech
Creator: toloka
Published: 2024-09-10 11:04:56
License: 暂无描述

Hugging Face2024-09-10 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/toloka/CrowdSpeech

下载链接

链接失效反馈

官方服务：

资源简介：

CrowdSpeech是第一个公开的大规模众包音频转录数据集，基于LibriSpeech语料库在Toloka众包平台上构建。数据集包含22K个实例，约155K个众包转录注释。每个数据实例包含音频记录的URL、转录列表、执行者标识符和真实转录。数据集支持的任务包括众包转录的聚合，语言为英语。数据集结构包括五个分割：train、test、test.other、dev.clean和dev.other，分别对应LibriSpeech的clean和other部分。数据集的创建过程包括在Toloka平台上进行注释，注释者需要通过入门考试，并且每个任务由7个注释者完成。

CrowdSpeech is the first publicly available large-scale crowdsourced audio transcription dataset, constructed based on the LibriSpeech corpus via the Toloka crowdsourcing platform. The dataset contains 22K instances and approximately 155K crowdsourced transcription annotations. Each data instance includes the URL of the audio recording, a list of transcriptions, performer identifiers, and the ground-truth transcription. The supported tasks include crowdsourced transcription aggregation, with the target language being English. The dataset is split into five subsets: train, test, test.other, dev.clean, and dev.other, which respectively correspond to the clean and other partitions of LibriSpeech. The dataset creation process involves annotation work on the Toloka platform, where annotators must pass a qualifying exam, and each transcription task is completed by 7 annotators.

提供机构：

toloka

原始信息汇总

CrowdSpeech数据集概述

数据集描述

名称: CrowdSpeech
语言: 英语（en-US）
许可证: cc-by-4.0
数据来源: 原始数据，通过Toloka crowdsourcing平台对LibriSpeech数据集进行标注
数据规模: 22K实例，约155K注释
任务类别: 摘要生成、自动语音识别、文本到文本生成
标签: 条件文本生成、结构化到文本、语音识别

数据集结构

数据实例

内容: 每个实例包含音频录音的URL、一组转录文本及其对应的执行者标识和标准答案。
转录数量: 每个实例提供7个众包转录。

数据字段

task: 音频录音的URL
transcriptions: 众包转录文本列表
performers: 执行者标识
gt: 标准转录文本

数据分割

分割: 训练集、测试集、测试其他集、开发清洁集、开发其他集
特点: 训练集、测试集和开发清洁集对应LibriSpeech的高质量部分，开发其他集和测试其他集对应更具挑战性的部分。

数据集创建

源数据

来源: LibriSpeech，约1000小时的16kHz英语朗读音频

注释

平台: Toloka crowdsourcing平台
注释者筛选: 通过入口考试，要求Word Error Rate (WER) 不超过40%
注释重叠: 每个任务由7个注释者完成

引用信息

@inproceedings{CrowdSpeech, author = {Pavlichenko, Nikita and Stelmakh, Ivan and Ustalov, Dmitry}, title = {{CrowdSpeech and Vox~DIY: Benchmark Dataset for Crowdsourced Audio Transcription}}, year = {2021}, booktitle = {Proceedings of the Neural Information Processing Systems Track on Datasets and Benchmarks}, eprint = {2107.01091}, eprinttype = {arxiv}, eprintclass = {cs.SD}, url = {https://openreview.net/forum?id=3_hgF1NAXU7}, language = {english}, pubstate = {forthcoming}, }

搜集汇总

数据集介绍

构建方式

在语音识别研究领域，构建高质量标注数据集是推动技术进步的关键。CrowdSpeech数据集以LibriSpeech语音库为源数据，通过Toloka众包平台进行标注构建。该过程采用重叠标注策略，每条音频任务由七名标注者独立完成转录。为确保标注质量，平台设置了语言能力自评与入门考试双重筛选机制，仅允许英语熟练且单词错误率低于40%的标注者参与。最终，数据集汇集了约22,000条音频实例，涵盖155,000余条众包转录文本，形成了首个大规模公开众包语音转录数据集。

使用方法

该数据集适用于语音识别、文本生成及众包标注聚合等多类研究任务。使用时需通过任务字段获取音频链接，结合转录字段中七条以竖线分隔的众包文本进行分析。研究者可基于标注者标识符追踪个体贡献，利用真实转录字段进行质量评估。数据集按清洁度划分为训练集、开发集与测试集，其中开发集与测试集进一步区分标准与带口音变体，建议根据研究目标选择相应子集进行模型训练或算法验证，具体实施细节可参考原论文提供的技术方案。

背景与挑战

背景概述

在自动语音识别领域，高质量标注数据的获取一直是推动技术进步的核心要素。CrowdSpeech数据集由Toloka研究团队于2021年创建，作为首个公开的大规模众包音频转录数据集，其基于LibriSpeech语料库，通过Toloka众包平台精心构建。该数据集的核心研究问题聚焦于探索众包转录的聚合方法与质量评估，旨在为语音识别模型提供更贴近真实应用场景的多样化标注数据，从而增强模型在复杂语音环境下的鲁棒性与泛化能力。CrowdSpeech的出现，不仅丰富了语音识别领域的训练资源，也为众包数据质量控制研究提供了重要的实证基础，对推动语音技术向更开放、协作的方向发展产生了深远影响。

当前挑战

CrowdSpeech数据集致力于解决自动语音识别领域中，如何有效利用众包标注来提升转录准确性的挑战。具体而言，该挑战体现在众包工作者因背景、口音或理解差异导致的转录不一致性，以及如何在大量噪声标注中聚合出可靠的真实标签。在构建过程中，研究团队面临确保标注质量的严峻考验，包括设计严格的准入考试以筛选合格工作者，并采用重叠标注策略来平衡效率与可靠性。此外，保护工作者隐私与数据安全，同时处理音频样本本身在质量、口音及背景噪音上的固有变异性，亦是数据集构建中需克服的关键难题。

常用场景

经典使用场景

在语音识别研究领域，CrowdSpeech数据集为评估和优化众包转录聚合算法提供了关键基准。该数据集通过整合来自LibriSpeech的音频片段及对应的七条独立众包转录，模拟了真实世界中语音标注任务的多样性场景。研究者可借助此数据集，深入分析不同标注者之间的转录差异，从而设计出更鲁棒的转录融合模型，以提升自动语音识别系统在嘈杂或多样化语音输入下的性能表现。

解决学术问题

CrowdSpeech有效解决了众包语音转录中质量评估与聚合方法缺乏标准化数据支撑的学术难题。该数据集通过提供大量带有真实标注者标识及参考真值的数据实例，使研究者能够系统探究标注者偏差、语音质量变异对转录准确性的影响。其意义在于为语音识别领域引入了可重复的众包数据评估框架，推动了转录质量度量与聚合算法的创新，为构建更可靠的众包语音标注系统奠定了实证基础。

实际应用

在实际应用层面，CrowdSpeech为开发高精度语音转文本工具提供了关键训练与验证资源。该数据集可被用于优化语音助手、会议记录系统及无障碍技术中的语音识别模块，特别是在处理带口音或背景噪声的语音时。通过模拟众包环境下的转录多样性，它帮助工程团队设计出能够融合多源标注、提升最终输出鲁棒性的算法，从而增强语音识别产品在真实场景中的适用性与可靠性。

数据集最近研究