CrowdSpeech

github2021-11-17 更新2024-05-31 收录

下载链接：

https://github.com/Toloka/CrowdSpeech

下载链接

链接失效反馈

官方服务：

资源简介：

CrowdSpeech是一个用于众包音频转录的基准数据集，包含众包转录和地面实况转录，存储在`data`文件夹中。

CrowdSpeech is a benchmark dataset designed for crowdsourced audio transcription, encompassing both crowdsourced transcriptions and ground truth transcriptions, stored within the `data` directory.

创建时间：

2021-09-03

原始信息汇总

数据集概述

数据集名称

CrowdSpeech
VoxDIY

数据存储位置

存储于data文件夹中。

数据格式

CrowdSpeech 和 VoxDIY 数据集包含两种文件：
- <dataset>-<split>-crowd.tsv：包含三列，分别是INPUT:audio（音频文件）、OUTPUT:transcription（工人转录文本）、ASSIGNMENT:worker_id（工人唯一标识）。
- <dataset>-<split>-gt.txt：包含两列，分别是音频文件和真实转录文本。

数据集下载

CrowdSpeech 数据集可从HuggingFace下载。

数据集使用

提供了评估脚本，包括基线聚合方法评估、Oracle结果获取和Inter-Rater Agreement计算。

数据集模型

在HuggingFace Hub上提供了基于CrowdSpeech训练的T5模型。

许可证

代码：Apache License, Version 2.0
数据：Creative Commons Attribution 4.0 license

搜集汇总

数据集介绍

构建方式

CrowdSpeech数据集的构建过程基于众包平台，通过收集大量音频文件并由众包工作者进行转录。数据集包含两个主要文件：`<dataset>-<split>-crowd.tsv`和`<dataset>-<split>-gt.txt`，前者记录了众包工作者的转录结果及其唯一标识符，后者则提供了音频文件及其对应的标准转录文本。此外，数据集还提供了用于标注过程和语音合成的代码，分别存放在`annotation`和`speech_synthesis`文件夹中。

特点

CrowdSpeech数据集的特点在于其多样性和真实性。数据集不仅包含了众包工作者的转录结果，还提供了标准转录文本，便于进行转录质量的评估和对比。此外，数据集还支持多种基线聚合方法的评估，包括Oracle结果和评分者间一致性分析。数据集的结构清晰，便于研究者快速上手并进行实验。

使用方法

使用CrowdSpeech数据集时，首先需要安装相关依赖，如`crowd-kit`和`toloka-kit`。随后，可以通过运行`baselines.py`脚本来评估基线聚合方法，或通过`oracle.py`脚本获取Oracle结果。数据集还支持评分者间一致性分析，可通过`agreement.py`脚本实现。此外，数据集在HuggingFace平台上提供了T5模型的预训练版本，便于进行文本聚合任务的推理。

背景与挑战

背景概述

CrowdSpeech数据集由Nikita Pavlichenko、Ivan Stelmakh和Dmitry Ustalov等人于2021年提出，旨在为众包音频转录任务提供基准数据。该数据集基于LibriSpeech语料库构建，结合了众包平台收集的转录数据，旨在解决音频转录领域中的众包数据质量评估和转录结果聚合问题。通过提供众包转录结果与真实转录的对比，CrowdSpeech为研究众包数据质量、转录模型优化以及众包任务设计提供了重要支持。该数据集在Neural Information Processing Systems (NeurIPS) 的Datasets and Benchmarks Track中发布，对语音识别和众包数据研究领域产生了深远影响。

当前挑战

CrowdSpeech数据集在构建和应用过程中面临多重挑战。首先，众包数据的质量参差不齐，如何有效评估和筛选众包工人的转录结果成为核心问题。其次，转录结果的多样性增加了数据聚合的难度，传统方法难以准确捕捉不同转录之间的细微差异。此外，数据集的构建依赖于众包平台，如何设计合理的任务流程以确保数据的高效收集和质量控制，也是构建过程中的一大挑战。最后，尽管CrowdSpeech提供了基准模型和评估工具，但在实际应用中，如何进一步提升转录模型的鲁棒性和泛化能力，仍需深入研究。

常用场景

经典使用场景

CrowdSpeech数据集在语音识别领域中被广泛用于评估和优化众包音频转录的准确性。通过提供大量由众包工人转录的音频数据及其对应的真实转录文本，研究人员能够深入分析众包转录中的错误模式，并开发出更高效的转录质量评估和聚合算法。该数据集的使用场景涵盖了从基础研究到实际应用的多个层面，尤其是在众包数据质量控制和转录模型训练方面具有重要价值。

衍生相关工作

CrowdSpeech数据集衍生了一系列经典研究工作，尤其是在众包数据聚合和语音识别模型优化领域。基于该数据集，研究人员提出了多种转录聚合算法，如基于T5模型的文本聚合方法，显著提升了转录结果的准确性。此外，该数据集还推动了众包工人技能评估和任务分配策略的研究，为众包平台的智能化管理提供了理论支持。这些工作不仅丰富了众包数据研究的理论体系，也为实际应用中的转录任务提供了有效的解决方案。

数据集最近研究