five

CrowdSpeech

收藏
github2021-11-17 更新2024-05-31 收录
下载链接:
https://github.com/Toloka/CrowdSpeech
下载链接
链接失效反馈
官方服务:
资源简介:
CrowdSpeech是一个用于众包音频转录的基准数据集,包含众包转录和地面实况转录,存储在`data`文件夹中。

CrowdSpeech is a benchmark dataset designed for crowdsourced audio transcription, encompassing both crowdsourced transcriptions and ground truth transcriptions, stored within the `data` directory.
创建时间:
2021-09-03
原始信息汇总

数据集概述

数据集名称

  • CrowdSpeech
  • VoxDIY

数据存储位置

  • 存储于data文件夹中。

数据格式

  • CrowdSpeechVoxDIY 数据集包含两种文件:
    • <dataset>-<split>-crowd.tsv:包含三列,分别是INPUT:audio(音频文件)、OUTPUT:transcription(工人转录文本)、ASSIGNMENT:worker_id(工人唯一标识)。
    • <dataset>-<split>-gt.txt:包含两列,分别是音频文件和真实转录文本。

数据集下载

数据集使用

  • 提供了评估脚本,包括基线聚合方法评估、Oracle结果获取和Inter-Rater Agreement计算。

数据集模型

  • 在HuggingFace Hub上提供了基于CrowdSpeech训练的T5模型

许可证

  • 代码:Apache License, Version 2.0
  • 数据:Creative Commons Attribution 4.0 license
搜集汇总
数据集介绍
main_image_url
构建方式
CrowdSpeech数据集的构建过程基于众包平台,通过收集大量音频文件并由众包工作者进行转录。数据集包含两个主要文件:`<dataset>-<split>-crowd.tsv`和`<dataset>-<split>-gt.txt`,前者记录了众包工作者的转录结果及其唯一标识符,后者则提供了音频文件及其对应的标准转录文本。此外,数据集还提供了用于标注过程和语音合成的代码,分别存放在`annotation`和`speech_synthesis`文件夹中。
特点
CrowdSpeech数据集的特点在于其多样性和真实性。数据集不仅包含了众包工作者的转录结果,还提供了标准转录文本,便于进行转录质量的评估和对比。此外,数据集还支持多种基线聚合方法的评估,包括Oracle结果和评分者间一致性分析。数据集的结构清晰,便于研究者快速上手并进行实验。
使用方法
使用CrowdSpeech数据集时,首先需要安装相关依赖,如`crowd-kit`和`toloka-kit`。随后,可以通过运行`baselines.py`脚本来评估基线聚合方法,或通过`oracle.py`脚本获取Oracle结果。数据集还支持评分者间一致性分析,可通过`agreement.py`脚本实现。此外,数据集在HuggingFace平台上提供了T5模型的预训练版本,便于进行文本聚合任务的推理。
背景与挑战
背景概述
CrowdSpeech数据集由Nikita Pavlichenko、Ivan Stelmakh和Dmitry Ustalov等人于2021年提出,旨在为众包音频转录任务提供基准数据。该数据集基于LibriSpeech语料库构建,结合了众包平台收集的转录数据,旨在解决音频转录领域中的众包数据质量评估和转录结果聚合问题。通过提供众包转录结果与真实转录的对比,CrowdSpeech为研究众包数据质量、转录模型优化以及众包任务设计提供了重要支持。该数据集在Neural Information Processing Systems (NeurIPS) 的Datasets and Benchmarks Track中发布,对语音识别和众包数据研究领域产生了深远影响。
当前挑战
CrowdSpeech数据集在构建和应用过程中面临多重挑战。首先,众包数据的质量参差不齐,如何有效评估和筛选众包工人的转录结果成为核心问题。其次,转录结果的多样性增加了数据聚合的难度,传统方法难以准确捕捉不同转录之间的细微差异。此外,数据集的构建依赖于众包平台,如何设计合理的任务流程以确保数据的高效收集和质量控制,也是构建过程中的一大挑战。最后,尽管CrowdSpeech提供了基准模型和评估工具,但在实际应用中,如何进一步提升转录模型的鲁棒性和泛化能力,仍需深入研究。
常用场景
经典使用场景
CrowdSpeech数据集在语音识别领域中被广泛用于评估和优化众包音频转录的准确性。通过提供大量由众包工人转录的音频数据及其对应的真实转录文本,研究人员能够深入分析众包转录中的错误模式,并开发出更高效的转录质量评估和聚合算法。该数据集的使用场景涵盖了从基础研究到实际应用的多个层面,尤其是在众包数据质量控制和转录模型训练方面具有重要价值。
衍生相关工作
CrowdSpeech数据集衍生了一系列经典研究工作,尤其是在众包数据聚合和语音识别模型优化领域。基于该数据集,研究人员提出了多种转录聚合算法,如基于T5模型的文本聚合方法,显著提升了转录结果的准确性。此外,该数据集还推动了众包工人技能评估和任务分配策略的研究,为众包平台的智能化管理提供了理论支持。这些工作不仅丰富了众包数据研究的理论体系,也为实际应用中的转录任务提供了有效的解决方案。
数据集最近研究
最新研究方向
在语音识别领域,CrowdSpeech数据集为众包音频转录任务提供了基准数据,推动了众包数据质量评估和转录模型的研究。近年来,研究者们利用该数据集探索了基于深度学习的文本聚合方法,特别是在T5模型的应用上取得了显著进展。通过结合众包转录数据和真实标注,研究者能够有效评估不同转录模型的性能,并优化众包任务的质量控制机制。此外,CrowdSpeech数据集还为语音合成和众包任务设计提供了新的研究方向,进一步推动了语音识别技术的实际应用与普及。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作