five

esc-benchmark/esc-datasets

收藏
Hugging Face2022-10-14 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/esc-benchmark/esc-datasets
下载链接
链接失效反馈
官方服务:
资源简介:
ESC数据集是一个包含八个子数据集的集合,主要用于自动语音识别(ASR)任务。每个数据点包含音频文件路径、音频数组、采样率和转录文本。数据集通过Hugging Face Datasets库进行加载和使用,音频和转录文件可以直接用于训练和评估脚本。数据集包括LibriSpeech、Common Voice、VoxPopuli、TED-LIUM、GigaSpeech、SPGISpeech、Earnings-22和AMI等子数据集,涵盖了从有声读物、政治演讲、TED演讲到公司财报电话会议等多种语音数据。每个子数据集都有详细的训练、验证和测试划分,并且部分数据集还提供了不同大小的训练子集。
提供机构:
esc-benchmark
原始信息汇总

数据集概述

名称: ESC-datasets

语言: 英语(en)

语言创建方式: 众包(crowdsourced)和专家生成(expert-generated)

许可证:

  • CC-BY-4.0
  • Apache-2.0
  • CC0-1.0
  • CC-BY-NC-3.0
  • 其他(other)

多语言性: 单语(monolingual)

大小分类:

  • 100K<n<1M
  • 1M<n<10M

源数据集:

  • 原始(original)
  • 扩展自Librispeech_ASR(extended|librispeech_asr)
  • 扩展自Common_Voice(extended|common_voice)

标签:

  • ASR
  • 基准测试(benchmark)
  • 语音(speech)
  • ESC

任务类别: 自动语音识别(automatic-speech-recognition)

数据集内容

数据字段:

  • dataset: 样本来源的ESC数据集名称。
  • audio: 包含音频文件路径、解码后的音频数组及采样率的字典。
  • text: 音频文件的转录文本。
  • id: 数据样本的唯一标识符。

数据准备:

  • 音频: 所有ESC数据集的音频已分割成适合训练ASR系统的样本长度,无需额外准备。
  • 转录文本: 转录文本已进行必要的错误校正,无需额外处理。

访问与使用

访问: 所有八个ESC数据集均可通过Hugging Face Datasets库下载和准备。

特定数据集的使用条款: 使用Common Voice、GigaSpeech和SPGISpeech这三个数据集前,需同意特定的使用条款,并通过各自的数据集页面填写访问表单。

数据集示例

加载数据集: python from datasets import load_dataset

librispeech = load_dataset("esc-benchmark/esc-datasets", "librispeech", split="train")

数据点示例: python { dataset: librispeech, audio: {path: /path/to/audio.flac, array: [...]}, text: Transcription text here, id: unique_id }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作