esc-benchmark/esc-datasets
收藏Hugging Face2022-10-14 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/esc-benchmark/esc-datasets
下载链接
链接失效反馈官方服务:
资源简介:
ESC数据集是一个包含八个子数据集的集合,主要用于自动语音识别(ASR)任务。每个数据点包含音频文件路径、音频数组、采样率和转录文本。数据集通过Hugging Face Datasets库进行加载和使用,音频和转录文件可以直接用于训练和评估脚本。数据集包括LibriSpeech、Common Voice、VoxPopuli、TED-LIUM、GigaSpeech、SPGISpeech、Earnings-22和AMI等子数据集,涵盖了从有声读物、政治演讲、TED演讲到公司财报电话会议等多种语音数据。每个子数据集都有详细的训练、验证和测试划分,并且部分数据集还提供了不同大小的训练子集。
提供机构:
esc-benchmark
原始信息汇总
数据集概述
名称: ESC-datasets
语言: 英语(en)
语言创建方式: 众包(crowdsourced)和专家生成(expert-generated)
许可证:
- CC-BY-4.0
- Apache-2.0
- CC0-1.0
- CC-BY-NC-3.0
- 其他(other)
多语言性: 单语(monolingual)
大小分类:
- 100K<n<1M
- 1M<n<10M
源数据集:
- 原始(original)
- 扩展自Librispeech_ASR(extended|librispeech_asr)
- 扩展自Common_Voice(extended|common_voice)
标签:
- ASR
- 基准测试(benchmark)
- 语音(speech)
- ESC
任务类别: 自动语音识别(automatic-speech-recognition)
数据集内容
数据字段:
dataset: 样本来源的ESC数据集名称。audio: 包含音频文件路径、解码后的音频数组及采样率的字典。text: 音频文件的转录文本。id: 数据样本的唯一标识符。
数据准备:
- 音频: 所有ESC数据集的音频已分割成适合训练ASR系统的样本长度,无需额外准备。
- 转录文本: 转录文本已进行必要的错误校正,无需额外处理。
访问与使用
访问: 所有八个ESC数据集均可通过Hugging Face Datasets库下载和准备。
特定数据集的使用条款: 使用Common Voice、GigaSpeech和SPGISpeech这三个数据集前,需同意特定的使用条款,并通过各自的数据集页面填写访问表单。
数据集示例
加载数据集: python from datasets import load_dataset
librispeech = load_dataset("esc-benchmark/esc-datasets", "librispeech", split="train")
数据点示例: python { dataset: librispeech, audio: {path: /path/to/audio.flac, array: [...]}, text: Transcription text here, id: unique_id }



