esc-benchmark/esc-datasets

Name: esc-benchmark/esc-datasets
Creator: esc-benchmark
Published: 2022-10-14 14:30:30
License: 暂无描述

Hugging Face2022-10-14 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/esc-benchmark/esc-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

ESC数据集是一个包含八个子数据集的集合，主要用于自动语音识别（ASR）任务。每个数据点包含音频文件路径、音频数组、采样率和转录文本。数据集通过Hugging Face Datasets库进行加载和使用，音频和转录文件可以直接用于训练和评估脚本。数据集包括LibriSpeech、Common Voice、VoxPopuli、TED-LIUM、GigaSpeech、SPGISpeech、Earnings-22和AMI等子数据集，涵盖了从有声读物、政治演讲、TED演讲到公司财报电话会议等多种语音数据。每个子数据集都有详细的训练、验证和测试划分，并且部分数据集还提供了不同大小的训练子集。

提供机构：

esc-benchmark

原始信息汇总

数据集概述

名称: ESC-datasets

语言: 英语（en）

语言创建方式: 众包（crowdsourced）和专家生成（expert-generated）

许可证:

CC-BY-4.0
Apache-2.0
CC0-1.0
CC-BY-NC-3.0
其他（other）

多语言性: 单语（monolingual）

大小分类:

100K<n<1M
1M<n<10M

源数据集:

原始（original）
扩展自Librispeech_ASR（extended|librispeech_asr）
扩展自Common_Voice（extended|common_voice）

标签:

ASR
基准测试（benchmark）
语音（speech）
ESC

任务类别: 自动语音识别（automatic-speech-recognition）

数据集内容

数据字段:

dataset: 样本来源的ESC数据集名称。
audio: 包含音频文件路径、解码后的音频数组及采样率的字典。
text: 音频文件的转录文本。
id: 数据样本的唯一标识符。

数据准备:

音频: 所有ESC数据集的音频已分割成适合训练ASR系统的样本长度，无需额外准备。
转录文本: 转录文本已进行必要的错误校正，无需额外处理。

访问与使用

访问: 所有八个ESC数据集均可通过Hugging Face Datasets库下载和准备。

特定数据集的使用条款: 使用Common Voice、GigaSpeech和SPGISpeech这三个数据集前，需同意特定的使用条款，并通过各自的数据集页面填写访问表单。

数据集示例

加载数据集: python from datasets import load_dataset

librispeech = load_dataset("esc-benchmark/esc-datasets", "librispeech", split="train")

数据点示例: python { dataset: librispeech, audio: {path: /path/to/audio.flac, array: [...]}, text: Transcription text here, id: unique_id }

5,000+

优质数据集

54 个

任务类型

进入经典数据集