hf-audio/esb-datasets-test-only-sorted
收藏Hugging Face2025-10-30 更新2024-07-06 收录
下载链接:
https://hf-mirror.com/datasets/hf-audio/esb-datasets-test-only-sorted
下载链接
链接失效反馈官方服务:
资源简介:
ESB测试数据集是一个包含多个子集的语音识别数据集,涵盖了不同的领域和说话风格。数据集包括LibriSpeech、Common Voice、Voxpopuli、TED-LIUM、GigaSpeech、SPGISpeech、Earnings-22和AMI等子集。每个子集都包含音频文件及其对应的转录文本,音频文件的采样率为16000Hz。数据集的结构经过排序,按音频长度从长到短排列,并且数据格式从自定义加载脚本转换为parquet格式,以确保安全性。数据集的使用需要通过Hugging Face Datasets库进行加载,部分数据集(如Common Voice、GigaSpeech、SPGISpeech)需要用户同意特定的使用条款才能访问。
This dataset is derived from the [open-asr-leaderboard/datasets-test-only](hf.co/datasets/open-asr-leaderboard/datasets-test-only) data, sorted by audio length. The format has been changed from a custom loading script (un-safe remote code) to parquet (safe). The dataset includes multiple configurations, each with specific features and splits. The main features include audio, dataset name, text, unique identifier, and audio length. The dataset splits include test sets, each with its number of bytes and examples. The download size and actual size of the dataset are also detailed. Additionally, there are specific terms and conditions for accessing and using the dataset, especially for the Common Voice, GigaSpeech, and SPGISpeech datasets.
提供机构:
hf-audio
原始信息汇总
ESB Test Sets: Parquet & Sorted
数据集概述
该数据集包含多个语音识别测试集,每个数据集的音频采样率为16000Hz,并按音频长度排序。数据格式从自定义加载脚本转换为Parquet格式。
数据集配置
AMI
- 特征:
audio: 音频数据,采样率16000Hzdataset: 数据集名称text: 文本数据id: 唯一标识符audio_length_s: 音频长度(秒)
- 分割:
test: 12643个样本,7313111878.091001字节
- 下载大小: 1300234949字节
- 数据集大小: 7313111878.091001字节
Common Voice
- 特征:
audio: 音频数据,采样率16000Hzdataset: 数据集名称text: 文本数据id: 唯一标识符audio_length_s: 音频长度(秒)
- 分割:
test: 16334个样本,1312573669.596字节
- 下载大小: 720365151字节
- 数据集大小: 1312573669.596字节
Earnings22
- 特征:
audio: 音频数据,采样率16000Hzdataset: 数据集名称text: 文本数据id: 唯一标识符audio_length_s: 音频长度(秒)
- 分割:
test: 2741个样本,2066334357.212字节
- 下载大小: 1103990916字节
- 数据集大小: 2066334357.212字节
GigaSpeech
- 特征:
audio: 音频数据,采样率16000Hzdataset: 数据集名称text: 文本数据id: 唯一标识符audio_length_s: 音频长度(秒)
- 分割:
test: 19931个样本,9091854759.2字节
- 下载大小: 4034348699字节
- 数据集大小: 9091854759.2字节
LibriSpeech
- 特征:
audio: 音频数据,采样率16000Hzdataset: 数据集名称text: 文本数据id: 唯一标识符audio_length_s: 音频长度(秒)
- 分割:
test.clean: 2620个样本,367597326.0字节test.other: 2939个样本,352273450.594字节
- 下载大小: 683412729字节
- 数据集大小: 719870776.594字节
SPGISpeech
- 特征:
audio: 音频数据,采样率16000Hzdataset: 数据集名称text: 文本数据id: 唯一标识符audio_length_s: 音频长度(秒)
- 分割:
test: 39341个样本,18550272806.201字节
- 下载大小: 11377636910字节
- 数据集大小: 18550272806.201字节
TEDLIUM
- 特征:
audio: 音频数据,采样率16000Hzdataset: 数据集名称text: 文本数据id: 唯一标识符audio_length_s: 音频长度(秒)
- 分割:
test: 1155个样本,301767478.0字节
- 下载大小: 301630209字节
- 数据集大小: 301767478.0字节
VoxPopuli
- 特征:
audio: 音频数据,采样率16000Hzdataset: 数据集名称text: 文本数据id: 唯一标识符audio_length_s: 音频长度(秒)
- 分割:
test: 1842个样本,1612296642.268字节
- 下载大小: 944084987字节
- 数据集大小: 1612296642.268字节
数据字段
dataset: 数据集名称audio: 包含音频文件路径、解码后的音频数组和采样率的字典text: 音频文件的转录文本id: 数据样本的唯一标识符
数据准备
音频
所有ESB数据集的音频被分割为适合训练ASR系统的样本长度。音频文件在使用时会自动解码并重新采样到dataset.features["audio"].sampling_rate。
转录文本
转录文本以“错误修正”格式提供,无需进一步预处理即可用于训练/评估脚本。
访问
所有八个数据集均可自由访问和使用。其中三个数据集(Common Voice、GigaSpeech、SPGISpeech)有特定的使用条款,需同意后才能使用。
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集是ESB(开放ASR排行榜)测试集的排序和格式转换版本,将原始数据按音频长度排序并转换为安全的Parquet格式,便于语音识别模型的评估。它包含八个子数据集,覆盖有声书、会议、演讲等多种领域和说话风格,总规模约10万行,提供标准化的音频和文本字段,支持直接用于训练和测试。
以上内容由遇见数据集搜集并总结生成



