nguyenvulebinh/asr-alignment

Name: nguyenvulebinh/asr-alignment
Creator: nguyenvulebinh
Published: 2024-01-08 08:48:13
License: 暂无描述

Hugging Face2024-01-08 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/nguyenvulebinh/asr-alignment

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是多个广泛使用的ASR数据集的变体，包括Librispeech、MuST-C、TED-LIUM、VoxPopuli、Common Voice和GigaSpeech。与原始数据集不同的是，该数据集包含了音频和文本之间的精确对齐、标点符号和大小写敏感的文本，以及文本中命名实体的识别。

提供机构：

nguyenvulebinh

原始信息汇总

语音识别对齐数据集

数据集概述

该数据集是多个广泛使用的自动语音识别（ASR）数据集的变体，包括Librispeech、MuST-C、TED-LIUM、VoxPopuli、Common Voice和GigaSpeech。该数据集的特点包括：

音频与文本之间的精确对齐。
标点符号和大小写敏感的文本。
文本中命名实体的识别。

数据集配置

Common Voice

特征:
- id: 字符串
- text: 字符串
- audio: 采样率16000
- words: 字符串序列
- word_start: 浮点数序列
- word_end: 浮点数序列
- entity_start: 整数序列
- entity_end: 整数序列
- entity_label: 字符串序列
分割:
- train: 43744079378.659字节, 948733个样本
- valid: 722372503.994字节, 16353个样本
下载大小: 39798988113字节
数据集大小: 44466451882.653字节

GigaSpeech

特征:
- id: 字符串
- text: 字符串
- audio: 采样率16000
- words: 字符串序列
- word_start: 浮点数序列
- word_end: 浮点数序列
- entity_start: 整数序列
- entity_end: 整数序列
- entity_label: 字符串序列
分割:
- train: 1032024261294.48字节, 8282987个样本
- valid: 1340974408.04字节, 5715个样本
下载大小: 1148966064515字节
数据集大小: 1033365235702.52字节

Libris

特征:
- id: 字符串
- text: 字符串
- audio: 采样率16000
- words: 字符串序列
- word_start: 浮点数序列
- word_end: 浮点数序列
- entity_start: 整数序列
- entity_end: 整数序列
- entity_label: 字符串序列
分割:
- train: 63849575890.896字节, 281241个样本
- valid: 793442600.643字节, 5559个样本
下载大小: 61361142328字节
数据集大小: 64643018491.539字节

MuST-C

特征:
- id: 字符串
- text: 字符串
- audio: 采样率16000
- words: 字符串序列
- word_start: 浮点数序列
- word_end: 浮点数序列
- entity_start: 整数序列
- entity_end: 整数序列
- entity_label: 字符串序列
分割:
- train: 55552777413.1字节, 248612个样本
- valid: 313397447.704字节, 1408个样本
下载大小: 52028374666字节
数据集大小: 55866174860.804字节

TED-LIUM

特征:
- id: 字符串
- text: 字符串
- audio: 采样率16000
- words: 字符串序列
- word_start: 浮点数序列
- word_end: 浮点数序列
- entity_start: 整数序列
- entity_end: 整数序列
- entity_label: 字符串序列
分割:
- train: 56248950771.568字节, 268216个样本
- valid: 321930549.928字节, 1456个样本
下载大小: 52557126451字节
数据集大小: 56570881321.496字节

VoxPopuli

特征:
- id: 字符串
- text: 字符串
- audio: 采样率16000
- words: 字符串序列
- word_start: 浮点数序列
- word_end: 浮点数序列
- entity_start: 整数序列
- entity_end: 整数序列
- entity_label: 字符串序列
分割:
- train: 118516424284.524字节, 182463个样本
- valid: 1144543020.808字节, 1842个样本
下载大小: 98669668241字节
数据集大小: 119660967305.332字节

使用方法

安装依赖

bash pip install --upgrade pip pip install --upgrade datasets[audio]

加载数据集

python from datasets import load_dataset

可用数据集: libris,mustc,tedlium,voxpopuli,commonvoice,gigaspeech

dataset = load_dataset("nguyenvulebinh/asr-alignment", "libris")

获取训练集的第一个样本

sample = dataset["train"][0]

流式加载

python from datasets import load_dataset

dataset = load_dataset("nguyenvulebinh/asr-alignment", "libris", streaming=True)

获取训练集的第一个样本

sample = next(iter(dataset["train"]))

引用

@INPROCEEDINGS{synthetic-multi-asr-nguyen, author={Nguyen, Thai-Binh and Waibel, Alexander}, booktitle={ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)}, title={SYNTHETIC CONVERSATIONS IMPROVE MULTI-TALKER ASR}, year={2024}, volume={}, number={}, }

许可证

该数据集遵循原始数据集的许可证条款。

5,000+

优质数据集

54 个

任务类型

进入经典数据集