nguyenvulebinh/asr-alignment
收藏语音识别对齐数据集
数据集概述
该数据集是多个广泛使用的自动语音识别(ASR)数据集的变体,包括Librispeech、MuST-C、TED-LIUM、VoxPopuli、Common Voice和GigaSpeech。该数据集的特点包括:
- 音频与文本之间的精确对齐。
- 标点符号和大小写敏感的文本。
- 文本中命名实体的识别。
数据集配置
Common Voice
- 特征:
id: 字符串text: 字符串audio: 采样率16000words: 字符串序列word_start: 浮点数序列word_end: 浮点数序列entity_start: 整数序列entity_end: 整数序列entity_label: 字符串序列
- 分割:
train: 43744079378.659字节, 948733个样本valid: 722372503.994字节, 16353个样本
- 下载大小: 39798988113字节
- 数据集大小: 44466451882.653字节
GigaSpeech
- 特征:
id: 字符串text: 字符串audio: 采样率16000words: 字符串序列word_start: 浮点数序列word_end: 浮点数序列entity_start: 整数序列entity_end: 整数序列entity_label: 字符串序列
- 分割:
train: 1032024261294.48字节, 8282987个样本valid: 1340974408.04字节, 5715个样本
- 下载大小: 1148966064515字节
- 数据集大小: 1033365235702.52字节
Libris
- 特征:
id: 字符串text: 字符串audio: 采样率16000words: 字符串序列word_start: 浮点数序列word_end: 浮点数序列entity_start: 整数序列entity_end: 整数序列entity_label: 字符串序列
- 分割:
train: 63849575890.896字节, 281241个样本valid: 793442600.643字节, 5559个样本
- 下载大小: 61361142328字节
- 数据集大小: 64643018491.539字节
MuST-C
- 特征:
id: 字符串text: 字符串audio: 采样率16000words: 字符串序列word_start: 浮点数序列word_end: 浮点数序列entity_start: 整数序列entity_end: 整数序列entity_label: 字符串序列
- 分割:
train: 55552777413.1字节, 248612个样本valid: 313397447.704字节, 1408个样本
- 下载大小: 52028374666字节
- 数据集大小: 55866174860.804字节
TED-LIUM
- 特征:
id: 字符串text: 字符串audio: 采样率16000words: 字符串序列word_start: 浮点数序列word_end: 浮点数序列entity_start: 整数序列entity_end: 整数序列entity_label: 字符串序列
- 分割:
train: 56248950771.568字节, 268216个样本valid: 321930549.928字节, 1456个样本
- 下载大小: 52557126451字节
- 数据集大小: 56570881321.496字节
VoxPopuli
- 特征:
id: 字符串text: 字符串audio: 采样率16000words: 字符串序列word_start: 浮点数序列word_end: 浮点数序列entity_start: 整数序列entity_end: 整数序列entity_label: 字符串序列
- 分割:
train: 118516424284.524字节, 182463个样本valid: 1144543020.808字节, 1842个样本
- 下载大小: 98669668241字节
- 数据集大小: 119660967305.332字节
使用方法
安装依赖
bash pip install --upgrade pip pip install --upgrade datasets[audio]
加载数据集
python from datasets import load_dataset
可用数据集: libris,mustc,tedlium,voxpopuli,commonvoice,gigaspeech
dataset = load_dataset("nguyenvulebinh/asr-alignment", "libris")
获取训练集的第一个样本
sample = dataset["train"][0]
流式加载
python from datasets import load_dataset
dataset = load_dataset("nguyenvulebinh/asr-alignment", "libris", streaming=True)
获取训练集的第一个样本
sample = next(iter(dataset["train"]))
引用
@INPROCEEDINGS{synthetic-multi-asr-nguyen, author={Nguyen, Thai-Binh and Waibel, Alexander}, booktitle={ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)}, title={SYNTHETIC CONVERSATIONS IMPROVE MULTI-TALKER ASR}, year={2024}, volume={}, number={}, }
许可证
该数据集遵循原始数据集的许可证条款。



