five

nguyenvulebinh/asr-alignment

收藏
Hugging Face2024-01-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/nguyenvulebinh/asr-alignment
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是多个广泛使用的ASR数据集的变体,包括Librispeech、MuST-C、TED-LIUM、VoxPopuli、Common Voice和GigaSpeech。与原始数据集不同的是,该数据集包含了音频和文本之间的精确对齐、标点符号和大小写敏感的文本,以及文本中命名实体的识别。

该数据集是多个广泛使用的ASR数据集的变体,包括Librispeech、MuST-C、TED-LIUM、VoxPopuli、Common Voice和GigaSpeech。与原始数据集不同的是,该数据集包含了音频和文本之间的精确对齐、标点符号和大小写敏感的文本,以及文本中命名实体的识别。
提供机构:
nguyenvulebinh
原始信息汇总

语音识别对齐数据集

数据集概述

该数据集是多个广泛使用的自动语音识别(ASR)数据集的变体,包括Librispeech、MuST-C、TED-LIUM、VoxPopuli、Common Voice和GigaSpeech。该数据集的特点包括:

  • 音频与文本之间的精确对齐。
  • 标点符号和大小写敏感的文本。
  • 文本中命名实体的识别。

数据集配置

Common Voice

  • 特征:
    • id: 字符串
    • text: 字符串
    • audio: 采样率16000
    • words: 字符串序列
    • word_start: 浮点数序列
    • word_end: 浮点数序列
    • entity_start: 整数序列
    • entity_end: 整数序列
    • entity_label: 字符串序列
  • 分割:
    • train: 43744079378.659字节, 948733个样本
    • valid: 722372503.994字节, 16353个样本
  • 下载大小: 39798988113字节
  • 数据集大小: 44466451882.653字节

GigaSpeech

  • 特征:
    • id: 字符串
    • text: 字符串
    • audio: 采样率16000
    • words: 字符串序列
    • word_start: 浮点数序列
    • word_end: 浮点数序列
    • entity_start: 整数序列
    • entity_end: 整数序列
    • entity_label: 字符串序列
  • 分割:
    • train: 1032024261294.48字节, 8282987个样本
    • valid: 1340974408.04字节, 5715个样本
  • 下载大小: 1148966064515字节
  • 数据集大小: 1033365235702.52字节

Libris

  • 特征:
    • id: 字符串
    • text: 字符串
    • audio: 采样率16000
    • words: 字符串序列
    • word_start: 浮点数序列
    • word_end: 浮点数序列
    • entity_start: 整数序列
    • entity_end: 整数序列
    • entity_label: 字符串序列
  • 分割:
    • train: 63849575890.896字节, 281241个样本
    • valid: 793442600.643字节, 5559个样本
  • 下载大小: 61361142328字节
  • 数据集大小: 64643018491.539字节

MuST-C

  • 特征:
    • id: 字符串
    • text: 字符串
    • audio: 采样率16000
    • words: 字符串序列
    • word_start: 浮点数序列
    • word_end: 浮点数序列
    • entity_start: 整数序列
    • entity_end: 整数序列
    • entity_label: 字符串序列
  • 分割:
    • train: 55552777413.1字节, 248612个样本
    • valid: 313397447.704字节, 1408个样本
  • 下载大小: 52028374666字节
  • 数据集大小: 55866174860.804字节

TED-LIUM

  • 特征:
    • id: 字符串
    • text: 字符串
    • audio: 采样率16000
    • words: 字符串序列
    • word_start: 浮点数序列
    • word_end: 浮点数序列
    • entity_start: 整数序列
    • entity_end: 整数序列
    • entity_label: 字符串序列
  • 分割:
    • train: 56248950771.568字节, 268216个样本
    • valid: 321930549.928字节, 1456个样本
  • 下载大小: 52557126451字节
  • 数据集大小: 56570881321.496字节

VoxPopuli

  • 特征:
    • id: 字符串
    • text: 字符串
    • audio: 采样率16000
    • words: 字符串序列
    • word_start: 浮点数序列
    • word_end: 浮点数序列
    • entity_start: 整数序列
    • entity_end: 整数序列
    • entity_label: 字符串序列
  • 分割:
    • train: 118516424284.524字节, 182463个样本
    • valid: 1144543020.808字节, 1842个样本
  • 下载大小: 98669668241字节
  • 数据集大小: 119660967305.332字节

使用方法

安装依赖

bash pip install --upgrade pip pip install --upgrade datasets[audio]

加载数据集

python from datasets import load_dataset

可用数据集: libris,mustc,tedlium,voxpopuli,commonvoice,gigaspeech

dataset = load_dataset("nguyenvulebinh/asr-alignment", "libris")

获取训练集的第一个样本

sample = dataset["train"][0]

流式加载

python from datasets import load_dataset

dataset = load_dataset("nguyenvulebinh/asr-alignment", "libris", streaming=True)

获取训练集的第一个样本

sample = next(iter(dataset["train"]))

引用

@INPROCEEDINGS{synthetic-multi-asr-nguyen, author={Nguyen, Thai-Binh and Waibel, Alexander}, booktitle={ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)}, title={SYNTHETIC CONVERSATIONS IMPROVE MULTI-TALKER ASR}, year={2024}, volume={}, number={}, }

许可证

该数据集遵循原始数据集的许可证条款。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作