five

flozi00/german-canary-asr-0324

收藏
Hugging Face2024-03-19 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/flozi00/german-canary-asr-0324
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是三个不同来源的德语语音数据的组合,包括Commonvoice 16.1、Voxpopuli和Multilingual librispeech。数据经过过滤、归一化和语法校正处理,用于自动语音识别(ASR)模型训练、自然语言处理(NLP)研究和文本到语音应用。

该数据集是三个不同来源的德语语音数据的组合,包括Commonvoice 16.1、Voxpopuli和Multilingual librispeech。数据经过过滤、归一化和语法校正处理,用于自动语音识别(ASR)模型训练、自然语言处理(NLP)研究和文本到语音应用。
提供机构:
flozi00
原始信息汇总

数据集概述

数据集基本信息

  • 名称: German Canary ASR
  • 语言: 德语 (de)
  • 任务类别: 自动语音识别 (automatic-speech-recognition)

数据集特征

  • audio:
    • 数据类型: 音频
    • 采样率: 16000 Hz
    • 解码: 否
  • transkription:
    • 数据类型: 字符串
  • source:
    • 数据类型: 字符串

数据集分割

  • 训练集 (train):
    • 样本数量: 985257
    • 数据大小: 41511776468.673 字节

数据集来源

  • Commonvoice 16.1: 一个由全球志愿者贡献声音创建的公开语音数据集,包含多种语言的句子录音,包括德语。
  • Voxpopuli: 数据来源于2009至2020年欧洲议会活动的录音,感谢欧洲议会创建并分享这些材料。
  • Multilingual librispeech: 一个适合语言研究的大型多语言语料库,基于LibriVox的有声书朗读,也包含德语录音。

数据处理步骤

  1. 筛选: 仅从各源数据集中提取德语句子。
  2. 标准化: 文本被统一格式化以消除不一致性。
  3. 语法校正: 纠正语法错误以提高句子质量。

使用目的

  • 自动语音识别模型训练
  • 自然语言处理研究
  • 文本到语音应用
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作