flozi00/german-canary-asr-0324
收藏Hugging Face2024-03-19 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/flozi00/german-canary-asr-0324
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是三个不同来源的德语语音数据的组合,包括Commonvoice 16.1、Voxpopuli和Multilingual librispeech。数据经过过滤、归一化和语法校正处理,用于自动语音识别(ASR)模型训练、自然语言处理(NLP)研究和文本到语音应用。
该数据集是三个不同来源的德语语音数据的组合,包括Commonvoice 16.1、Voxpopuli和Multilingual librispeech。数据经过过滤、归一化和语法校正处理,用于自动语音识别(ASR)模型训练、自然语言处理(NLP)研究和文本到语音应用。
提供机构:
flozi00
原始信息汇总
数据集概述
数据集基本信息
- 名称: German Canary ASR
- 语言: 德语 (de)
- 任务类别: 自动语音识别 (automatic-speech-recognition)
数据集特征
- audio:
- 数据类型: 音频
- 采样率: 16000 Hz
- 解码: 否
- transkription:
- 数据类型: 字符串
- source:
- 数据类型: 字符串
数据集分割
- 训练集 (train):
- 样本数量: 985257
- 数据大小: 41511776468.673 字节
数据集来源
- Commonvoice 16.1: 一个由全球志愿者贡献声音创建的公开语音数据集,包含多种语言的句子录音,包括德语。
- Voxpopuli: 数据来源于2009至2020年欧洲议会活动的录音,感谢欧洲议会创建并分享这些材料。
- Multilingual librispeech: 一个适合语言研究的大型多语言语料库,基于LibriVox的有声书朗读,也包含德语录音。
数据处理步骤
- 筛选: 仅从各源数据集中提取德语句子。
- 标准化: 文本被统一格式化以消除不一致性。
- 语法校正: 纠正语法错误以提高句子质量。
使用目的
- 自动语音识别模型训练
- 自然语言处理研究
- 文本到语音应用



