flozi00/asr-german-mixed
收藏Hugging Face2024-04-28 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/flozi00/asr-german-mixed
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个结合了Commonvoice 17.0和Multilingual librispeech两个来源的德语语音数据集。数据经过过滤、标准化和语法校正处理,以确保高质量。数据集主要用于自动语音识别(ASR)模型训练、自然语言处理(NLP)研究和文本到语音应用。
该数据集是一个结合了Commonvoice 17.0和Multilingual librispeech两个来源的德语语音数据集。数据经过过滤、标准化和语法校正处理,以确保高质量。数据集主要用于自动语音识别(ASR)模型训练、自然语言处理(NLP)研究和文本到语音应用。
提供机构:
flozi00
原始信息汇总
数据集概述
数据集名称
- 名称:ASR-German-Mixed
数据集特征
- audio:
- 数据类型:音频
- 采样率:16000
- transkription:
- 数据类型:字符串
- source:
- 数据类型:字符串
数据集划分
- train:
- 数据量:41615466145.16字节
- 样本数:930960
数据集大小
- 总大小:41615466145.16字节
下载大小
- 下载大小:121819232271字节
任务类别
- 自动语音识别(Automatic Speech Recognition)
语言
- 德语(de)
数据集来源
- Commonvoice 17.0:
- 描述:一个由全球志愿者贡献声音创建的公开语音数据集,包含多种语言,包括德语。
- Multilingual librispeech:
- 描述:一个广泛的多语言语料库,适合语言研究,基于LibriVox的有声书朗读,包含德语录音。
数据处理步骤
- 过滤:仅从源数据集中提取德语句子。
- 规范化:文本统一格式,消除不一致性。
- 语法修正:修正错误的语法,提高句子质量。
使用目的
- ASR模型训练
- NLP研究
- 文本到语音应用



