flozi00/german-canary-asr-0324

收藏

Hugging Face2024-03-19 更新2024-06-11 收录

下载链接：

https://hf-mirror.com/datasets/flozi00/german-canary-asr-0324

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是三个不同来源的德语语音数据的组合，包括Commonvoice 16.1、Voxpopuli和Multilingual librispeech。数据经过过滤、归一化和语法校正处理，用于自动语音识别（ASR）模型训练、自然语言处理（NLP）研究和文本到语音应用。

该数据集是三个不同来源的德语语音数据的组合，包括Commonvoice 16.1、Voxpopuli和Multilingual librispeech。数据经过过滤、归一化和语法校正处理，用于自动语音识别（ASR）模型训练、自然语言处理（NLP）研究和文本到语音应用。

提供机构：

flozi00

原始信息汇总

数据集概述

数据集基本信息

名称: German Canary ASR
语言: 德语 (de)
任务类别: 自动语音识别 (automatic-speech-recognition)

数据集特征

audio:
- 数据类型: 音频
- 采样率: 16000 Hz
- 解码: 否
transkription:
- 数据类型: 字符串
source:
- 数据类型: 字符串

数据集分割

训练集 (train):
- 样本数量: 985257
- 数据大小: 41511776468.673 字节

数据集来源

Commonvoice 16.1: 一个由全球志愿者贡献声音创建的公开语音数据集，包含多种语言的句子录音，包括德语。
Voxpopuli: 数据来源于2009至2020年欧洲议会活动的录音，感谢欧洲议会创建并分享这些材料。
Multilingual librispeech: 一个适合语言研究的大型多语言语料库，基于LibriVox的有声书朗读，也包含德语录音。

数据处理步骤

筛选: 仅从各源数据集中提取德语句子。
标准化: 文本被统一格式化以消除不一致性。
语法校正: 纠正语法错误以提高句子质量。

使用目的

自动语音识别模型训练
自然语言处理研究
文本到语音应用

5,000+

优质数据集

54 个

任务类型

进入经典数据集

© 2023-2025 上海数据发展科技有限责任公司版权所有

沪ICP备17003045号-15 沪公网安备31010402336585号

二维码

社区交流群

面向社区/商业的数据集话题

二维码

科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作