flozi00/asr-german-mixed

收藏

Hugging Face2024-04-28 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/flozi00/asr-german-mixed

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个结合了Commonvoice 17.0和Multilingual librispeech两个来源的德语语音数据集。数据经过过滤、标准化和语法校正处理，以确保高质量。数据集主要用于自动语音识别（ASR）模型训练、自然语言处理（NLP）研究和文本到语音应用。

该数据集是一个结合了Commonvoice 17.0和Multilingual librispeech两个来源的德语语音数据集。数据经过过滤、标准化和语法校正处理，以确保高质量。数据集主要用于自动语音识别（ASR）模型训练、自然语言处理（NLP）研究和文本到语音应用。

提供机构：

flozi00

原始信息汇总

数据集概述

数据集名称

名称：ASR-German-Mixed

数据集特征

audio:
- 数据类型：音频
- 采样率：16000
transkription:
- 数据类型：字符串
source:
- 数据类型：字符串

数据集划分

train:
- 数据量：41615466145.16字节
- 样本数：930960

数据集大小

总大小：41615466145.16字节

下载大小

下载大小：121819232271字节

任务类别

自动语音识别（Automatic Speech Recognition）

语言

德语（de）

数据集来源

Commonvoice 17.0:
- 描述：一个由全球志愿者贡献声音创建的公开语音数据集，包含多种语言，包括德语。
Multilingual librispeech:
- 描述：一个广泛的多语言语料库，适合语言研究，基于LibriVox的有声书朗读，包含德语录音。

数据处理步骤

过滤：仅从源数据集中提取德语句子。
规范化：文本统一格式，消除不一致性。
语法修正：修正错误的语法，提高句子质量。

使用目的

ASR模型训练
NLP研究
文本到语音应用

5,000+

优质数据集

54 个

任务类型

进入经典数据集

© 2023-2025 上海数据发展科技有限责任公司版权所有

沪ICP备17003045号-15 沪公网安备31010402336585号

二维码

社区交流群

面向社区/商业的数据集话题

二维码

科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作