jp1924/KoreaSpeech

Name: jp1924/KoreaSpeech
Creator: jp1924
Published: 2024-06-14 06:07:34
License: 暂无描述

Hugging Face2024-06-14 更新2024-06-11 收录

下载链接：

https://hf-mirror.com/datasets/jp1924/KoreaSpeech

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个用于自动语音识别（ASR）任务的韩语语音数据集。数据集包含音频文件和对应的句子文本，音频文件的采样率为16000Hz。此外，数据集还包含了丰富的元数据信息，如原始数据来源、时间戳、长度、主题、性别、代际、地理位置、方言、数据来源和质量等。数据集分为训练集和验证集，训练集包含2,624,874个样本，验证集包含142,683个样本。数据集的下载大小为427GB，总大小为449GB。

提供机构：

jp1924

原始信息汇总

数据集概述

数据集特征

audio: 采样率为16000的音频数据。
sentence: 字符串类型。
id: 字符串类型。
meta: 结构化数据，包含以下字段：
- original: 字符串类型。
- start: 字符串类型。
- end: 字符串类型。
- length: 字符串类型。
- subject: 字符串类型。
- topic: 字符串类型。
- gender: 字符串类型。
- generation: 字符串类型。
- location: 字符串类型。
- dialect: 字符串类型。
- source: 字符串类型。
- quality: 字符串类型。

数据集划分

train: 2624874个样本，占用426237436069.75字节。
validation: 142683个样本，占用22950777291.625字节。

数据集大小

下载大小: 427367614446字节。
数据集大小: 449188213361.375字节。

配置

default: 包含训练和验证数据文件的路径配置。

任务类别

自动语音识别。

语言

韩语。

大小类别

100B<n<1T

搜集汇总

数据集介绍

背景与挑战

背景概述

jp1924/KoreaSpeech是一个用于自动语音识别任务的韩语数据集，包含音频和文本两种模态，格式为parquet，总文件大小为427 GB。访问该数据集需要用户同意共享联系信息。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集