jp1924/KsponSpeech

Name: jp1924/KsponSpeech
Creator: jp1924
Published: 2024-06-14 06:08:01
License: 暂无描述

Hugging Face2024-06-14 更新2024-06-11 收录

下载链接：

https://hf-mirror.com/datasets/jp1924/KsponSpeech

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个用于自动语音识别（ASR）任务的大规模韩语数据集。数据集包含音频文件和对应的文本句子，音频文件的采样率为16000Hz。数据集分为四个部分：dev、eval_clean、eval_other和train，分别包含2545、3000、3000和620000个样本。数据集的语言为韩语（ko），并且属于大规模数据集（100B<n<1T）。

提供机构：

jp1924

原始信息汇总

数据集概述

数据集信息

特征（Features）:
- audio:
  - 数据类型: 音频
  - 采样率: 16000 Hz
- sentence:
  - 数据类型: 字符串
- id:
  - 数据类型: 字符串
分割（Splits）:
- dev:
  - 示例数量: 2545
  - 数据大小: 453996265.875 字节
- eval_clean:
  - 示例数量: 3000
  - 数据大小: 304987608 字节
- eval_other:
  - 示例数量: 3000
  - 数据大小: 438544274 字节
- train:
  - 示例数量: 620000
  - 数据大小: 111286133042 字节
下载大小（Download Size）: 105060754027 字节
数据集大小（Dataset Size）: 112483661189.875 字节

配置（Configs）

config_name: default
数据文件（Data Files）:
- dev: data/dev-*
- eval_clean: data/eval_clean-*
- eval_other: data/eval_other-*
- train: data/train-*

任务类别（Task Categories）

automatic-speech-recognition

语言（Language）

标签（Tags）

STT
Audio

大小类别（Size Categories）

100B<n<1T

5,000+

优质数据集

54 个

任务类型

进入经典数据集