jp1924/KoreaSpeech
收藏Hugging Face2024-06-14 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/jp1924/KoreaSpeech
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个用于自动语音识别(ASR)任务的韩语语音数据集。数据集包含音频文件和对应的句子文本,音频文件的采样率为16000Hz。此外,数据集还包含了丰富的元数据信息,如原始数据来源、时间戳、长度、主题、性别、代际、地理位置、方言、数据来源和质量等。数据集分为训练集和验证集,训练集包含2,624,874个样本,验证集包含142,683个样本。数据集的下载大小为427GB,总大小为449GB。
该数据集是一个用于自动语音识别(ASR)任务的韩语语音数据集。数据集包含音频文件和对应的句子文本,音频文件的采样率为16000Hz。此外,数据集还包含了丰富的元数据信息,如原始数据来源、时间戳、长度、主题、性别、代际、地理位置、方言、数据来源和质量等。数据集分为训练集和验证集,训练集包含2,624,874个样本,验证集包含142,683个样本。数据集的下载大小为427GB,总大小为449GB。
提供机构:
jp1924
原始信息汇总
数据集概述
数据集特征
- audio: 采样率为16000的音频数据。
- sentence: 字符串类型。
- id: 字符串类型。
- meta: 结构化数据,包含以下字段:
- original: 字符串类型。
- start: 字符串类型。
- end: 字符串类型。
- length: 字符串类型。
- subject: 字符串类型。
- topic: 字符串类型。
- gender: 字符串类型。
- generation: 字符串类型。
- location: 字符串类型。
- dialect: 字符串类型。
- source: 字符串类型。
- quality: 字符串类型。
数据集划分
- train: 2624874个样本,占用426237436069.75字节。
- validation: 142683个样本,占用22950777291.625字节。
数据集大小
- 下载大小: 427367614446字节。
- 数据集大小: 449188213361.375字节。
配置
- default: 包含训练和验证数据文件的路径配置。
任务类别
- 自动语音识别。
语言
- 韩语。
标签
- STT
- Audio
大小类别
- 100B<n<1T
搜集汇总
数据集介绍

背景与挑战
背景概述
jp1924/KoreaSpeech是一个用于自动语音识别任务的韩语数据集,包含音频和文本两种模态,格式为parquet,总文件大小为427 GB。访问该数据集需要用户同意共享联系信息。
以上内容由遇见数据集搜集并总结生成



