five

jp1924/KoreaSpeech

收藏
Hugging Face2024-06-14 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/jp1924/KoreaSpeech
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个用于自动语音识别(ASR)任务的韩语语音数据集。数据集包含音频文件和对应的句子文本,音频文件的采样率为16000Hz。此外,数据集还包含了丰富的元数据信息,如原始数据来源、时间戳、长度、主题、性别、代际、地理位置、方言、数据来源和质量等。数据集分为训练集和验证集,训练集包含2,624,874个样本,验证集包含142,683个样本。数据集的下载大小为427GB,总大小为449GB。

该数据集是一个用于自动语音识别(ASR)任务的韩语语音数据集。数据集包含音频文件和对应的句子文本,音频文件的采样率为16000Hz。此外,数据集还包含了丰富的元数据信息,如原始数据来源、时间戳、长度、主题、性别、代际、地理位置、方言、数据来源和质量等。数据集分为训练集和验证集,训练集包含2,624,874个样本,验证集包含142,683个样本。数据集的下载大小为427GB,总大小为449GB。
提供机构:
jp1924
原始信息汇总

数据集概述

数据集特征

  • audio: 采样率为16000的音频数据。
  • sentence: 字符串类型。
  • id: 字符串类型。
  • meta: 结构化数据,包含以下字段:
    • original: 字符串类型。
    • start: 字符串类型。
    • end: 字符串类型。
    • length: 字符串类型。
    • subject: 字符串类型。
    • topic: 字符串类型。
    • gender: 字符串类型。
    • generation: 字符串类型。
    • location: 字符串类型。
    • dialect: 字符串类型。
    • source: 字符串类型。
    • quality: 字符串类型。

数据集划分

  • train: 2624874个样本,占用426237436069.75字节。
  • validation: 142683个样本,占用22950777291.625字节。

数据集大小

  • 下载大小: 427367614446字节。
  • 数据集大小: 449188213361.375字节。

配置

  • default: 包含训练和验证数据文件的路径配置。

任务类别

  • 自动语音识别。

语言

  • 韩语。

标签

  • STT
  • Audio

大小类别

  • 100B<n<1T
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
jp1924/KoreaSpeech是一个用于自动语音识别任务的韩语数据集,包含音频和文本两种模态,格式为parquet,总文件大小为427 GB。访问该数据集需要用户同意共享联系信息。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作