jp1924/KconfSpeech
收藏Hugging Face2024-06-14 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/jp1924/KconfSpeech
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: audio
dtype:
audio:
sampling_rate: 16000
- name: sentence
dtype: string
- name: id
dtype: string
- name: dataSet
struct:
- name: version
dtype: string
- name: date
dtype: string
- name: typeInfo
struct:
- name: category
dtype: string
- name: subcategory
dtype: string
- name: place
dtype: string
- name: speakers
list:
- name: id
dtype: string
- name: gender
dtype: string
- name: age
dtype: string
- name: residence
dtype: string
- name: inputType
dtype: string
- name: dialogs
list:
- name: speaker
dtype: string
- name: audioPath
dtype: string
- name: textPath
dtype: string
splits:
- name: train
num_bytes: 342782915304.375
num_examples: 1824445
- name: validation
num_bytes: 3177111029.875
num_examples: 16113
download_size: 334480278087
dataset_size: 345960026334.25
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
- split: validation
path: data/validation-*
task_categories:
- automatic-speech-recognition
language:
- ko
tags:
- STT
- Audio
size_categories:
- 100B<n<1T
---
提供机构:
jp1924
原始信息汇总
数据集概述
数据集特征
- audio: 采样率为16000的音频数据。
- sentence: 字符串类型。
- id: 字符串类型。
- dataSet: 结构化数据,包含以下子特征:
- version: 字符串类型。
- date: 字符串类型。
- typeInfo: 结构化数据,包含以下子特征:
- category: 字符串类型。
- subcategory: 字符串类型。
- place: 字符串类型。
- speakers: 列表,包含以下子特征:
- id: 字符串类型。
- gender: 字符串类型。
- age: 字符串类型。
- residence: 字符串类型。
- inputType: 字符串类型。
- dialogs: 列表,包含以下子特征:
- speaker: 字符串类型。
- audioPath: 字符串类型。
- textPath: 字符串类型。
数据集分割
- train: 1824445个样本,占用342782915304.375字节。
- validation: 16113个样本,占用3177111029.875字节。
数据集大小
- 下载大小: 334480278087字节。
- 数据集大小: 345960026334.25字节。
配置
- config_name: default
- data_files:
- split: train, path: data/train-*
- split: validation, path: data/validation-*
任务类别
- automatic-speech-recognition
语言
- ko
标签
- STT
- Audio
大小类别
- 100B<n<1T
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



