null010/common_voice_13_0_ko_pseudo_labelled
收藏Hugging Face2024-01-31 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/null010/common_voice_13_0_ko_pseudo_labelled
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
config_name: ko
features:
- name: client_id
dtype: string
- name: path
dtype: string
- name: audio
dtype:
audio:
sampling_rate: 16000
- name: sentence
dtype: string
- name: up_votes
dtype: int64
- name: down_votes
dtype: int64
- name: age
dtype: string
- name: gender
dtype: string
- name: accent
dtype: string
- name: locale
dtype: string
- name: segment
dtype: string
- name: variant
dtype: string
- name: whisper_transcript
sequence: int64
splits:
- name: train
num_bytes: 6913073.0
num_examples: 192
- name: validation
num_bytes: 3327570.0
num_examples: 105
- name: test
num_bytes: 4360439.0
num_examples: 131
download_size: 13956531
dataset_size: 14601082.0
configs:
- config_name: ko
data_files:
- split: train
path: ko/train-*
- split: validation
path: ko/validation-*
- split: test
path: ko/test-*
---
数据集信息:
配置名称:ko
特征字段:
- 字段名称:client_id,数据类型:字符串
- 字段名称:path,数据类型:字符串
- 字段名称:audio,数据类型为音频格式,采样率为16000赫兹
- 字段名称:sentence,数据类型:字符串
- 字段名称:up_votes,数据类型:64位整数
- 字段名称:down_votes,数据类型:64位整数
- 字段名称:age,数据类型:字符串
- 字段名称:gender,数据类型:字符串
- 字段名称:accent,数据类型:字符串
- 字段名称:locale,数据类型:字符串
- 字段名称:segment,数据类型:字符串
- 字段名称:variant,数据类型:字符串
- 字段名称:whisper_transcript,数据类型为序列,元素类型为64位整数
拆分集:
- 名称:train(训练集),字节数:6913073.0,样本数:192
- 名称:validation(验证集),字节数:3327570.0,样本数:105
- 名称:test(测试集),字节数:4360439.0,样本数:131
下载大小:13956531
数据集总大小:14601082.0
配置项:
- 配置名称:ko,数据文件:
- 拆分集:train(训练集),路径:ko/train-*
- 拆分集:validation(验证集),路径:ko/validation-*
- 拆分集:test(测试集),路径:ko/test-*
提供机构:
null010
原始信息汇总
数据集概述
数据集配置
- 配置名称: ko
特征信息
- client_id: 字符串类型
- path: 字符串类型
- audio: 音频类型,采样率为16000
- sentence: 字符串类型
- up_votes: 64位整数类型
- down_votes: 64位整数类型
- age: 字符串类型
- gender: 字符串类型
- accent: 字符串类型
- locale: 字符串类型
- segment: 字符串类型
- variant: 字符串类型
- whisper_transcript: 序列类型,64位整数
数据分割
- 训练集:
- 字节数: 6913073
- 样本数: 192
- 验证集:
- 字节数: 3327570
- 样本数: 105
- 测试集:
- 字节数: 4360439
- 样本数: 131
数据集大小
- 下载大小: 13956531
- 数据集大小: 14601082
数据文件路径
- 训练集: ko/train-*
- 验证集: ko/validation-*
- 测试集: ko/test-*



