monsoonery/voxpopuli_nl_TRAIN_pseudo_labelled
收藏Hugging Face2024-04-03 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/monsoonery/voxpopuli_nl_TRAIN_pseudo_labelled
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
config_name: nl
features:
- name: audio_id
dtype: string
- name: language
dtype:
class_label:
names:
'0': en
'1': de
'2': fr
'3': es
'4': pl
'5': it
'6': ro
'7': hu
'8': cs
'9': nl
'10': fi
'11': hr
'12': sk
'13': sl
'14': et
'15': lt
'16': en_accented
- name: audio
dtype:
audio:
sampling_rate: 16000
- name: raw_text
dtype: string
- name: normalized_text
dtype: string
- name: gender
dtype: string
- name: speaker_id
dtype: string
- name: is_gold_transcript
dtype: bool
- name: accent
dtype: string
- name: whisper_transcript
sequence: int64
splits:
- name: train
num_bytes: 10456321909.608
num_examples: 20968
download_size: 8900264489
dataset_size: 10456321909.608
configs:
- config_name: nl
data_files:
- split: train
path: nl/train-*
---
提供机构:
monsoonery
原始信息汇总
数据集概述
数据集配置
- 配置名称: nl
数据特征
- audio_id: 字符串类型
- language: 分类标签类型,包含以下语言:
- en
- de
- fr
- es
- pl
- it
- ro
- hu
- cs
- nl
- fi
- hr
- sk
- sl
- et
- lt
- en_accented
- audio: 音频类型,采样率为16000 Hz
- raw_text: 字符串类型
- normalized_text: 字符串类型
- gender: 字符串类型
- speaker_id: 字符串类型
- is_gold_transcript: 布尔类型
- accent: 字符串类型
- whisper_transcript: 序列类型,整数64位
数据集分割
- 训练集:
- 数据量: 20968个样本
- 存储大小: 10456321909.608字节
数据集大小
- 下载大小: 8900264489字节
- 数据集总大小: 10456321909.608字节



