monsoonery/voxpopuli_nl_EVAL_pseudo_labelled
收藏Hugging Face2024-04-03 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/monsoonery/voxpopuli_nl_EVAL_pseudo_labelled
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
config_name: nl
features:
- name: audio_id
dtype: string
- name: language
dtype:
class_label:
names:
'0': en
'1': de
'2': fr
'3': es
'4': pl
'5': it
'6': ro
'7': hu
'8': cs
'9': nl
'10': fi
'11': hr
'12': sk
'13': sl
'14': et
'15': lt
'16': en_accented
- name: audio
dtype:
audio:
sampling_rate: 16000
- name: raw_text
dtype: string
- name: normalized_text
dtype: string
- name: gender
dtype: string
- name: speaker_id
dtype: string
- name: is_gold_transcript
dtype: bool
- name: accent
dtype: string
- name: whisper_transcript
sequence: int64
splits:
- name: validation
num_bytes: 638121672.64
num_examples: 1230
download_size: 509816155
dataset_size: 638121672.64
configs:
- config_name: nl
data_files:
- split: validation
path: nl/validation-*
---
数据集信息:
配置名称:nl
特征字段:
- 字段名:音频ID(audio_id),数据类型:字符串(string)
- 字段名:语言(language),数据类型:类别标签(class_label),类别映射如下:
'0': 英语(en)
'1': 德语(de)
'2': 法语(fr)
'3': 西班牙语(es)
'4': 波兰语(pl)
'5': 意大利语(it)
'6': 罗马尼亚语(ro)
'7': 匈牙利语(hu)
'8': 捷克语(cs)
'9': 荷兰语(nl)
'10': 芬兰语(fi)
'11': 克罗地亚语(hr)
'12': 斯洛伐克语(sk)
'13': 斯洛文尼亚语(sl)
'14': 爱沙尼亚语(et)
'15': 立陶宛语(lt)
'16': 带口音英语(en_accented)
- 字段名:音频(audio),数据类型:音频数据(audio),采样率:16000 赫兹
- 字段名:原始文本(raw_text),数据类型:字符串(string)
- 字段名:归一化文本(normalized_text),数据类型:字符串(string)
- 字段名:性别(gender),数据类型:字符串(string)
- 字段名:说话人ID(speaker_id),数据类型:字符串(string)
- 字段名:金标准转录标记(is_gold_transcript),数据类型:布尔值(bool)
- 字段名:口音(accent),数据类型:字符串(string)
- 字段名:Whisper转录序列(whisper_transcript),数据类型:int64序列
数据集划分:
- 划分名称:验证集(validation),占用字节数:638121672.64,样本数量:1230
下载大小:509816155 字节,数据集总大小:638121672.64 字节
配置项:
- 配置名称:nl,数据文件:
- 数据集划分:验证集(validation),文件路径:nl/validation-*
提供机构:
monsoonery
原始信息汇总
数据集概述
数据集配置名称
- 配置名称: nl
数据集特征
- 音频ID: 字符串类型
- 语言: 分类标签类型,包括以下语言:
- 0: en
- 1: de
- 2: fr
- 3: es
- 4: pl
- 5: it
- 6: ro
- 7: hu
- 8: cs
- 9: nl
- 10: fi
- 11: hr
- 12: sk
- 13: sl
- 14: et
- 15: lt
- 16: en_accented
- 音频: 音频类型,采样率为16000
- 原始文本: 字符串类型
- 规范化文本: 字符串类型
- 性别: 字符串类型
- 说话人ID: 字符串类型
- 是否为黄金转录: 布尔类型
- 口音: 字符串类型
- Whisper转录: 整数类型
数据集分割
- 验证集:
- 字节数: 638121672.64
- 示例数: 1230
数据集大小
- 下载大小: 509816155
- 数据集大小: 638121672.64
数据文件配置
- 配置名称: nl
- 数据文件:
- 分割: 验证集
- 路径: nl/validation-*



