five

monsoonery/voxpopuli_nl_EVAL_pseudo_labelled

收藏
Hugging Face2024-04-03 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/monsoonery/voxpopuli_nl_EVAL_pseudo_labelled
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: config_name: nl features: - name: audio_id dtype: string - name: language dtype: class_label: names: '0': en '1': de '2': fr '3': es '4': pl '5': it '6': ro '7': hu '8': cs '9': nl '10': fi '11': hr '12': sk '13': sl '14': et '15': lt '16': en_accented - name: audio dtype: audio: sampling_rate: 16000 - name: raw_text dtype: string - name: normalized_text dtype: string - name: gender dtype: string - name: speaker_id dtype: string - name: is_gold_transcript dtype: bool - name: accent dtype: string - name: whisper_transcript sequence: int64 splits: - name: validation num_bytes: 638121672.64 num_examples: 1230 download_size: 509816155 dataset_size: 638121672.64 configs: - config_name: nl data_files: - split: validation path: nl/validation-* ---

数据集信息: 配置名称:nl 特征字段: - 字段名:音频ID(audio_id),数据类型:字符串(string) - 字段名:语言(language),数据类型:类别标签(class_label),类别映射如下: '0': 英语(en) '1': 德语(de) '2': 法语(fr) '3': 西班牙语(es) '4': 波兰语(pl) '5': 意大利语(it) '6': 罗马尼亚语(ro) '7': 匈牙利语(hu) '8': 捷克语(cs) '9': 荷兰语(nl) '10': 芬兰语(fi) '11': 克罗地亚语(hr) '12': 斯洛伐克语(sk) '13': 斯洛文尼亚语(sl) '14': 爱沙尼亚语(et) '15': 立陶宛语(lt) '16': 带口音英语(en_accented) - 字段名:音频(audio),数据类型:音频数据(audio),采样率:16000 赫兹 - 字段名:原始文本(raw_text),数据类型:字符串(string) - 字段名:归一化文本(normalized_text),数据类型:字符串(string) - 字段名:性别(gender),数据类型:字符串(string) - 字段名:说话人ID(speaker_id),数据类型:字符串(string) - 字段名:金标准转录标记(is_gold_transcript),数据类型:布尔值(bool) - 字段名:口音(accent),数据类型:字符串(string) - 字段名:Whisper转录序列(whisper_transcript),数据类型:int64序列 数据集划分: - 划分名称:验证集(validation),占用字节数:638121672.64,样本数量:1230 下载大小:509816155 字节,数据集总大小:638121672.64 字节 配置项: - 配置名称:nl,数据文件: - 数据集划分:验证集(validation),文件路径:nl/validation-*
提供机构:
monsoonery
原始信息汇总

数据集概述

数据集配置名称

  • 配置名称: nl

数据集特征

  • 音频ID: 字符串类型
  • 语言: 分类标签类型,包括以下语言:
    • 0: en
    • 1: de
    • 2: fr
    • 3: es
    • 4: pl
    • 5: it
    • 6: ro
    • 7: hu
    • 8: cs
    • 9: nl
    • 10: fi
    • 11: hr
    • 12: sk
    • 13: sl
    • 14: et
    • 15: lt
    • 16: en_accented
  • 音频: 音频类型,采样率为16000
  • 原始文本: 字符串类型
  • 规范化文本: 字符串类型
  • 性别: 字符串类型
  • 说话人ID: 字符串类型
  • 是否为黄金转录: 布尔类型
  • 口音: 字符串类型
  • Whisper转录: 整数类型

数据集分割

  • 验证集:
    • 字节数: 638121672.64
    • 示例数: 1230

数据集大小

  • 下载大小: 509816155
  • 数据集大小: 638121672.64

数据文件配置

  • 配置名称: nl
  • 数据文件:
    • 分割: 验证集
    • 路径: nl/validation-*
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作