five

sanchit-gandhi/voxpopuli_dummy

收藏
Hugging Face2023-12-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/sanchit-gandhi/voxpopuli_dummy
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: config_name: nl features: - name: audio_id dtype: string - name: language dtype: class_label: names: '0': en '1': de '2': fr '3': es '4': pl '5': it '6': ro '7': hu '8': cs '9': nl '10': fi '11': hr '12': sk '13': sl '14': et '15': lt '16': en_accented - name: audio dtype: audio: sampling_rate: 16000 - name: raw_text dtype: string - name: normalized_text dtype: string - name: gender dtype: string - name: speaker_id dtype: string - name: is_gold_transcript dtype: bool - name: accent dtype: string splits: - name: validation num_bytes: 37298110.0 num_examples: 73 download_size: 30081800 dataset_size: 37298110.0 configs: - config_name: nl data_files: - split: validation path: nl/validation-* ---
提供机构:
sanchit-gandhi
原始信息汇总

数据集概述

配置名称

  • config_name: nl

特征信息

  • audio_id: 字符串类型
  • language: 类别标签类型,包含以下语言:
    • 0: en
    • 1: de
    • 2: fr
    • 3: es
    • 4: pl
    • 5: it
    • 6: ro
    • 7: hu
    • 8: cs
    • 9: nl
    • 10: fi
    • 11: hr
    • 12: sk
    • 13: sl
    • 14: et
    • 15: lt
    • 16: en_accented
  • audio: 音频类型,采样率为16000
  • raw_text: 字符串类型
  • normalized_text: 字符串类型
  • gender: 字符串类型
  • speaker_id: 字符串类型
  • is_gold_transcript: 布尔类型
  • accent: 字符串类型

数据分割

  • validation: 包含73个样本,数据大小为37298110.0字节

数据大小

  • download_size: 30081800字节
  • dataset_size: 37298110.0字节

配置信息

  • config_name: nl
  • data_files:
    • split: validation
    • path: nl/validation-*
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作