five

Chijioke-Mgbahurike/eval

收藏
Hugging Face2024-06-06 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/Chijioke-Mgbahurike/eval
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含音频文件及其转录文本,以及相关的注释者ID、文件名、说话者数量等信息。此外,数据集还记录了不同方言和口音的使用情况、性别信息、人口统计信息等。数据集包含一个训练集,大小为536509199.6929134字节,包含197个样本。

该数据集包含音频文件及其转录文本,以及相关的注释者ID、文件名、说话者数量等信息。此外,数据集还记录了不同方言和口音的使用情况、性别信息、人口统计信息等。数据集包含一个训练集,大小为536509199.6929134字节,包含197个样本。
提供机构:
Chijioke-Mgbahurike
原始信息汇总

数据集概述

数据集特征

  • audio

    • 数据类型: audio
    • 采样率: 16000
  • Unnamed: 0

    • 数据类型: int64
  • transcription

    • 数据类型: string
  • annotator_id

    • 数据类型: float64
  • filename

    • 数据类型: string
  • num_speakers

    • 数据类型: float64
  • aave

    • 数据类型: float64
  • aave_speaker_count

    • 数据类型: float64
  • chicano_english

    • 数据类型: float64
  • ce_speaker_count

    • 数据类型: float64
  • spanglish

    • 数据类型: float64
  • spanglish_speaker_count

    • 数据类型: float64
  • sae

    • 数据类型: float64
  • sae_speaker_count

    • 数据类型: float64
  • codeswitching

    • 数据类型: float64
  • other_dialect_accent

    • 数据类型: float64
  • women

    • 数据类型: float64
  • women_speaker_count

    • 数据类型: float64
  • men

    • 数据类型: float64
  • men_speaker_count

    • 数据类型: float64
  • demographic_info_correct

    • 数据类型: float64
  • demographic_group

    • 数据类型: class_label
    • 类别名称:
      • 0: Black Men
      • 1: Black Women
      • 2: Black Womnen
      • 3: Latinx Men
      • 4: Latinx Men and Women
      • 5: Latinx Women
      • 6: Men
      • 7: White Men
      • 8: White Men and Women
      • 9: White Women
      • 10: white Women
  • input_values

    • 数据类型: float32 (sequence)
  • input_length

    • 数据类型: float64
  • labels

    • 数据类型: int64 (sequence)

数据集分割

  • train
    • 数据量: 536509199.6929134 字节
    • 样本数: 197

数据集大小

  • 下载大小: 494097856 字节
  • 数据集大小: 536509199.6929134 字节
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作