five

pteromyini0/tj_cleaned_fleurs

收藏
Hugging Face2024-07-17 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/pteromyini0/tj_cleaned_fleurs
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多个特征,如ID、样本数量、音频路径、音频数据、转录文本、原始转录文本、性别、语言ID、语言、语言组ID等。音频数据的采样率为16000Hz。数据集支持多种语言,并分为训练、验证和测试三个部分。每个部分都有相应的样本数量和字节数。数据集的配置文件指定了各个部分的文件路径。

The dataset includes multiple features such as ID, number of samples, audio path, audio data, transcription, raw transcription, gender, language ID, language, and language group ID. The audio data has a sampling rate of 16000Hz. The dataset supports multiple languages and is divided into training, validation, and test parts. Each part has corresponding number of samples and bytes. The dataset configuration files specify the file paths for each part.
提供机构:
pteromyini0
原始信息汇总

数据集概述

基本信息

  • 名称: tj_cleaned_fleurs
  • 描述: pteromyini0/tj_cleaned_fleurs 数据集托管在 HF Mirror 并由 HF Datasets 社区贡献。
  • 创建者: Thomas S
  • 关键词: 1K - 10K, parquet, Audio, Text, Datasets, Dask, Croissant, 🇺🇸 Region: US
  • URL: https://hf-mirror.com/datasets/pteromyini0/tj_cleaned_fleurs

数据集结构

记录集

  • 类型: cr:RecordSet
  • 名称: default
  • 描述: pteromyini0/tj_cleaned_fleurs - default 子集
    • 3 个分割: train, validation, test
    • 1 个跳过的列: audio

字段

  • id:

    • 名称: default/id
    • 描述: HF Mirror parquet 文件中的列 id。
    • 数据类型: sc:Integer
  • num_samples:

    • 名称: default/num_samples
    • 描述: HF Mirror parquet 文件中的列 num_samples。
    • 数据类型: sc:Integer
  • path:

    • 名称: default/path
    • 描述: HF Mirror parquet 文件中的列 path。
    • 数据类型: sc:Text
  • transcription:

    • 名称: default/transcription
    • 描述: HF Mirror parquet 文件中的列 transcription。
    • 数据类型: sc:Text
  • raw_transcription:

    • 名称: default/raw_transcription
    • 描述: HF Mirror parquet 文件中的列 raw_transcription。
    • 数据类型: sc:Text
  • gender:

    • 名称: default/gender
    • 描述: HF Mirror parquet 文件中的 ClassLabel 列 gender。
      • 标签: male (0), female (1), other (2)
    • 数据类型: sc:Integer
  • lang_id:

    • 名称: default/lang_id
    • 描述: HF Mirror parquet 文件中的 ClassLabel 列 lang_id。
      • 标签: af_za (0), am_et (1), ar_eg (2), ..., zu_za (101), all (102)
    • 数据类型: sc:Integer
  • language:

    • 名称: default/language
    • 描述: HF Mirror parquet 文件中的列 language。
    • 数据类型: sc:Text
  • lang_group_id:

    • 名称: default/lang_group_id
    • 描述: HF Mirror parquet 文件中的 ClassLabel 列 lang_group_id。
      • 标签: western_european_we (0), eastern_european_ee (1), ..., chinese_japanase_korean_cjk (6)
    • 数据类型: sc:Integer
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作