pteromyini0/tj_cleaned_fleurs
收藏Hugging Face2024-07-17 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/pteromyini0/tj_cleaned_fleurs
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多个特征,如ID、样本数量、音频路径、音频数据、转录文本、原始转录文本、性别、语言ID、语言、语言组ID等。音频数据的采样率为16000Hz。数据集支持多种语言,并分为训练、验证和测试三个部分。每个部分都有相应的样本数量和字节数。数据集的配置文件指定了各个部分的文件路径。
The dataset includes multiple features such as ID, number of samples, audio path, audio data, transcription, raw transcription, gender, language ID, language, and language group ID. The audio data has a sampling rate of 16000Hz. The dataset supports multiple languages and is divided into training, validation, and test parts. Each part has corresponding number of samples and bytes. The dataset configuration files specify the file paths for each part.
提供机构:
pteromyini0
原始信息汇总
数据集概述
基本信息
- 名称: tj_cleaned_fleurs
- 描述: pteromyini0/tj_cleaned_fleurs 数据集托管在 HF Mirror 并由 HF Datasets 社区贡献。
- 创建者: Thomas S
- 关键词: 1K - 10K, parquet, Audio, Text, Datasets, Dask, Croissant, 🇺🇸 Region: US
- URL: https://hf-mirror.com/datasets/pteromyini0/tj_cleaned_fleurs
数据集结构
- 分布:
-
类型: cr:FileObject
-
名称: repo
-
描述: HF Mirror git 仓库。
-
内容 URL: https://hf-mirror.com/datasets/pteromyini0/tj_cleaned_fleurs/tree/refs%2Fconvert%2Fparquet
-
编码格式: git+https
-
类型: cr:FileSet
-
名称: parquet-files-for-config-default
-
描述: 由 HF Mirror 转换的底层 Parquet 文件(参见:https://hf-mirror.com/docs/datasets-server/parquet)。
-
包含于: repo
-
编码格式: application/x-parquet
-
包含: default//.parquet
-
记录集
- 类型: cr:RecordSet
- 名称: default
- 描述: pteromyini0/tj_cleaned_fleurs - default 子集
- 3 个分割: train, validation, test
- 1 个跳过的列: audio
字段
-
id:
- 名称: default/id
- 描述: HF Mirror parquet 文件中的列 id。
- 数据类型: sc:Integer
-
num_samples:
- 名称: default/num_samples
- 描述: HF Mirror parquet 文件中的列 num_samples。
- 数据类型: sc:Integer
-
path:
- 名称: default/path
- 描述: HF Mirror parquet 文件中的列 path。
- 数据类型: sc:Text
-
transcription:
- 名称: default/transcription
- 描述: HF Mirror parquet 文件中的列 transcription。
- 数据类型: sc:Text
-
raw_transcription:
- 名称: default/raw_transcription
- 描述: HF Mirror parquet 文件中的列 raw_transcription。
- 数据类型: sc:Text
-
gender:
- 名称: default/gender
- 描述: HF Mirror parquet 文件中的 ClassLabel 列 gender。
- 标签: male (0), female (1), other (2)
- 数据类型: sc:Integer
-
lang_id:
- 名称: default/lang_id
- 描述: HF Mirror parquet 文件中的 ClassLabel 列 lang_id。
- 标签: af_za (0), am_et (1), ar_eg (2), ..., zu_za (101), all (102)
- 数据类型: sc:Integer
-
language:
- 名称: default/language
- 描述: HF Mirror parquet 文件中的列 language。
- 数据类型: sc:Text
-
lang_group_id:
- 名称: default/lang_group_id
- 描述: HF Mirror parquet 文件中的 ClassLabel 列 lang_group_id。
- 标签: western_european_we (0), eastern_european_ee (1), ..., chinese_japanase_korean_cjk (6)
- 数据类型: sc:Integer



