mattlc/french_multicorpus_tft_v040

Name: mattlc/french_multicorpus_tft_v040
Creator: mattlc
Published: 2023-12-10 15:53:42
License: 暂无描述

Hugging Face2023-12-10 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/mattlc/french_multicorpus_tft_v040

下载链接

链接失效反馈

官方服务：

资源简介：

--- configs: - config_name: default data_files: - split: train path: data/train-* - split: test path: data/test-* dataset_info: features: - name: audio_id dtype: string - name: language dtype: class_label: names: '0': en '1': de '2': fr '3': es '4': pl '5': it '6': ro '7': hu '8': cs '9': nl '10': fi '11': hr '12': sk '13': sl '14': et '15': lt '16': en_accented - name: audio dtype: audio: sampling_rate: 16000 - name: raw_text dtype: string - name: normalized_text dtype: string - name: gender dtype: string - name: speaker_id dtype: string - name: is_gold_transcript dtype: bool - name: accent dtype: string - name: text dtype: string - name: duration dtype: float64 - name: dataset dtype: string - name: sentence dtype: string - name: file dtype: string - name: start_timestamp dtype: float32 - name: end_timestamp dtype: float32 - name: index dtype: int32 splits: - name: train num_bytes: 4943753305.625 num_examples: 18475 - name: test num_bytes: 644740130.762 num_examples: 2613 download_size: 5536852622 dataset_size: 5588493436.387 --- # Dataset Card for "french_multicorpus_tft_v040" [More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

--- 配置项： - 配置名称：默认（default）数据文件列表： - 数据集划分：训练集（train），文件路径：data/train-* - 数据集划分：测试集（test），文件路径：data/test-* 数据集信息：特征字段： - 字段名：音频ID（audio_id），数据类型为字符串 - 字段名：语言（language），数据类型为类别标签，类别映射如下： '0': 英语（en）、'1': 德语（de）、'2': 法语（fr）、'3': 西班牙语（es）、'4': 波兰语（pl）、'5': 意大利语（it）、'6': 罗马尼亚语（ro）、'7': 匈牙利语（hu）、'8': 捷克语（cs）、'9': 荷兰语（nl）、'10': 芬兰语（fi）、'11': 克罗地亚语（hr）、'12': 斯洛伐克语（sk）、'13': 斯洛文尼亚语（sl）、'14': 爱沙尼亚语（et）、'15': 立陶宛语（lt）、'16': 带口音英语（en_accented） - 字段名：音频（audio），数据类型为音频格式，采样率为16000 Hz - 字段名：原始文本（raw_text），数据类型为字符串 - 字段名：归一化文本（normalized_text），数据类型为字符串 - 字段名：性别（gender），数据类型为字符串 - 字段名：说话人ID（speaker_id），数据类型为字符串 - 字段名：金标准转录标记（is_gold_transcript），数据类型为布尔型 - 字段名：口音（accent），数据类型为字符串 - 字段名：文本（text），数据类型为字符串 - 字段名：时长（duration），数据类型为64位浮点型 - 字段名：数据集来源（dataset），数据类型为字符串 - 字段名：句子（sentence），数据类型为字符串 - 字段名：文件路径（file），数据类型为字符串 - 字段名：起始时间戳（start_timestamp），数据类型为32位浮点型 - 字段名：结束时间戳（end_timestamp），数据类型为32位浮点型 - 字段名：索引（index），数据类型为32位整型数据集划分： - 划分名称：训练集（train），总字节数：4943753305.625，样本数量：18475 - 划分名称：测试集（test），总字节数：644740130.762，样本数量：2613 下载总大小：5536852622 字节数据集总存储大小：5588493436.387 字节 --- # 「french_multicorpus_tft_v040」数据集卡片 [需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

提供机构：

mattlc

原始信息汇总

数据集概述

配置

默认配置 (default)
- 训练数据 (train): data/train-*
- 测试数据 (test): data/test-*

数据集信息

特征

audio_id: 字符串类型
language: 分类标签类型，包含以下语言：
- en: 英语
- de: 德语
- fr: 法语
- es: 西班牙语
- pl: 波兰语
- it: 意大利语
- ro: 罗马尼亚语
- hu: 匈牙利语
- cs: 捷克语
- nl: 荷兰语
- fi: 芬兰语
- hr: 克罗地亚语
- sk: 斯洛伐克语
- sl: 斯洛文尼亚语
- et: 爱沙尼亚语
- lt: 立陶宛语
- en_accented: 带口音的英语
audio: 音频类型，采样率为16000
raw_text: 字符串类型
normalized_text: 字符串类型
gender: 字符串类型
speaker_id: 字符串类型
is_gold_transcript: 布尔类型
accent: 字符串类型
text: 字符串类型
duration: 浮点数类型
dataset: 字符串类型
sentence: 字符串类型
file: 字符串类型
start_timestamp: 浮点数类型
end_timestamp: 浮点数类型
index: 整数类型

数据分割

训练集 (train)
- 字节数: 4943753305.625
- 样本数: 18475
测试集 (test)
- 字节数: 644740130.762
- 样本数: 2613

数据集大小

下载大小: 5536852622
数据集大小: 5588493436.387

5,000+

优质数据集

54 个

任务类型

进入经典数据集