mattlc/french_multicorpus_tft_v040
收藏Hugging Face2023-12-10 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/mattlc/french_multicorpus_tft_v040
下载链接
链接失效反馈官方服务:
资源简介:
---
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
- split: test
path: data/test-*
dataset_info:
features:
- name: audio_id
dtype: string
- name: language
dtype:
class_label:
names:
'0': en
'1': de
'2': fr
'3': es
'4': pl
'5': it
'6': ro
'7': hu
'8': cs
'9': nl
'10': fi
'11': hr
'12': sk
'13': sl
'14': et
'15': lt
'16': en_accented
- name: audio
dtype:
audio:
sampling_rate: 16000
- name: raw_text
dtype: string
- name: normalized_text
dtype: string
- name: gender
dtype: string
- name: speaker_id
dtype: string
- name: is_gold_transcript
dtype: bool
- name: accent
dtype: string
- name: text
dtype: string
- name: duration
dtype: float64
- name: dataset
dtype: string
- name: sentence
dtype: string
- name: file
dtype: string
- name: start_timestamp
dtype: float32
- name: end_timestamp
dtype: float32
- name: index
dtype: int32
splits:
- name: train
num_bytes: 4943753305.625
num_examples: 18475
- name: test
num_bytes: 644740130.762
num_examples: 2613
download_size: 5536852622
dataset_size: 5588493436.387
---
# Dataset Card for "french_multicorpus_tft_v040"
[More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
---
配置项:
- 配置名称:默认(default)
数据文件列表:
- 数据集划分:训练集(train),文件路径:data/train-*
- 数据集划分:测试集(test),文件路径:data/test-*
数据集信息:
特征字段:
- 字段名:音频ID(audio_id),数据类型为字符串
- 字段名:语言(language),数据类型为类别标签,类别映射如下:
'0': 英语(en)、'1': 德语(de)、'2': 法语(fr)、'3': 西班牙语(es)、'4': 波兰语(pl)、'5': 意大利语(it)、'6': 罗马尼亚语(ro)、'7': 匈牙利语(hu)、'8': 捷克语(cs)、'9': 荷兰语(nl)、'10': 芬兰语(fi)、'11': 克罗地亚语(hr)、'12': 斯洛伐克语(sk)、'13': 斯洛文尼亚语(sl)、'14': 爱沙尼亚语(et)、'15': 立陶宛语(lt)、'16': 带口音英语(en_accented)
- 字段名:音频(audio),数据类型为音频格式,采样率为16000 Hz
- 字段名:原始文本(raw_text),数据类型为字符串
- 字段名:归一化文本(normalized_text),数据类型为字符串
- 字段名:性别(gender),数据类型为字符串
- 字段名:说话人ID(speaker_id),数据类型为字符串
- 字段名:金标准转录标记(is_gold_transcript),数据类型为布尔型
- 字段名:口音(accent),数据类型为字符串
- 字段名:文本(text),数据类型为字符串
- 字段名:时长(duration),数据类型为64位浮点型
- 字段名:数据集来源(dataset),数据类型为字符串
- 字段名:句子(sentence),数据类型为字符串
- 字段名:文件路径(file),数据类型为字符串
- 字段名:起始时间戳(start_timestamp),数据类型为32位浮点型
- 字段名:结束时间戳(end_timestamp),数据类型为32位浮点型
- 字段名:索引(index),数据类型为32位整型
数据集划分:
- 划分名称:训练集(train),总字节数:4943753305.625,样本数量:18475
- 划分名称:测试集(test),总字节数:644740130.762,样本数量:2613
下载总大小:5536852622 字节
数据集总存储大小:5588493436.387 字节
---
# 「french_multicorpus_tft_v040」数据集卡片
[需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
mattlc
原始信息汇总
数据集概述
配置
- 默认配置 (
default)- 训练数据 (
train):data/train-* - 测试数据 (
test):data/test-*
- 训练数据 (
数据集信息
特征
audio_id: 字符串类型language: 分类标签类型,包含以下语言:en: 英语de: 德语fr: 法语es: 西班牙语pl: 波兰语it: 意大利语ro: 罗马尼亚语hu: 匈牙利语cs: 捷克语nl: 荷兰语fi: 芬兰语hr: 克罗地亚语sk: 斯洛伐克语sl: 斯洛文尼亚语et: 爱沙尼亚语lt: 立陶宛语en_accented: 带口音的英语
audio: 音频类型,采样率为16000raw_text: 字符串类型normalized_text: 字符串类型gender: 字符串类型speaker_id: 字符串类型is_gold_transcript: 布尔类型accent: 字符串类型text: 字符串类型duration: 浮点数类型dataset: 字符串类型sentence: 字符串类型file: 字符串类型start_timestamp: 浮点数类型end_timestamp: 浮点数类型index: 整数类型
数据分割
- 训练集 (
train)- 字节数: 4943753305.625
- 样本数: 18475
- 测试集 (
test)- 字节数: 644740130.762
- 样本数: 2613
数据集大小
- 下载大小: 5536852622
- 数据集大小: 5588493436.387



