five

mattlc/french_multicorpus_tft_v040

收藏
Hugging Face2023-12-10 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/mattlc/french_multicorpus_tft_v040
下载链接
链接失效反馈
官方服务:
资源简介:
--- configs: - config_name: default data_files: - split: train path: data/train-* - split: test path: data/test-* dataset_info: features: - name: audio_id dtype: string - name: language dtype: class_label: names: '0': en '1': de '2': fr '3': es '4': pl '5': it '6': ro '7': hu '8': cs '9': nl '10': fi '11': hr '12': sk '13': sl '14': et '15': lt '16': en_accented - name: audio dtype: audio: sampling_rate: 16000 - name: raw_text dtype: string - name: normalized_text dtype: string - name: gender dtype: string - name: speaker_id dtype: string - name: is_gold_transcript dtype: bool - name: accent dtype: string - name: text dtype: string - name: duration dtype: float64 - name: dataset dtype: string - name: sentence dtype: string - name: file dtype: string - name: start_timestamp dtype: float32 - name: end_timestamp dtype: float32 - name: index dtype: int32 splits: - name: train num_bytes: 4943753305.625 num_examples: 18475 - name: test num_bytes: 644740130.762 num_examples: 2613 download_size: 5536852622 dataset_size: 5588493436.387 --- # Dataset Card for "french_multicorpus_tft_v040" [More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

--- 配置项: - 配置名称:默认(default) 数据文件列表: - 数据集划分:训练集(train),文件路径:data/train-* - 数据集划分:测试集(test),文件路径:data/test-* 数据集信息: 特征字段: - 字段名:音频ID(audio_id),数据类型为字符串 - 字段名:语言(language),数据类型为类别标签,类别映射如下: '0': 英语(en)、'1': 德语(de)、'2': 法语(fr)、'3': 西班牙语(es)、'4': 波兰语(pl)、'5': 意大利语(it)、'6': 罗马尼亚语(ro)、'7': 匈牙利语(hu)、'8': 捷克语(cs)、'9': 荷兰语(nl)、'10': 芬兰语(fi)、'11': 克罗地亚语(hr)、'12': 斯洛伐克语(sk)、'13': 斯洛文尼亚语(sl)、'14': 爱沙尼亚语(et)、'15': 立陶宛语(lt)、'16': 带口音英语(en_accented) - 字段名:音频(audio),数据类型为音频格式,采样率为16000 Hz - 字段名:原始文本(raw_text),数据类型为字符串 - 字段名:归一化文本(normalized_text),数据类型为字符串 - 字段名:性别(gender),数据类型为字符串 - 字段名:说话人ID(speaker_id),数据类型为字符串 - 字段名:金标准转录标记(is_gold_transcript),数据类型为布尔型 - 字段名:口音(accent),数据类型为字符串 - 字段名:文本(text),数据类型为字符串 - 字段名:时长(duration),数据类型为64位浮点型 - 字段名:数据集来源(dataset),数据类型为字符串 - 字段名:句子(sentence),数据类型为字符串 - 字段名:文件路径(file),数据类型为字符串 - 字段名:起始时间戳(start_timestamp),数据类型为32位浮点型 - 字段名:结束时间戳(end_timestamp),数据类型为32位浮点型 - 字段名:索引(index),数据类型为32位整型 数据集划分: - 划分名称:训练集(train),总字节数:4943753305.625,样本数量:18475 - 划分名称:测试集(test),总字节数:644740130.762,样本数量:2613 下载总大小:5536852622 字节 数据集总存储大小:5588493436.387 字节 --- # 「french_multicorpus_tft_v040」数据集卡片 [需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
mattlc
原始信息汇总

数据集概述

配置

  • 默认配置 (default)
    • 训练数据 (train): data/train-*
    • 测试数据 (test): data/test-*

数据集信息

特征

  • audio_id: 字符串类型
  • language: 分类标签类型,包含以下语言:
    • en: 英语
    • de: 德语
    • fr: 法语
    • es: 西班牙语
    • pl: 波兰语
    • it: 意大利语
    • ro: 罗马尼亚语
    • hu: 匈牙利语
    • cs: 捷克语
    • nl: 荷兰语
    • fi: 芬兰语
    • hr: 克罗地亚语
    • sk: 斯洛伐克语
    • sl: 斯洛文尼亚语
    • et: 爱沙尼亚语
    • lt: 立陶宛语
    • en_accented: 带口音的英语
  • audio: 音频类型,采样率为16000
  • raw_text: 字符串类型
  • normalized_text: 字符串类型
  • gender: 字符串类型
  • speaker_id: 字符串类型
  • is_gold_transcript: 布尔类型
  • accent: 字符串类型
  • text: 字符串类型
  • duration: 浮点数类型
  • dataset: 字符串类型
  • sentence: 字符串类型
  • file: 字符串类型
  • start_timestamp: 浮点数类型
  • end_timestamp: 浮点数类型
  • index: 整数类型

数据分割

  • 训练集 (train)
    • 字节数: 4943753305.625
    • 样本数: 18475
  • 测试集 (test)
    • 字节数: 644740130.762
    • 样本数: 2613

数据集大小

  • 下载大小: 5536852622
  • 数据集大小: 5588493436.387
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作