five

asahi417/seamless-align-enA-frA

收藏
Hugging Face2024-06-21 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/asahi417/seamless-align-enA-frA
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多个子集,每个子集包含法语和英语的音频数据,以及相关的元数据,如音频ID、URL、起始时间、结束时间和LASER评分。每个子集都有一个训练集,记录了字节数和样本数。数据集的总下载大小和数据集大小也有详细记录。

The dataset contains multiple subsets, each containing audio data in French and English, along with related metadata such as audio IDs, URLs, start times, end times, and LASER scores. Each subset has a training set with recorded byte sizes and sample counts. The total download size and dataset size are also detailed.
提供机构:
asahi417
原始信息汇总

数据集概述

本数据集包含多个子集,每个子集具有相同的特征结构,但数据量和配置名称不同。以下是各子集的关键信息概览:

子集1 (subset_1)

  • 特征:
    • frA.audio: 音频
    • enA.audio: 音频
    • line_no: 整数
    • enA.id: 字符串
    • enA.url: 字符串
    • enA.duration_start: 整数
    • enA.duration_end: 整数
    • enA.laser_score: 浮点数
    • frA.id: 字符串
    • frA.url: 字符串
    • frA.duration_start: 整数
    • frA.duration_end: 整数
    • frA.laser_score: 浮点数
  • 数据量:
    • 训练集: 2349个样本
    • 数据大小: 438,854,339.026字节
    • 下载大小: 423,874,740字节

子集10 (subset_10)

  • 特征: 同上
  • 数据量:
    • 训练集: 2337个样本
    • 数据大小: 388,844,113.224字节
    • 下载大小: 389,462,400字节

子集100 (subset_100)

  • 特征: 同上
  • 数据量:
    • 训练集: 2331个样本
    • 数据大小: 366,462,652.676字节
    • 下载大小: 350,263,227字节

子集101 (subset_101)

  • 特征: 同上
  • 数据量:
    • 训练集: 2343个样本
    • 数据大小: 358,357,508.498字节
    • 下载大小: 347,270,216字节

子集102 (subset_102)

  • 特征: 同上
  • 数据量:
    • 训练集: 2311个样本
    • 数据大小: 360,652,134.017字节
    • 下载大小: 348,768,957字节

子集103 (subset_103)

  • 特征: 同上
  • 数据量:
    • 训练集: 2346个样本
    • 数据大小: 358,983,435.704字节
    • 下载大小: 354,022,929字节

子集104 (subset_104)

  • 特征: 同上
  • 数据量:
    • 训练集: 2331个样本
    • 数据大小: 353,495,485.434字节
    • 下载大小: 344,510,278字节

子集105 (subset_105)

  • 特征: 同上
  • 数据量:
    • 训练集: 2337个样本
    • 数据大小: 358,554,102.342字节
    • 下载大小: 348,732,750字节

子集106 (subset_106)

  • 特征: 同上
  • 数据量:
    • 训练集: 2343个样本
    • 数据大小: 864,252,827.269字节
    • 下载大小: 568,879,678字节

子集107 (subset_107)

  • 特征: 同上
  • 数据量:
    • 训练集: 2332个样本
    • 数据大小: 365,313,141.08字节
    • 下载大小: 356,796,927字节

子集108 (subset_108)

  • 特征: 同上
  • 数据量:
    • 训练集: 2325个样本
    • 数据大小: 360,264,419.4字节
    • 下载大小: 350,570,505字节

子集109 (subset_109)

  • 特征: 同上
  • 数据量:
    • 训练集: 2325个样本
    • 数据大小: 354,877,768.025字节
    • 下载大小: 348,342,114字节

子集11 (subset_11)

  • 特征: 同上
  • 数据量:
    • 训练集: 2315个样本
    • 数据大小: 391,581,429.565字节
    • 下载大小: 381,999,618字节

子集110 (subset_110)

  • 特征: 同上
  • 数据量:
    • 训练集: 2307个样本
    • 数据大小: 349,005,069.994字节
    • 下载大小: 340,671,206字节

子集111 (subset_111)

  • 特征: 同上
  • 数据量:
    • 训练集: 2309个样本
    • 数据大小: 345,332,841.059字节
    • 下载大小: 343,159,218字节

子集112 (subset_112)

  • 特征: 同上
  • 数据量:
    • 训练集: 2350个样本
    • 数据大小: 360,767,586.95字节
    • 下载大小: 359,707,764字节

子集113 (subset_113)

  • 特征: 同上
  • 数据量:
    • 训练集: 2340个样本
    • 数据大小: 356,234,728.08字节
    • 下载大小: 345,900,712字节

子集114 (subset_114)

  • 特征: 同上
  • 数据量:
    • 训练集: 2341个样本
    • 数据大小: 354,449,370.775字节
    • 下载大小: 351,649,947字节

子集12 (subset_12)

  • 特征: 同上
  • 数据量:
    • 训练集: 2351个样本
    • 数据大小: 408,161,591.746字节
    • 下载大小: 395,825,667字节

子集13 (subset_13)

  • 特征: 同上
  • 数据量:
    • 训练集: 2342个样本
    • 数据大小: 385,583,010.636字节
    • 下载大小: 391,645,383字节

子集14 (subset_14)

  • 特征: 同上
  • 数据量:
    • 训练集: 2342个样本
    • 数据大小: 391,668,173.888字节
    • 下载大小: 391,066,288字节

子集15 (subset_15)

  • 特征: 同上
  • 数据量:
    • 训练集: 2364个样本
    • 数据大小: 386,808,342.692字节
    • 下载大小: 382,847,657字节

子集16 (subset_16)

  • 特征: 同上
  • 数据量:
    • 训练集: 2352个样本
    • 数据大小: 388,033,715.208字节
    • 下载大小: 384,403,865字节

子集17 (subset_17)

  • 特征: 同上
  • 数据量:
    • 训练集: 2331个样本
    • 数据大小: 385,483,787.808字节
    • 下载大小: 383,392,965字节

子集18 (subset_18)

  • 特征: 同上
  • 数据量:
    • 训练集: 2351个样本
    • 数据大小: 391,864,382.702字节
    • 下载大小: 388,175,333字节

子集19 (subset_19)

  • 特征: 同上
  • 数据量:
    • 训练集: 2349个样本
    • 数据大小: 391,892,244.565字节
    • 下载大小: 385,049,637字节

子集2 (subset_2)

  • 特征: 同上
  • 数据量:
    • 训练集: 2367个样本
    • 数据大小: 423,742,351.417字节
    • 下载大小: 413,376,235字节

子集20 (subset_20)

  • 特征: 同上
  • 数据量:
    • 训练集: 2346个样本
    • 数据大小: 385,658,735.96字节
    • 下载大小: 374,470,506字节

子集201 (subset_201)

  • 特征: 同上
  • 数据量:
    • 训练集: 2341个样本
    • 数据大小: 354,449,370.775字节
    • 下载大小: 351,649,947字节

每个子集均包含音频文件及相关元数据,适用于音频处理和分析任务。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作