asahi417/seamless-align-enA-frA
收藏Hugging Face2024-06-21 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/asahi417/seamless-align-enA-frA
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多个子集,每个子集包含法语和英语的音频数据,以及相关的元数据,如音频ID、URL、起始时间、结束时间和LASER评分。每个子集都有一个训练集,记录了字节数和样本数。数据集的总下载大小和数据集大小也有详细记录。
The dataset contains multiple subsets, each containing audio data in French and English, along with related metadata such as audio IDs, URLs, start times, end times, and LASER scores. Each subset has a training set with recorded byte sizes and sample counts. The total download size and dataset size are also detailed.
提供机构:
asahi417
原始信息汇总
数据集概述
本数据集包含多个子集,每个子集具有相同的特征结构,但数据量和配置名称不同。以下是各子集的关键信息概览:
子集1 (subset_1)
- 特征:
frA.audio: 音频enA.audio: 音频line_no: 整数enA.id: 字符串enA.url: 字符串enA.duration_start: 整数enA.duration_end: 整数enA.laser_score: 浮点数frA.id: 字符串frA.url: 字符串frA.duration_start: 整数frA.duration_end: 整数frA.laser_score: 浮点数
- 数据量:
- 训练集: 2349个样本
- 数据大小: 438,854,339.026字节
- 下载大小: 423,874,740字节
子集10 (subset_10)
- 特征: 同上
- 数据量:
- 训练集: 2337个样本
- 数据大小: 388,844,113.224字节
- 下载大小: 389,462,400字节
子集100 (subset_100)
- 特征: 同上
- 数据量:
- 训练集: 2331个样本
- 数据大小: 366,462,652.676字节
- 下载大小: 350,263,227字节
子集101 (subset_101)
- 特征: 同上
- 数据量:
- 训练集: 2343个样本
- 数据大小: 358,357,508.498字节
- 下载大小: 347,270,216字节
子集102 (subset_102)
- 特征: 同上
- 数据量:
- 训练集: 2311个样本
- 数据大小: 360,652,134.017字节
- 下载大小: 348,768,957字节
子集103 (subset_103)
- 特征: 同上
- 数据量:
- 训练集: 2346个样本
- 数据大小: 358,983,435.704字节
- 下载大小: 354,022,929字节
子集104 (subset_104)
- 特征: 同上
- 数据量:
- 训练集: 2331个样本
- 数据大小: 353,495,485.434字节
- 下载大小: 344,510,278字节
子集105 (subset_105)
- 特征: 同上
- 数据量:
- 训练集: 2337个样本
- 数据大小: 358,554,102.342字节
- 下载大小: 348,732,750字节
子集106 (subset_106)
- 特征: 同上
- 数据量:
- 训练集: 2343个样本
- 数据大小: 864,252,827.269字节
- 下载大小: 568,879,678字节
子集107 (subset_107)
- 特征: 同上
- 数据量:
- 训练集: 2332个样本
- 数据大小: 365,313,141.08字节
- 下载大小: 356,796,927字节
子集108 (subset_108)
- 特征: 同上
- 数据量:
- 训练集: 2325个样本
- 数据大小: 360,264,419.4字节
- 下载大小: 350,570,505字节
子集109 (subset_109)
- 特征: 同上
- 数据量:
- 训练集: 2325个样本
- 数据大小: 354,877,768.025字节
- 下载大小: 348,342,114字节
子集11 (subset_11)
- 特征: 同上
- 数据量:
- 训练集: 2315个样本
- 数据大小: 391,581,429.565字节
- 下载大小: 381,999,618字节
子集110 (subset_110)
- 特征: 同上
- 数据量:
- 训练集: 2307个样本
- 数据大小: 349,005,069.994字节
- 下载大小: 340,671,206字节
子集111 (subset_111)
- 特征: 同上
- 数据量:
- 训练集: 2309个样本
- 数据大小: 345,332,841.059字节
- 下载大小: 343,159,218字节
子集112 (subset_112)
- 特征: 同上
- 数据量:
- 训练集: 2350个样本
- 数据大小: 360,767,586.95字节
- 下载大小: 359,707,764字节
子集113 (subset_113)
- 特征: 同上
- 数据量:
- 训练集: 2340个样本
- 数据大小: 356,234,728.08字节
- 下载大小: 345,900,712字节
子集114 (subset_114)
- 特征: 同上
- 数据量:
- 训练集: 2341个样本
- 数据大小: 354,449,370.775字节
- 下载大小: 351,649,947字节
子集12 (subset_12)
- 特征: 同上
- 数据量:
- 训练集: 2351个样本
- 数据大小: 408,161,591.746字节
- 下载大小: 395,825,667字节
子集13 (subset_13)
- 特征: 同上
- 数据量:
- 训练集: 2342个样本
- 数据大小: 385,583,010.636字节
- 下载大小: 391,645,383字节
子集14 (subset_14)
- 特征: 同上
- 数据量:
- 训练集: 2342个样本
- 数据大小: 391,668,173.888字节
- 下载大小: 391,066,288字节
子集15 (subset_15)
- 特征: 同上
- 数据量:
- 训练集: 2364个样本
- 数据大小: 386,808,342.692字节
- 下载大小: 382,847,657字节
子集16 (subset_16)
- 特征: 同上
- 数据量:
- 训练集: 2352个样本
- 数据大小: 388,033,715.208字节
- 下载大小: 384,403,865字节
子集17 (subset_17)
- 特征: 同上
- 数据量:
- 训练集: 2331个样本
- 数据大小: 385,483,787.808字节
- 下载大小: 383,392,965字节
子集18 (subset_18)
- 特征: 同上
- 数据量:
- 训练集: 2351个样本
- 数据大小: 391,864,382.702字节
- 下载大小: 388,175,333字节
子集19 (subset_19)
- 特征: 同上
- 数据量:
- 训练集: 2349个样本
- 数据大小: 391,892,244.565字节
- 下载大小: 385,049,637字节
子集2 (subset_2)
- 特征: 同上
- 数据量:
- 训练集: 2367个样本
- 数据大小: 423,742,351.417字节
- 下载大小: 413,376,235字节
子集20 (subset_20)
- 特征: 同上
- 数据量:
- 训练集: 2346个样本
- 数据大小: 385,658,735.96字节
- 下载大小: 374,470,506字节
子集201 (subset_201)
- 特征: 同上
- 数据量:
- 训练集: 2341个样本
- 数据大小: 354,449,370.775字节
- 下载大小: 351,649,947字节
每个子集均包含音频文件及相关元数据,适用于音频处理和分析任务。



