five

asahi417/seamless-align-enA-frA.speaker-embedding.w2vbert-600m

收藏
Hugging Face2024-06-24 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/asahi417/seamless-align-enA-frA.speaker-embedding.w2vbert-600m
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多个子集(subset_1到subset_126),每个子集包含英文和法文的音频数据及其相关的LASER得分和说话者嵌入信息。数据集主要用于训练模型,每个子集都有一个训练集,并提供了详细的字节大小和示例数量。

This dataset contains multiple subsets (subset_1 to subset_126), each containing audio data in English and French along with related LASER scores and speaker embeddings. The dataset is primarily used for training models, with each subset having a training set and providing detailed byte sizes and example counts.
提供机构:
asahi417
原始信息汇总

数据集概述

数据集配置

该数据集包含多个子集,每个子集具有不同的配置名称和特征。以下是各子集的详细信息:

子集 subset_1

  • 特征:
    • line_no: 整数类型
    • enA.id: 字符串类型
    • enA.laser_score: 浮点数类型
    • frA.id: 字符串类型
    • frA.laser_score: 浮点数类型
    • enA.audio.speaker_embedding: 浮点数序列
    • enA.audio.speaker_embedding.full: 嵌套浮点数序列
    • frA.audio.speaker_embedding: 浮点数序列
    • frA.audio.speaker_embedding.full: 嵌套浮点数序列
  • 分割:
    • train:
      • 字节数: 9566368832
      • 样本数: 2343
  • 下载大小: 9594006755
  • 数据集大小: 9566368832

子集 subset_10

  • 特征:
    • line_no: 整数类型
    • enA.id: 字符串类型
    • enA.laser_score: 浮点数类型
    • frA.id: 字符串类型
    • frA.laser_score: 浮点数类型
    • frA.audio.speaker_embedding: 浮点数序列
    • frA.audio.speaker_embedding.full: 嵌套浮点数序列
    • enA.audio.speaker_embedding: 浮点数序列
    • enA.audio.speaker_embedding.full: 嵌套浮点数序列
  • 分割:
    • train:
      • 字节数: 9055495714
      • 样本数: 2334
  • 下载大小: 9082072956
  • 数据集大小: 9055495714

子集 subset_100

  • 特征:
    • line_no: 整数类型
    • enA.id: 字符串类型
    • enA.laser_score: 浮点数类型
    • frA.id: 字符串类型
    • frA.laser_score: 浮点数类型
    • enA.audio.speaker_embedding: 浮点数序列
    • enA.audio.speaker_embedding.full: 嵌套浮点数序列
    • frA.audio.speaker_embedding: 浮点数序列
    • frA.audio.speaker_embedding.full: 嵌套浮点数序列
  • 分割:
    • train:
      • 字节数: 8344151850
      • 样本数: 2309
  • 下载大小: 8368301727
  • 数据集大小: 8344151850

子集 subset_101

  • 特征:
    • line_no: 整数类型
    • enA.id: 字符串类型
    • enA.laser_score: 浮点数类型
    • frA.id: 字符串类型
    • frA.laser_score: 浮点数类型
    • frA.audio.speaker_embedding: 浮点数序列
    • frA.audio.speaker_embedding.full: 嵌套浮点数序列
    • enA.audio.speaker_embedding: 浮点数序列
    • enA.audio.speaker_embedding.full: 嵌套浮点数序列
  • 分割:
    • train:
      • 字节数: 8292800434
      • 样本数: 2322
  • 下载大小: 8317633830
  • 数据集大小: 8292800434

子集 subset_102

  • 特征:
    • line_no: 整数类型
    • enA.id: 字符串类型
    • enA.laser_score: 浮点数类型
    • frA.id: 字符串类型
    • frA.laser_score: 浮点数类型
    • frA.audio.speaker_embedding: 浮点数序列
    • frA.audio.speaker_embedding.full: 嵌套浮点数序列
    • enA.audio.speaker_embedding: 浮点数序列
    • enA.audio.speaker_embedding.full: 嵌套浮点数序列
  • 分割:
    • train:
      • 字节数: 8224967519
      • 样本数: 2291
  • 下载大小: 8249842240
  • 数据集大小: 8224967519

子集 subset_103

  • 特征:
    • line_no: 整数类型
    • enA.id: 字符串类型
    • enA.laser_score: 浮点数类型
    • frA.id: 字符串类型
    • frA.laser_score: 浮点数类型
    • enA.audio.speaker_embedding: 浮点数序列
    • enA.audio.speaker_embedding.full: 嵌套浮点数序列
    • frA.audio.speaker_embedding: 浮点数序列
    • frA.audio.speaker_embedding.full: 嵌套浮点数序列
  • 分割:
    • train:
      • 字节数: 8339581413
      • 样本数: 2321
  • 下载大小: 8364550280
  • 数据集大小: 8339581413

子集 subset_104

  • 特征:
    • line_no: 整数类型
    • enA.id: 字符串类型
    • enA.laser_score: 浮点数类型
    • frA.id: 字符串类型
    • frA.laser_score: 浮点数类型
    • enA.audio.speaker_embedding: 浮点数序列
    • enA.audio.speaker_embedding.full: 嵌套浮点数序列
    • frA.audio.speaker_embedding: 浮点数序列
    • frA.audio.speaker_embedding.full: 嵌套浮点数序列
  • 分割:
    • train:
      • 字节数: 8239856479
      • 样本数: 2314
  • 下载大小: 8264731163
  • 数据集大小: 8239856479

子集 subset_105

  • 特征:
    • line_no: 整数类型
    • enA.id: 字符串类型
    • enA.laser_score: 浮点数类型
    • frA.id: 字符串类型
    • frA.laser_score: 浮点数类型
    • frA.audio.speaker_embedding: 浮点数序列
    • frA.audio.speaker_embedding.full: 嵌套浮点数序列
    • enA.audio.speaker_embedding: 浮点数序列
    • enA.audio.speaker_embedding.full: 嵌套浮点数序列
  • 分割:
    • train:
      • 字节数: 8325030279
      • 样本数: 2318
  • 下载大小: 8349920886
  • 数据集大小: 8325030279

子集 subset_106

  • 特征:
    • line_no: 整数类型
    • enA.id: 字符串类型
    • enA.laser_score: 浮点数类型
    • frA.id: 字符串类型
    • frA.laser_score: 浮点数类型
    • frA.audio.speaker_embedding: 浮点数序列
    • frA.audio.speaker_embedding.full: 嵌套浮点数序列
    • enA.audio.speaker_embedding: 浮点数序列
    • enA.audio.speaker_embedding.full: 嵌套浮点数序列
  • 分割:
    • train:
      • 字节数: 8294529988
      • 样本数: 2314
  • 下载大小: 8319483916
  • 数据集大小: 8294529988

子集 subset_107

  • 特征:
    • line_no: 整数类型
    • enA.id: 字符串类型
    • enA.laser_score: 浮点数类型
    • frA.id: 字符串类型
    • frA.laser_score: 浮点数类型
    • enA.audio.speaker_embedding: 浮点数序列
    • enA.audio.speaker_embedding.full: 嵌套浮点数序列
    • frA.audio.speaker_embedding: 浮点数序列
    • frA.audio.speaker_embedding.full: 嵌套浮点数序列
  • 分割:
    • train:
      • 字节数: 8451145911
      • 样本数: 2314
  • 下载大小: 8476011221
  • 数据集大小: 8451145911

子集 subset_108

  • 特征:
    • line_no: 整数类型
    • enA.id: 字符串类型
    • enA.laser_score: 浮点数类型
    • frA.id: 字符串类型
    • frA.laser_score: 浮点数类型
    • enA.audio.speaker_embedding: 浮点数序列
    • enA.audio.speaker_embedding.full: 嵌套浮点数序列
    • frA.audio.speaker_embedding: 浮点数序列
    • frA.audio.speaker_embedding.full: 嵌套浮点数序列
  • 分割:
    • train:
      • 字节数: 8317793444
      • 样本数: 2315
  • 下载大小: 8342027520
  • 数据集大小: 8317793444

子集 subset_109

  • 特征:
    • line_no: 整数类型
    • enA.id: 字符串类型
    • enA.laser_score: 浮点数类型
    • frA.id: 字符串类型
    • frA.laser_score: 浮点数类型
    • frA.audio.speaker_embedding: 浮点数序列
    • frA.audio.speaker_embedding.full: 嵌套浮点数序列
    • enA.audio.speaker_embedding: 浮点数序列
    • enA.audio.speaker_embedding.full: 嵌套浮点数序列
  • 分割:
    • train:
      • 字节数: 8295710465
      • 样本数: 2310
  • 下载大小: 8320545488
  • 数据集大小: 8295710465

子集 subset_11

  • 特征:
    • line_no: 整数类型
    • enA.id: 字符串类型
    • enA.laser_score: 浮点数类型
    • frA.id: 字符串类型
    • frA.laser_score: 浮点数类型
    • frA.audio.speaker_embedding: 浮点数序列
    • frA.audio.speaker_embedding.full: 嵌套浮点数序列
    • enA.audio.speaker_embedding: 浮点数序列
    • enA.audio.speaker_embedding.full: 嵌套浮点数序列
  • 分割:
    • train:
      • 字节数: 8923552101
      • 样本数: 2315
  • 下载大小: 8949074992
  • 数据集大小: 8923552101

子集 subset_110

  • 特征:
    • line_no: 整数类型
    • enA.id: 字符串类型
    • enA.laser_score: 浮点数类型
    • frA.id: 字符串类型
    • frA.laser_score: 浮点数类型
    • enA.audio.speaker_embedding: 浮点数序列
    • enA.audio.speaker_embedding.full: 嵌套浮点数序列
    • frA.audio.speaker_embedding: 浮点数序列
    • frA.audio.speaker_embedding.full: 嵌套浮点数序列
  • 分割:
    • train:
      • 字节数: 8049675461
      • 样本数: 2283
  • 下载大小: 8074629289
  • 数据集大小: 8049675461

子集 subset_111

  • 特征:
    • line_no: 整数类型
    • enA.id: 字符串类型
    • enA.laser_score: 浮点数类型
    • frA.id: 字符串类型
    • frA.laser_score: 浮点数类型
    • enA.audio.speaker_embedding: 浮点数序列
    • enA.audio.speaker_embedding.full: 嵌套浮点数序列
    • frA.audio.speaker_embedding: 浮点数序列
    • frA.audio.speaker_embedding.full: 嵌套浮点数序列
  • 分割:
    • train:
      • 字节数: 8131405681
      • 样本数: 2293
  • 下载大小: 8156355987
  • 数据集大小: 8131405681

子集 subset_112

  • 特征:
    • line_no: 整数类型
    • enA.id: 字符串类型
    • enA.laser_score: 浮点数类型
    • frA.id: 字符串类型
    • frA.laser_score: 浮点数类型
    • frA.audio.speaker_embedding: 浮点数序列
    • frA.audio.speaker_embedding.full: 嵌套浮点数序列
    • enA.audio.speaker_embedding: 浮点数序列
    • enA.audio.speaker_embedding.full: 嵌套浮点数序列
  • 分割:
    • train:
      • 字节数: 8527115785
      • 样本数: 2326
  • 下载大小: 8552606437
  • 数据集大小: 8527115785

子集 subset_113

  • 特征:
    • line_no: 整数类型
    • enA.id: 字符串类型
    • enA.laser_score: 浮点数类型
    • frA.id: 字
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作