five

asahi417/seamless-align-enA-koA.speaker-embedding.hubert-xl

收藏
Hugging Face2024-06-17 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/asahi417/seamless-align-enA-koA.speaker-embedding.hubert-xl
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多个子集,每个子集包含英文和韩文的音频数据,特征包括行号、ID、LASER评分以及音频的说话者嵌入。数据集主要用于处理英文和韩文的音频数据,并且每个子集都有相应的训练集分割。

该数据集包含多个子集,每个子集包含英文和韩文的音频数据,特征包括行号、ID、LASER评分以及音频的说话者嵌入。数据集主要用于处理英文和韩文的音频数据,并且每个子集都有相应的训练集分割。
提供机构:
asahi417
原始信息汇总

数据集概述

数据集配置

子集 subset_1

  • 特征:
    • line_no: 类型 int64
    • enA.id: 类型 string
    • enA.laser_score: 类型 float64
    • koA.id: 类型 string
    • koA.laser_score: 类型 float64
    • koA.audio.speaker_embedding: 序列类型 float32
    • koA.audio.speaker_embedding.full: 嵌套序列类型 float32
    • enA.audio.speaker_embedding: 序列类型 float32
    • enA.audio.speaker_embedding.full: 嵌套序列类型 float32
  • 分割:
    • train:
      • 字节数: 11942607701
      • 样本数: 2242
  • 下载大小: 11977617670
  • 数据集大小: 11942607701

子集 subset_10

  • 特征:
    • line_no: 类型 int64
    • enA.id: 类型 string
    • enA.laser_score: 类型 float64
    • koA.id: 类型 string
    • koA.laser_score: 类型 float64
    • enA.audio.speaker_embedding: 序列类型 float32
    • enA.audio.speaker_embedding.full: 嵌套序列类型 float32
    • koA.audio.speaker_embedding: 序列类型 float32
    • koA.audio.speaker_embedding.full: 嵌套序列类型 float32
  • 分割:
    • train:
      • 字节数: 8812136369
      • 样本数: 1934
  • 下载大小: 8840196494
  • 数据集大小: 8812136369

子集 subset_100

  • 特征:
    • line_no: 类型 int64
    • enA.id: 类型 string
    • enA.laser_score: 类型 float64
    • koA.id: 类型 string
    • koA.laser_score: 类型 float64
    • koA.audio.speaker_embedding: 序列类型 float32
    • koA.audio.speaker_embedding.full: 嵌套序列类型 float32
    • enA.audio.speaker_embedding: 序列类型 float32
    • enA.audio.speaker_embedding.full: 嵌套序列类型 float32
  • 分割:
    • train:
      • 字节数: 8874180282
      • 样本数: 1839
  • 下载大小: 8899293582
  • 数据集大小: 8874180282

子集 subset_11

  • 特征:
    • line_no: 类型 int64
    • enA.id: 类型 string
    • enA.laser_score: 类型 float64
    • koA.id: 类型 string
    • koA.laser_score: 类型 float64
    • enA.audio.speaker_embedding: 序列类型 float32
    • enA.audio.speaker_embedding.full: 嵌套序列类型 float32
    • koA.audio.speaker_embedding: 序列类型 float32
    • koA.audio.speaker_embedding.full: 嵌套序列类型 float32
  • 分割:
    • train:
      • 字节数: 8147616498
      • 样本数: 1826
  • 下载大小: 8174441871
  • 数据集大小: 8147616498

子集 subset_12

  • 特征:
    • line_no: 类型 int64
    • enA.id: 类型 string
    • enA.laser_score: 类型 float64
    • koA.id: 类型 string
    • koA.laser_score: 类型 float64
    • enA.audio.speaker_embedding: 序列类型 float32
    • enA.audio.speaker_embedding.full: 嵌套序列类型 float32
    • koA.audio.speaker_embedding: 序列类型 float32
    • koA.audio.speaker_embedding.full: 嵌套序列类型 float32
  • 分割:
    • train:
      • 字节数: 8321962542
      • 样本数: 1850
  • 下载大小: 8348794548
  • 数据集大小: 8321962542

子集 subset_13

  • 特征:
    • line_no: 类型 int64
    • enA.id: 类型 string
    • enA.laser_score: 类型 float64
    • koA.id: 类型 string
    • koA.laser_score: 类型 float64
    • enA.audio.speaker_embedding: 序列类型 float32
    • enA.audio.speaker_embedding.full: 嵌套序列类型 float32
    • koA.audio.speaker_embedding: 序列类型 float32
    • koA.audio.speaker_embedding.full: 嵌套序列类型 float32
  • 分割:
    • train:
      • 字节数: 8855070651
      • 样本数: 1938
  • 下载大小: 8883329123
  • 数据集大小: 8855070651

子集 subset_14

  • 特征:
    • line_no: 类型 int64
    • enA.id: 类型 string
    • enA.laser_score: 类型 float64
    • koA.id: 类型 string
    • koA.laser_score: 类型 float64
    • enA.audio.speaker_embedding: 序列类型 float32
    • enA.audio.speaker_embedding.full: 嵌套序列类型 float32
    • koA.audio.speaker_embedding: 序列类型 float32
    • koA.audio.speaker_embedding.full: 嵌套序列类型 float32
  • 分割:
    • train:
      • 字节数: 8473283000
      • 样本数: 1895
  • 下载大小: 8500119702
  • 数据集大小: 8473283000

子集 subset_15

  • 特征:
    • line_no: 类型 int64
    • enA.id: 类型 string
    • enA.laser_score: 类型 float64
    • koA.id: 类型 string
    • koA.laser_score: 类型 float64
    • enA.audio.speaker_embedding: 序列类型 float32
    • enA.audio.speaker_embedding.full: 嵌套序列类型 float32
    • koA.audio.speaker_embedding: 序列类型 float32
    • koA.audio.speaker_embedding.full: 嵌套序列类型 float32
  • 分割:
    • train:
      • 字节数: 8678074637
      • 样本数: 1903
  • 下载大小: 8706233889
  • 数据集大小: 8678074637

子集 subset_16

  • 特征:
    • line_no: 类型 int64
    • enA.id: 类型 string
    • enA.laser_score: 类型 float64
    • koA.id: 类型 string
    • koA.laser_score: 类型 float64
    • koA.audio.speaker_embedding: 序列类型 float32
    • koA.audio.speaker_embedding.full: 嵌套序列类型 float32
    • enA.audio.speaker_embedding: 序列类型 float32
    • enA.audio.speaker_embedding.full: 嵌套序列类型 float32
  • 分割:
    • train:
      • 字节数: 8074527080
      • 样本数: 1818
  • 下载大小: 8101141214
  • 数据集大小: 8074527080

子集 subset_17

  • 特征:
    • line_no: 类型 int64
    • enA.id: 类型 string
    • enA.laser_score: 类型 float64
    • koA.id: 类型 string
    • koA.laser_score: 类型 float64
    • enA.audio.speaker_embedding: 序列类型 float32
    • enA.audio.speaker_embedding.full: 嵌套序列类型 float32
    • koA.audio.speaker_embedding: 序列类型 float32
    • koA.audio.speaker_embedding.full: 嵌套序列类型 float32
  • 分割:
    • train:
      • 字节数: 8675852334
      • 样本数: 1921
  • 下载大小: 8704059772
  • 数据集大小: 8675852334

子集 subset_18

  • 特征:
    • line_no: 类型 int64
    • enA.id: 类型 string
    • enA.laser_score: 类型 float64
    • koA.id: 类型 string
    • koA.laser_score: 类型 float64
    • koA.audio.speaker_embedding: 序列类型 float32
    • koA.audio.speaker_embedding.full: 嵌套序列类型 float32
    • enA.audio.speaker_embedding: 序列类型 float32
    • enA.audio.speaker_embedding.full: 嵌套序列类型 float32
  • 分割:
    • train:
      • 字节数: 8368890070
      • 样本数: 1874
  • 下载大小: 8395783939
  • 数据集大小: 8368890070

子集 subset_19

  • 特征:
    • line_no: 类型 int64
    • enA.id: 类型 string
    • enA.laser_score: 类型 float64
    • koA.id: 类型 string
    • koA.laser_score: 类型 float64
    • koA.audio.speaker_embedding: 序列类型 float32
    • koA.audio.speaker_embedding.full: 嵌套序列类型 float32
    • enA.audio.speaker_embedding: 序列类型 float32
    • enA.audio.speaker_embedding.full: 嵌套序列类型 float32
  • 分割:
    • train:
      • 字节数: 8645393855
      • 样本数: 1904
  • 下载大小: 8673565653
  • 数据集大小: 8645393855

子集 subset_2

  • 特征:
    • line_no: 类型 int64
    • enA.id: 类型 string
    • enA.laser_score: 类型 float64
    • koA.id: 类型 string
    • koA.laser_score: 类型 float64
    • koA.audio.speaker_embedding: 序列类型 float32
    • koA.audio.speaker_embedding.full: 嵌套序列类型 float32
    • enA.audio.speaker_embedding: 序列类型 float32
    • enA.audio.speaker_embedding.full: 嵌套序列类型 float32
  • 分割:
    • train:
      • 字节数: 11484840060
      • 样本数: 2183
  • 下载大小: 11518554537
  • 数据集大小: 11484840060

子集 subset_20

  • 特征:
    • line_no: 类型 int64
    • enA.id: 类型 string
    • enA.laser_score: 类型 float64
    • koA.id: 类型 string
    • koA.laser_score: 类型 float64
    • koA.audio.speaker_embedding: 序列类型 float32
    • koA.audio.speaker_embedding.full: 嵌套序列类型 float32
    • enA.audio.speaker_embedding: 序列类型 float32
    • enA.audio.speaker_embedding.full: 嵌套序列类型 float32
  • 分割:
    • train:
      • 字节数: 8436412091
      • 样本数: 1911
  • 下载大小: 8463562026
  • 数据集大小: 8436412091

子集 subset_21

  • 特征:
    • line_no: 类型 int64
    • enA.id: 类型 string
    • enA.laser_score: 类型 float64
    • koA.id: 类型 string
    • koA.laser_score: 类型 float64
    • enA.audio.speaker_embedding: 序列类型 float32
    • enA.audio.speaker_embedding.full: 嵌套序列类型 float32
    • koA.audio.speaker_embedding: 序列类型 float32
    • koA.audio.speaker_embedding.full: 嵌套序列类型 float32
  • 分割:
    • train:
      • 字节数: 8549758618
      • 样本数: 1893
  • 下载大小: 8577566325
  • 数据集大小: 8549758618

子集 subset_22

  • 特征:
    • line_no: 类型 int64
    • enA.id: 类型 string
    • enA.laser_score: 类型 float64
    • `ko
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作