five

asahi417/seamless-align-enA-koA.speaker-embedding.w2vbert-600m

收藏
Hugging Face2024-06-17 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/asahi417/seamless-align-enA-koA.speaker-embedding.w2vbert-600m
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多个子集(subset_1到subset_36),每个子集包含行号、英文和韩文的ID、LASER评分以及音频的说话者嵌入特征。数据集主要用于处理多语言音频和文本数据,可能用于语音识别、语音合成或跨语言任务。

This dataset contains multiple subsets (subset_1 to subset_36), each of which includes line numbers, English and Korean IDs, LASER scores, and speaker embedding features for audio. The dataset is primarily used for processing multilingual audio and text data, potentially for speech recognition, speech synthesis, or cross-lingual tasks.
提供机构:
asahi417
原始信息汇总

数据集概述

数据集配置

该数据集包含多个子集,每个子集具有不同的配置名称和特征。以下是各子集的详细信息:

子集列表

  • subset_1
  • subset_10
  • subset_100
  • subset_11
  • subset_12
  • subset_13
  • subset_14
  • subset_15
  • subset_16
  • subset_17
  • subset_18
  • subset_19
  • subset_2
  • subset_20
  • subset_21
  • subset_22
  • subset_23
  • subset_24
  • subset_25
  • subset_26
  • subset_27
  • subset_28
  • subset_29
  • subset_3
  • subset_30
  • subset_31
  • subset_32
  • subset_33
  • subset_34
  • subset_35
  • subset_36

特征

每个子集包含以下特征:

  • line_no: 行号,数据类型为 int64
  • enA.id: 英文ID,数据类型为 string
  • enA.laser_score: 英文LASER分数,数据类型为 float64
  • koA.id: 韩文ID,数据类型为 string
  • koA.laser_score: 韩文LASER分数,数据类型为 float64
  • enA.audio.speaker_embedding: 英文音频说话者嵌入,数据类型为 float32 序列。
  • enA.audio.speaker_embedding.full: 完整的英文音频说话者嵌入,数据类型为 float32 序列的序列。
  • koA.audio.speaker_embedding: 韩文音频说话者嵌入,数据类型为 float32 序列。
  • koA.audio.speaker_embedding.full: 完整的韩文音频说话者嵌入,数据类型为 float32 序列的序列。

数据分割

每个子集包含一个训练集分割:

  • train: 训练集,包含数据字节数和样本数量。

数据集大小

每个子集的下载大小和数据集大小如下:

  • subset_1: 下载大小为 9587713486 字节,数据集大小为 9560473012 字节。
  • subset_10: 下载大小为 7111849774 字节,数据集大小为 7089663256 字节。
  • subset_100: 下载大小为 7121892317 字节,数据集大小为 7100759738 字节。
  • subset_11: 下载大小为 6578740897 字节,数据集大小为 6557876258 字节。
  • subset_12: 下载大小为 6720255870 字节,数据集大小为 6699426429 字节。
  • subset_13: 下载大小为 7143408089 字节,数据集大小为 7121306687 字节。
  • subset_14: 下载大小为 6835344452 字节,数据集大小为 6814414381 字节。
  • subset_15: 下载大小为 6996746883 字节,数据集大小为 6975930186 字节。
  • subset_16: 下载大小为 6512352694 字节,数据集大小为 6492877698 字节。
  • subset_17: 下载大小为 6997603326 字节,数据集大小为 6976747674 字节。
  • subset_18: 下载大小为 6750710284 字节,数据集大小为 6729801005 字节。
  • subset_19: 下载大小为 6977032788 字节,数据集大小为 6956172945 字节。
  • subset_2: 下载大小为 9225573430 字节,数据集大小为 9199549503 字节。
  • subset_20: 下载大小为 6807520976 字节,数据集大小为 6786470011 字节。
  • subset_21: 下载大小为 6910208261 字节,数据集大小为 6889268410 字节。
  • subset_22: 下载大小为 6852294903 字节,数据集大小为 6831387933 字节。
  • subset_23: 下载大小为 6823279102 字节,数据集大小为 6802388304 字节。
  • subset_24: 下载大小为 6940262111 字节,数据集大小为 6919382978 字节。
  • subset_25: 下载大小为 6979514983 字节,数据集大小为 6958624330 字节。
  • subset_26: 下载大小为 6968452490 字节,数据集大小为 6947603761 字节。
  • subset_27: 下载大小为 6925849624 字节,数据集大小为 6905063656 字节。
  • subset_28: 下载大小为 6910639762 字节,数据集大小为 6889743781 字节。
  • subset_29: 下载大小为 6920096544 字节,数据集大小为 6899283852 字节。
  • subset_3: 下载大小为 8349165166 字节,数据集大小为 8325533477 字节。
  • subset_30: 下载大小为 6800265412 字节,数据集大小为 6779559333 字节。
  • subset_31: 下载大小为 6875720154 字节,数据集大小为 6854936649 字节。
  • subset_32: 下载大小为 6984365332 字节,数据集大小为 6963607706 字节。
  • subset_33: 下载大小为 6938317381 字节,数据集大小为 6917705392 字节。
  • subset_34: 下载大小为 6659664401 字节,数据集大小为 6639147289 字节。
  • subset_35: 下载大小为 6912410659 字节,数据集大小为 6891619666 字节。
  • subset_36: 下载大小为 7014251442 字节,数据集大小为 6993589940 字节。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作