five

asahi417/seamless-align-enA-koA.speaker-embedding.metavoice

收藏
Hugging Face2024-06-17 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/asahi417/seamless-align-enA-koA.speaker-embedding.metavoice
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多个子集(subset_1到subset_47),每个子集包含的特征有行号(line_no)、英语A的ID(enA.id)、英语A的激光评分(enA.laser_score)、韩语A的ID(koA.id)、韩语A的激光评分(koA.laser_score)、英语A的音频说话者嵌入(enA.audio.speaker_embedding)和韩语A的音频说话者嵌入(koA.audio.speaker_embedding)。这些特征的数据类型包括int64、string、float64和float32的序列。每个子集的训练集大小和下载大小也有所不同。

The dataset contains multiple subsets (subset_1 to subset_47), each with features including line number (line_no), English A ID (enA.id), English A laser score (enA.laser_score), Korean A ID (koA.id), Korean A laser score (koA.laser_score), English A audio speaker embedding (enA.audio.speaker_embedding), and Korean A audio speaker embedding (koA.audio.speaker_embedding). The data types for these features include int64, string, float64, and sequences of float32. The size of the training set and download size vary for each subset.
提供机构:
asahi417
原始信息汇总

数据集概述

本数据集包含多个子集,每个子集具有相同的特征结构,但数据量和具体内容可能有所不同。以下是各子集的特征和数据量概览:

特征结构

  • line_no: 数据类型为int64
  • enA.id: 数据类型为string
  • enA.laser_score: 数据类型为float64
  • koA.id: 数据类型为string
  • koA.laser_score: 数据类型为float64
  • enA.audio.speaker_embedding: 数据类型为float32,序列类型。
  • koA.audio.speaker_embedding: 数据类型为float32,序列类型。

子集详情

子集名称 训练数据量(字节) 训练样本数 下载大小(字节)
subset_1 4783020 2246 5460354
subset_10 4188972 1967 4692170
subset_11 3958990 1859 4439005
subset_12 4005817 1881 4484477
subset_13 4180411 1963 4685526
subset_14 4097333 1924 4584472
subset_15 4105930 1928 4611180
subset_16 3927010 1844 4365125
subset_17 4146430 1947 4638485
subset_18 4052649 1903 4556988
subset_19 4122973 1936 4627113
subset_2 4663723 2190 5315135
subset_20 4127235 1938 4637466
subset_3 4378465 2056 4965841
subset_4 4414631 2073 4973916
subset_5 4342230 2039 4855145
subset_51 3905759 1834 4433027
subset_52 4108048 1929 4656631
subset_53 4110206 1930 4662343
subset_54 4063299 1908 4611686
subset_55 3929158 1845 4454592
subset_56 3873795 1819 4395240
subset_57 4020780 1888 4566716
subset_58 4080427 1916 4643951
subset_59 3924925 1843 4461768
subset_6 4229398 1986 4734161
subset_60 4027161 1891 4583960
subset_61 4120864 1935 4665927
subset_62 4135780 1942 4702228
subset_63 4065484 1909 4620636
subset_64 4080404 1916 4637203
subset_7 4223014 1983 4726034
subset_8 4180411 1963 4697826
subset_9 4210224 1977 4701423

以上信息提供了各子集的基本数据量和特征描述,有助于用户根据需求选择合适的数据子集进行使用。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作