asahi417/seamless-align-enA-koA.speaker-embedding.xlsr-2b
收藏Hugging Face2024-06-17 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/asahi417/seamless-align-enA-koA.speaker-embedding.xlsr-2b
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多个子集(subset_1到subset_36),每个子集包含相同的特征:行号(line_no)、英文和韩文的ID(enA.id, koA.id)、激光评分(enA.laser_score, koA.laser_score)以及音频的说话者嵌入(enA.audio.speaker_embedding, koA.audio.speaker_embedding)。每个子集仅包含一个训练集(train),并提供了数据大小和示例数量的详细信息。
This dataset contains multiple subsets (subset_1 to subset_36), each with the same features: line number (line_no), English and Korean IDs (enA.id, koA.id), laser scores (enA.laser_score, koA.laser_score), and speaker embeddings for audio (enA.audio.speaker_embedding, koA.audio.speaker_embedding). Each subset contains only a training set (train) and provides detailed information on data size and the number of examples.
提供机构:
asahi417
原始信息汇总
数据集概述
数据集配置
该数据集包含多个子集,每个子集的配置名称从subset_1到subset_36。
特征
每个子集包含以下特征:
line_no: 行号,数据类型为int64。enA.id: 英文ID,数据类型为string。enA.laser_score: 英文LASER分数,数据类型为float64。koA.id: 韩文ID,数据类型为string。koA.laser_score: 韩文LASER分数,数据类型为float64。enA.audio.speaker_embedding: 英文音频说话者嵌入,数据类型为float32序列。enA.audio.speaker_embedding.full: 完整的英文音频说话者嵌入,数据类型为float32序列的序列。koA.audio.speaker_embedding: 韩文音频说话者嵌入,数据类型为float32序列。koA.audio.speaker_embedding.full: 完整的韩文音频说话者嵌入,数据类型为float32序列的序列。
数据分割
每个子集包含一个训练集分割:
train: 训练集,包含数据字节数和样本数量。
数据集大小
每个子集的下载大小和数据集大小如下:
subset_1: 下载大小为17974496609字节,数据集大小为17917565364字节。subset_10: 下载大小为13332733316字节,数据集大小为13286926104字节。subset_100: 下载大小为13348770761字节,数据集大小为13307731642字节。subset_11: 下载大小为12333163156字节,数据集大小为12290287138字节。subset_12: 下载大小为12599751374字节,数据集大小为12555571325字节。subset_13: 下载大小为13392047604字节,数据集大小为13346230847字节。subset_14: 下载大小为12815464821字节,数据集大小为12771072557字节。subset_15: 下载大小为13119387925字节,数据集大小为13073776458字节。subset_16: 下载大小为12210979995字节,数据集大小为12168471426字节。subset_17: 下载大小为13120995798字节,数据集大小为13075307162字节。subset_18: 下载大小为12656839805字节,数据集大小为12612496173字节。subset_19: 下载大小为13082432997字节,数据集大小为13036747921字节。subset_2: 下载大小为17296612545字节,数据集大小为17241145919字节。subset_20: 下载大小为12763346101字节,数据集大小为12718699643字节。subset_21: 下载大小为12865291666字节,数据集大小为12821223578字节。subset_22: 下载大小为12847296493字节,数据集大小为12802883869字节。subset_23: 下载大小为12792899990字节,数据集大小为12748534608字节。subset_24: 下载大小为13012275513字节,数据集大小为12967798722字节。subset_25: 下载大小为13087058369字节,数据集大小为13041342538字节。subset_26: 下载大小为13066312478字节,数据集大小为13020688177字节。subset_27: 下载大小为12984663130字节,数据集大小为12940964072字节。subset_28: 下载大小为12956697577字节,数据集大小为12912250789字节。subset_29: 下载大小为12972940862字节,数据集大小为12930130828字节。subset_3: 下载大小为15653665683字节,数据集大小为15603121445字节。subset_30: 下载大小为12749544199字节,数据集大小为12705753509字节。subset_31: 下载大小为12891210183字节,数据集大小为12847019081字节。subset_32: 下载大小为13096176041字节,数据集大小为13050684058字节。subset_33: 下载大小为13008590491字节,数据集大小为12964658864字节。subset_34: 下载大小为12602752629字节,数据集大小为12559116539字节。subset_35: 下载大小为12958603889字节,数据集大小为12915768146字节。subset_36: 下载大小为13152603889字节,数据集大小为13106876084字节。



