asahi417/seamless-align-enA-esA.speaker-embedding.xlsr-2b
收藏Hugging Face2024-06-24 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/asahi417/seamless-align-enA-esA.speaker-embedding.xlsr-2b
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多个子集,每个子集包含英语和西班牙语的音频和文本数据。数据集的特征包括行号、语言ID、LASER评分以及音频的说话者嵌入。数据集主要用于多语言音频和文本处理任务,如语音识别、语音合成或多语言NLP任务。
This dataset contains multiple subsets, each containing audio and text data in English and Spanish. The features of the dataset include line numbers, language IDs, LASER scores, and speaker embeddings for audio. The dataset is primarily used for multilingual audio and text processing tasks, such as speech recognition, speech synthesis, or multilingual NLP tasks.
提供机构:
asahi417
原始信息汇总
数据集概述
该数据集包含多个子集,每个子集具有相同的特征结构和数据分割方式。以下是各子集的详细信息:
特征结构
每个子集包含以下特征:
line_no: 行号,数据类型为int64。enA.id: 英文A部分的ID,数据类型为string。enA.laser_score: 英文A部分的LASER评分,数据类型为float64。esA.id: 西班牙语A部分的ID,数据类型为string。esA.laser_score: 西班牙语A部分的LASER评分,数据类型为float64。enA.audio.speaker_embedding: 英文A部分的音频说话人嵌入,数据类型为float32序列。enA.audio.speaker_embedding.full: 英文A部分的完整音频说话人嵌入,数据类型为float32序列的序列。esA.audio.speaker_embedding: 西班牙语A部分的音频说话人嵌入,数据类型为float32序列。esA.audio.speaker_embedding.full: 西班牙语A部分的完整音频说话人嵌入,数据类型为float32序列的序列。
数据分割
每个子集仅包含一个数据分割:
train: 训练集
子集详细信息
以下是各子集的具体信息:
子集 subset_1
- 训练集字节数: 17615486614
- 训练集样本数: 2178
- 下载大小: 17671956372
- 数据集大小: 17615486614
子集 subset_10
- 训练集字节数: 16927334118
- 训练集样本数: 2220
- 下载大小: 16981705853
- 数据集大小: 16927334118
子集 subset_100
- 训练集字节数: 13270315892
- 训练集样本数: 2091
- 下载大小: 13316774841
- 数据集大小: 13270315892
子集 subset_101
- 训练集字节数: 13259634937
- 训练集样本数: 2089
- 下载大小: 13305926124
- 数据集大小: 13259634937
子集 subset_102
- 训练集字节数: 12870979863
- 训练集样本数: 2015
- 下载大小: 12915729898
- 数据集大小: 12870979863
子集 subset_103
- 训练集字节数: 13380071688
- 训练集样本数: 2061
- 下载大小: 13426181130
- 数据集大小: 13380071688
子集 subset_104
- 训练集字节数: 13344159869
- 训练集样本数: 2100
- 下载大小: 13390587699
- 数据集大小: 13344159869
子集 subset_105
- 训练集字节数: 13328330644
- 训练集样本数: 2098
- 下载大小: 13374926961
- 数据集大小: 13328330644
子集 subset_106
- 训练集字节数: 13096062318
- 训练集样本数: 2048
- 下载大小: 13142156831
- 数据集大小: 13096062318
子集 subset_107
- 训练集字节数: 13034952356
- 训练集样本数: 2059
- 下载大小: 13081006606
- 数据集大小: 13034952356
子集 subset_108
- 训练集字节数: 13404917635
- 训练集样本数: 2105
- 下载大小: 13451465897
- 数据集大小: 13404917635
子集 subset_109
- 训练集字节数: 13141422631
- 训练集样本数: 2069
- 下载大小: 13187287737
- 数据集大小: 13141422631
子集 subset_11
- 训练集字节数: 16951209374
- 训练集样本数: 2233
- 下载大小: 17005518613
- 数据集大小: 16951209374
子集 subset_110
- 训练集字节数: 13040115701
- 训练集样本数: 2055
- 下载大小: 13086087673
- 数据集大小: 13040115701
子集 subset_111
- 训练集字节数: 12931440533
- 训练集样本数: 2051
- 下载大小: 12976152367
- 数据集大小: 12931440533
子集 subset_112
- 训练集字节数: 12686272722
- 训练集样本数: 2025
- 下载大小: 12730618021
- 数据集大小: 12686272722
子集 subset_113
- 训练集字节数: 13190310595
- 训练集样本数: 2097
- 下载大小: 13236739071
- 数据集大小: 13190310595
子集 subset_114
- 训练集字节数: 13285434302
- 训练集样本数: 2046
- 下载大小: 13331320055
- 数据集大小: 13285434302
子集 subset_115
- 训练集字节数: 13120000810
- 训练集样本数: 2083
- 下载大小: 13166227875
- 数据集大小: 13120000810
子集 subset_116
- 训练集字节数: 12704630141
- 训练集样本数: 2029
- 下载大小: 12749446486
- 数据集大小: 12704630141
子集 subset_117
- 训练集字节数: 12859255799
- 训练集样本数: 2036
- 下载大小: 12904092383
- 数据集大小: 12859255799
子集 subset_118
- 训练集字节数: 12860464458
- 训练集样本数: 2064
- 下载大小: 12905429560
- 数据集大小: 12860464458
子集 subset_119
- 训练集字节数: 13131625042
- 训练集样本数: 2062
- 下载大小: 13177824920
- 数据集大小: 13131625042
子集 subset_12
- 训练集字节数: 16686439189
- 训练集样本数: 2201
- 下载大小: 16740713100
- 数据集大小: 16686439189
子集 subset_120
- 训练集字节数: 12674395327
- 训练集样本数: 2051
- 下载大小: 12719575500
- 数据集大小: 12674395327
子集 subset_121
- 训练集字节数: 12650742527
- 训练集样本数: 2033
- 下载大小: 12695314327
- 数据集大小: 12650742527
子集 subset_122
- 训练集字节数: 12677130233
- 训练集样本数: 2043
- 下载大小: 12722174432
- 数据集大小: 12677130233
子集 subset_123
- 训练集字节数: 12951044389
- 训练集样本数: 2075
- 下载大小: 12995988239
- 数据集大小: 12951044389
子集 subset_124
- 训练集字节数: 12478574614
- 训练集样本数: 2031
- 下载大小: 12522233390
- 数据集大小: 12478574614
子集 subset_125
- 训练集字节数: 12737934749
- 训练集样本数: 2056
- 下载大小: 12783009884
- 数据集大小: 12737934749
子集 subset_126
- 训练集字节数: 12737934749
- 训练集样本数: 2056
- 下载大小: 12783009884
- 数据集大小: 12737934749



