asahi417/seamless-align-enA-viA.speaker-embedding.xlsr-2b
收藏Hugging Face2024-06-25 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/asahi417/seamless-align-enA-viA.speaker-embedding.xlsr-2b
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多个子集(如subset_1、subset_10等),每个子集包含行号、ID、激光分数以及英语(enA)和越南语(viA)数据的音频说话者嵌入等特征。每个子集都有一个“train”分割,并指定了字节大小和示例数量。数据集主要关注音频和文本数据,特征涉及说话者嵌入和激光分数,可能用于说话者识别或音频-文本对齐等任务。
The dataset contains multiple subsets (e.g., subset_1, subset_10, etc.), each with features such as line numbers, IDs, laser scores, and audio speaker embeddings for both English (enA) and Vietnamese (viA) data. Each subset has a train split with specified byte sizes and example counts. The dataset primarily focuses on audio and text data, with features related to speaker embeddings and laser scores, likely used for tasks such as speaker identification or audio-text alignment.
提供机构:
asahi417
原始信息汇总
数据集概述
该数据集包含多个子集,每个子集具有相同的特征结构和数据分割方式。以下是各子集的详细信息:
特征结构
每个子集包含以下特征:
line_no: 行号,数据类型为int64。enA.id: 英文A的ID,数据类型为string。enA.laser_score: 英文A的LASER评分,数据类型为float64。viA.id: 越南语A的ID,数据类型为string。viA.laser_score: 越南语A的LASER评分,数据类型为float64。viA.audio.speaker_embedding: 越南语A的音频说话人嵌入,数据类型为float32序列。viA.audio.speaker_embedding.full: 越南语A的完整音频说话人嵌入,数据类型为float32序列的序列。enA.audio.speaker_embedding: 英文A的音频说话人嵌入,数据类型为float32序列。enA.audio.speaker_embedding.full: 英文A的完整音频说话人嵌入,数据类型为float32序列的序列。
数据分割
每个子集仅包含一个数据分割:
train: 训练集,包含数据字节数和样本数量。
子集信息
以下是各子集的具体信息:
subset_1
- 训练集字节数: 13152124231
- 训练集样本数: 1853
- 下载大小: 13196111601
- 数据集大小: 13152124231
subset_10
- 训练集字节数: 6657621784
- 训练集样本数: 1090
- 下载大小: 6681474976
- 数据集大小: 6657621784
subset_100
- 训练集字节数: 9681441551
- 训练集样本数: 1520
- 下载大小: 9716028942
- 数据集大小: 9681441551
subset_101
- 训练集字节数: 9765322177
- 训练集样本数: 1545
- 下载大小: 9800069846
- 数据集大小: 9765322177
subset_102
- 训练集字节数: 9860909658
- 训练集样本数: 1527
- 下载大小: 9895478528
- 数据集大小: 9860909658
subset_103
- 训练集字节数: 9709072687
- 训练集样本数: 1513
- 下载大小: 9743463146
- 数据集大小: 9709072687
subset_104
- 训练集字节数: 9317976193
- 训练集样本数: 1465
- 下载大小: 9350906284
- 数据集大小: 9317976193
subset_105
- 训练集字节数: 9599344558
- 训练集样本数: 1506
- 下载大小: 9633714817
- 数据集大小: 9599344558
subset_106
- 训练集字节数: 9611793564
- 训练集样本数: 1517
- 下载大小: 9646264815
- 数据集大小: 9611793564
subset_107
- 训练集字节数: 9817555828
- 训练集样本数: 1518
- 下载大小: 9851984781
- 数据集大小: 9817555828
subset_108
- 训练集字节数: 9759896244
- 训练集样本数: 1532
- 下载大小: 9794111609
- 数据集大小: 9759896244
subset_109
- 训练集字节数: 9920046697
- 训练集样本数: 1539
- 下载大小: 9954649265
- 数据集大小: 9920046697
subset_11
- 训练集字节数: 7059876136
- 训练集样本数: 1146
- 下载大小: 7085729003
- 数据集大小: 7059876136
subset_110
- 训练集字节数: 9229841208
- 训练集样本数: 1471
- 下载大小: 9262898789
- 数据集大小: 9229841208
subset_111
- 训练集字节数: 9385133176
- 训练集样本数: 1450
- 下载大小: 9418047633
- 数据集大小: 9385133176
subset_112
- 训练集字节数: 9493840990
- 训练集样本数: 1478
- 下载大小: 9525582216
- 数据集大小: 9493840990
subset_113
- 训练集字节数: 9706904149
- 训练集样本数: 1493
- 下载大小: 9741249161
- 数据集大小: 9706904149
subset_114
- 训练集字节数: 9563013098
- 训练集样本数: 1487
- 下载大小: 9597350611
- 数据集大小: 9563013098
subset_115
- 训练集字节数: 9735858312
- 训练集样本数: 1504
- 下载大小: 9770239160
- 数据集大小: 9735858312
subset_116
- 训练集字节数: 10002930156
- 训练集样本数: 1492
- 下载大小: 10038446988
- 数据集大小: 10002930156
subset_117
- 训练集字节数: 9623888728
- 训练集样本数: 1524
- 下载大小: 9658530642
- 数据集大小: 9623888728
subset_118
- 训练集字节数: 9814472575
- 训练集样本数: 1494
- 下载大小: 9848825015
- 数据集大小: 9814472575
subset_119
- 训练集字节数: 9737465938
- 训练集样本数: 1524
- 下载大小: 9770633676
- 数据集大小: 9737465938
subset_12
- 训练集字节数: 6654933967
- 训练集样本数: 1109
- 下载大小: 6679320781
- 数据集大小: 6654933967
subset_120
- 训练集字节数: 9725133610
- 训练集样本数: 1530
- 下载大小: 9759744099
- 数据集大小: 9725133610
subset_121
- 训练集字节数: 9807752743
- 训练集样本数: 1539
- 下载大小: 9842394283
- 数据集大小: 9807752743
subset_122
- 训练集字节数: 10160148335
- 训练集样本数: 1535
- 下载大小: 10195448487
- 数据集大小: 10160148335
subset_123
- 训练集字节数: 9612845669
- 训练集样本数: 1510
- 下载大小: 9647308805
- 数据集大小: 9612845669
subset_124
- 训练集字节数: 9783575920
- 训练集样本数: 1503
- 下载大小: 9817979503
- 数据集大小: 9783575920
subset_125
- 训练集字节数: 9937878067
- 训练集样本数: 1500
- 下载大小: 9970948531
- 数据集大小: 9937878067
subset_126
- 训练集字节数: 10063911799
- 训练集样本数: 1509
- 下载大小: 10099441054
- 数据集大小: 10063911799



