asahi417/seamless-align-enA-frA.speaker-embedding.w2vbert-600m
收藏Hugging Face2024-06-24 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/asahi417/seamless-align-enA-frA.speaker-embedding.w2vbert-600m
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多个子集(subset_1到subset_126),每个子集包含英文和法文的音频数据及其相关的LASER得分和说话者嵌入信息。数据集主要用于训练模型,每个子集都有一个训练集,并提供了详细的字节大小和示例数量。
This dataset contains multiple subsets (subset_1 to subset_126), each containing audio data in English and French along with related LASER scores and speaker embeddings. The dataset is primarily used for training models, with each subset having a training set and providing detailed byte sizes and example counts.
提供机构:
asahi417
原始信息汇总
数据集概述
数据集配置
该数据集包含多个子集,每个子集具有不同的配置名称和特征。以下是各子集的详细信息:
子集 subset_1
- 特征:
line_no: 整数类型enA.id: 字符串类型enA.laser_score: 浮点数类型frA.id: 字符串类型frA.laser_score: 浮点数类型enA.audio.speaker_embedding: 浮点数序列enA.audio.speaker_embedding.full: 嵌套浮点数序列frA.audio.speaker_embedding: 浮点数序列frA.audio.speaker_embedding.full: 嵌套浮点数序列
- 分割:
train:- 字节数: 9566368832
- 样本数: 2343
- 下载大小: 9594006755
- 数据集大小: 9566368832
子集 subset_10
- 特征:
line_no: 整数类型enA.id: 字符串类型enA.laser_score: 浮点数类型frA.id: 字符串类型frA.laser_score: 浮点数类型frA.audio.speaker_embedding: 浮点数序列frA.audio.speaker_embedding.full: 嵌套浮点数序列enA.audio.speaker_embedding: 浮点数序列enA.audio.speaker_embedding.full: 嵌套浮点数序列
- 分割:
train:- 字节数: 9055495714
- 样本数: 2334
- 下载大小: 9082072956
- 数据集大小: 9055495714
子集 subset_100
- 特征:
line_no: 整数类型enA.id: 字符串类型enA.laser_score: 浮点数类型frA.id: 字符串类型frA.laser_score: 浮点数类型enA.audio.speaker_embedding: 浮点数序列enA.audio.speaker_embedding.full: 嵌套浮点数序列frA.audio.speaker_embedding: 浮点数序列frA.audio.speaker_embedding.full: 嵌套浮点数序列
- 分割:
train:- 字节数: 8344151850
- 样本数: 2309
- 下载大小: 8368301727
- 数据集大小: 8344151850
子集 subset_101
- 特征:
line_no: 整数类型enA.id: 字符串类型enA.laser_score: 浮点数类型frA.id: 字符串类型frA.laser_score: 浮点数类型frA.audio.speaker_embedding: 浮点数序列frA.audio.speaker_embedding.full: 嵌套浮点数序列enA.audio.speaker_embedding: 浮点数序列enA.audio.speaker_embedding.full: 嵌套浮点数序列
- 分割:
train:- 字节数: 8292800434
- 样本数: 2322
- 下载大小: 8317633830
- 数据集大小: 8292800434
子集 subset_102
- 特征:
line_no: 整数类型enA.id: 字符串类型enA.laser_score: 浮点数类型frA.id: 字符串类型frA.laser_score: 浮点数类型frA.audio.speaker_embedding: 浮点数序列frA.audio.speaker_embedding.full: 嵌套浮点数序列enA.audio.speaker_embedding: 浮点数序列enA.audio.speaker_embedding.full: 嵌套浮点数序列
- 分割:
train:- 字节数: 8224967519
- 样本数: 2291
- 下载大小: 8249842240
- 数据集大小: 8224967519
子集 subset_103
- 特征:
line_no: 整数类型enA.id: 字符串类型enA.laser_score: 浮点数类型frA.id: 字符串类型frA.laser_score: 浮点数类型enA.audio.speaker_embedding: 浮点数序列enA.audio.speaker_embedding.full: 嵌套浮点数序列frA.audio.speaker_embedding: 浮点数序列frA.audio.speaker_embedding.full: 嵌套浮点数序列
- 分割:
train:- 字节数: 8339581413
- 样本数: 2321
- 下载大小: 8364550280
- 数据集大小: 8339581413
子集 subset_104
- 特征:
line_no: 整数类型enA.id: 字符串类型enA.laser_score: 浮点数类型frA.id: 字符串类型frA.laser_score: 浮点数类型enA.audio.speaker_embedding: 浮点数序列enA.audio.speaker_embedding.full: 嵌套浮点数序列frA.audio.speaker_embedding: 浮点数序列frA.audio.speaker_embedding.full: 嵌套浮点数序列
- 分割:
train:- 字节数: 8239856479
- 样本数: 2314
- 下载大小: 8264731163
- 数据集大小: 8239856479
子集 subset_105
- 特征:
line_no: 整数类型enA.id: 字符串类型enA.laser_score: 浮点数类型frA.id: 字符串类型frA.laser_score: 浮点数类型frA.audio.speaker_embedding: 浮点数序列frA.audio.speaker_embedding.full: 嵌套浮点数序列enA.audio.speaker_embedding: 浮点数序列enA.audio.speaker_embedding.full: 嵌套浮点数序列
- 分割:
train:- 字节数: 8325030279
- 样本数: 2318
- 下载大小: 8349920886
- 数据集大小: 8325030279
子集 subset_106
- 特征:
line_no: 整数类型enA.id: 字符串类型enA.laser_score: 浮点数类型frA.id: 字符串类型frA.laser_score: 浮点数类型frA.audio.speaker_embedding: 浮点数序列frA.audio.speaker_embedding.full: 嵌套浮点数序列enA.audio.speaker_embedding: 浮点数序列enA.audio.speaker_embedding.full: 嵌套浮点数序列
- 分割:
train:- 字节数: 8294529988
- 样本数: 2314
- 下载大小: 8319483916
- 数据集大小: 8294529988
子集 subset_107
- 特征:
line_no: 整数类型enA.id: 字符串类型enA.laser_score: 浮点数类型frA.id: 字符串类型frA.laser_score: 浮点数类型enA.audio.speaker_embedding: 浮点数序列enA.audio.speaker_embedding.full: 嵌套浮点数序列frA.audio.speaker_embedding: 浮点数序列frA.audio.speaker_embedding.full: 嵌套浮点数序列
- 分割:
train:- 字节数: 8451145911
- 样本数: 2314
- 下载大小: 8476011221
- 数据集大小: 8451145911
子集 subset_108
- 特征:
line_no: 整数类型enA.id: 字符串类型enA.laser_score: 浮点数类型frA.id: 字符串类型frA.laser_score: 浮点数类型enA.audio.speaker_embedding: 浮点数序列enA.audio.speaker_embedding.full: 嵌套浮点数序列frA.audio.speaker_embedding: 浮点数序列frA.audio.speaker_embedding.full: 嵌套浮点数序列
- 分割:
train:- 字节数: 8317793444
- 样本数: 2315
- 下载大小: 8342027520
- 数据集大小: 8317793444
子集 subset_109
- 特征:
line_no: 整数类型enA.id: 字符串类型enA.laser_score: 浮点数类型frA.id: 字符串类型frA.laser_score: 浮点数类型frA.audio.speaker_embedding: 浮点数序列frA.audio.speaker_embedding.full: 嵌套浮点数序列enA.audio.speaker_embedding: 浮点数序列enA.audio.speaker_embedding.full: 嵌套浮点数序列
- 分割:
train:- 字节数: 8295710465
- 样本数: 2310
- 下载大小: 8320545488
- 数据集大小: 8295710465
子集 subset_11
- 特征:
line_no: 整数类型enA.id: 字符串类型enA.laser_score: 浮点数类型frA.id: 字符串类型frA.laser_score: 浮点数类型frA.audio.speaker_embedding: 浮点数序列frA.audio.speaker_embedding.full: 嵌套浮点数序列enA.audio.speaker_embedding: 浮点数序列enA.audio.speaker_embedding.full: 嵌套浮点数序列
- 分割:
train:- 字节数: 8923552101
- 样本数: 2315
- 下载大小: 8949074992
- 数据集大小: 8923552101
子集 subset_110
- 特征:
line_no: 整数类型enA.id: 字符串类型enA.laser_score: 浮点数类型frA.id: 字符串类型frA.laser_score: 浮点数类型enA.audio.speaker_embedding: 浮点数序列enA.audio.speaker_embedding.full: 嵌套浮点数序列frA.audio.speaker_embedding: 浮点数序列frA.audio.speaker_embedding.full: 嵌套浮点数序列
- 分割:
train:- 字节数: 8049675461
- 样本数: 2283
- 下载大小: 8074629289
- 数据集大小: 8049675461
子集 subset_111
- 特征:
line_no: 整数类型enA.id: 字符串类型enA.laser_score: 浮点数类型frA.id: 字符串类型frA.laser_score: 浮点数类型enA.audio.speaker_embedding: 浮点数序列enA.audio.speaker_embedding.full: 嵌套浮点数序列frA.audio.speaker_embedding: 浮点数序列frA.audio.speaker_embedding.full: 嵌套浮点数序列
- 分割:
train:- 字节数: 8131405681
- 样本数: 2293
- 下载大小: 8156355987
- 数据集大小: 8131405681
子集 subset_112
- 特征:
line_no: 整数类型enA.id: 字符串类型enA.laser_score: 浮点数类型frA.id: 字符串类型frA.laser_score: 浮点数类型frA.audio.speaker_embedding: 浮点数序列frA.audio.speaker_embedding.full: 嵌套浮点数序列enA.audio.speaker_embedding: 浮点数序列enA.audio.speaker_embedding.full: 嵌套浮点数序列
- 分割:
train:- 字节数: 8527115785
- 样本数: 2326
- 下载大小: 8552606437
- 数据集大小: 8527115785
子集 subset_113
- 特征:
line_no: 整数类型enA.id: 字符串类型enA.laser_score: 浮点数类型frA.id: 字



