asahi417/seamless-align-enA-frA.tokenized.encodec
收藏Hugging Face2024-06-23 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/asahi417/seamless-align-enA-frA.tokenized.encodec
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多个子集,每个子集包含英文和法文音频的ID、LASER评分以及音频的token序列。数据集主要用于训练,每个子集的训练集大小和样本数不同。
该数据集包含多个子集,每个子集包含英文和法文音频的ID、LASER评分以及音频的token序列。数据集主要用于训练,每个子集的训练集大小和样本数不同。
提供机构:
asahi417
原始信息汇总
数据集概述
数据集配置
该数据集包含多个子集,每个子集具有不同的配置名称和特征。以下是各子集的详细信息:
子集列表
- subset_1
- subset_10
- subset_100
- subset_101
- subset_102
- subset_103
- subset_104
- subset_105
- subset_106
- subset_107
- subset_108
- subset_109
- subset_11
- subset_110
- subset_111
- subset_112
- subset_113
- subset_114
- subset_115
- subset_116
- subset_117
- subset_118
- subset_119
- subset_12
- subset_120
- subset_121
- subset_122
- subset_123
- subset_124
- subset_125
- subset_126
- subset_127
- subset_128
- subset_129
- subset_13
- subset_130
- subset_131
- subset_132
- subset_133
- subset_134
- subset_135
- subset_136
特征
每个子集包含以下特征:
- line_no: 行号,数据类型为
int64 - enA.id: 英文ID,数据类型为
string - enA.laser_score: 英文LASER评分,数据类型为
float64 - frA.id: 法文ID,数据类型为
string - frA.laser_score: 法文LASER评分,数据类型为
float64 - frA.audio.tokens: 法文音频标记,数据类型为
int64序列 - enA.audio.tokens: 英文音频标记,数据类型为
int64序列
数据分割
每个子集仅包含一个分割:
- train: 训练集
数据集大小
每个子集的训练集大小和下载大小如下:
| 子集名称 | 训练集字节数 | 训练集样本数 | 下载大小 | 数据集大小 |
|---|---|---|---|---|
| subset_1 | 896960282 | 2344 | 138828871 | 896960282 |
| subset_10 | 849195322 | 2336 | 131866595 | 849195322 |
| subset_100 | 782372230 | 2309 | 121295152 | 782372230 |
| subset_101 | 777578434 | 2322 | 120612472 | 777578434 |
| subset_102 | 771207151 | 2291 | 119566444 | 771207151 |
| subset_103 | 781956781 | 2321 | 121366689 | 781956781 |
| subset_104 | 772610355 | 2314 | 119763953 | 772610355 |
| subset_105 | 780595139 | 2318 | 120977940 | 780595139 |
| subset_106 | 785970655 | 2316 | 121841985 | 785970655 |
| subset_107 | 792403795 | 2314 | 122896538 | 792403795 |
| subset_108 | 779928436 | 2315 | 120920053 | 779928436 |
| subset_109 | 777848313 | 2310 | 120534857 | 777848313 |
| subset_11 | 836642733 | 2315 | 129888698 | 836642733 |
| subset_110 | 754788189 | 2283 | 117074047 | 754788189 |
| subset_111 | 762451089 | 2293 | 118268219 | 762451089 |
| subset_112 | 799514913 | 2326 | 124027290 | 799514913 |
| subset_113 | 771793140 | 2319 | 119704220 | 771793140 |
| subset_114 | 782399055 | 2321 | 121393352 | 782399055 |
| subset_115 | 753443248 | 2269 | 116826096 | 753443248 |
| subset_116 | 778379165 | 2309 | 120721653 | 778379165 |
| subset_117 | 762842674 | 2308 | 118263601 | 762842674 |
| subset_118 | 774789771 | 2302 | 120175330 | 774789771 |
| subset_119 | 756600517 | 2278 | 117426698 | 756600517 |
| subset_12 | 866050440 | 2349 | 134452465 | 866050440 |
| subset_120 | 765910393 | 2299 | 118696797 | 765910393 |
| subset_121 | 767138176 | 2268 | 118841238 | 767138176 |
| subset_122 | 756896050 | 2295 | 117254355 | 756896050 |
| subset_123 | 770068327 | 2311 | 119437514 | 770068327 |
| subset_124 | 765333579 | 2295 | 118629615 | 765333579 |
| subset_125 | 766040424 | 2286 | 118727941 | 766040424 |
| subset_126 | 757178620 | 2310 | 117368915 | 757178620 |
| subset_127 | 767104465 | 2306 | 118892799 | 767104465 |
| subset_128 | 751988499 | 2288 | 116610831 | 751988499 |
| subset_129 | 766503393 | 2322 | 118888428 | 766503393 |
| subset_13 | 859275177 | 2341 | 133374434 | 859275177 |
| subset_130 | 757153614 | 2305 | 117450530 | 757153614 |
| subset_131 | 769507843 | 2332 | 119364439 | 769507843 |
| subset_132 | 765664724 | 2309 | 118625069 | 765664724 |
| subset_133 | 767388372 | 2297 | 119017402 | 767388372 |
| subset_134 | 753006919 | 2301 | 116730106 | 753006919 |
| subset_135 | 759928530 | 2303 | 117721316 | 759928530 |
| subset_136 | 765664724 | 2309 | 118625069 | 765664724 |



