five

asahi417/seamless-align-enA-frA.tokenized.encodec

收藏
Hugging Face2024-06-23 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/asahi417/seamless-align-enA-frA.tokenized.encodec
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多个子集,每个子集包含英文和法文音频的ID、LASER评分以及音频的token序列。数据集主要用于训练,每个子集的训练集大小和样本数不同。

该数据集包含多个子集,每个子集包含英文和法文音频的ID、LASER评分以及音频的token序列。数据集主要用于训练,每个子集的训练集大小和样本数不同。
提供机构:
asahi417
原始信息汇总

数据集概述

数据集配置

该数据集包含多个子集,每个子集具有不同的配置名称和特征。以下是各子集的详细信息:

子集列表

  • subset_1
  • subset_10
  • subset_100
  • subset_101
  • subset_102
  • subset_103
  • subset_104
  • subset_105
  • subset_106
  • subset_107
  • subset_108
  • subset_109
  • subset_11
  • subset_110
  • subset_111
  • subset_112
  • subset_113
  • subset_114
  • subset_115
  • subset_116
  • subset_117
  • subset_118
  • subset_119
  • subset_12
  • subset_120
  • subset_121
  • subset_122
  • subset_123
  • subset_124
  • subset_125
  • subset_126
  • subset_127
  • subset_128
  • subset_129
  • subset_13
  • subset_130
  • subset_131
  • subset_132
  • subset_133
  • subset_134
  • subset_135
  • subset_136

特征

每个子集包含以下特征:

  • line_no: 行号,数据类型为 int64
  • enA.id: 英文ID,数据类型为 string
  • enA.laser_score: 英文LASER评分,数据类型为 float64
  • frA.id: 法文ID,数据类型为 string
  • frA.laser_score: 法文LASER评分,数据类型为 float64
  • frA.audio.tokens: 法文音频标记,数据类型为 int64 序列
  • enA.audio.tokens: 英文音频标记,数据类型为 int64 序列

数据分割

每个子集仅包含一个分割:

  • train: 训练集

数据集大小

每个子集的训练集大小和下载大小如下:

子集名称 训练集字节数 训练集样本数 下载大小 数据集大小
subset_1 896960282 2344 138828871 896960282
subset_10 849195322 2336 131866595 849195322
subset_100 782372230 2309 121295152 782372230
subset_101 777578434 2322 120612472 777578434
subset_102 771207151 2291 119566444 771207151
subset_103 781956781 2321 121366689 781956781
subset_104 772610355 2314 119763953 772610355
subset_105 780595139 2318 120977940 780595139
subset_106 785970655 2316 121841985 785970655
subset_107 792403795 2314 122896538 792403795
subset_108 779928436 2315 120920053 779928436
subset_109 777848313 2310 120534857 777848313
subset_11 836642733 2315 129888698 836642733
subset_110 754788189 2283 117074047 754788189
subset_111 762451089 2293 118268219 762451089
subset_112 799514913 2326 124027290 799514913
subset_113 771793140 2319 119704220 771793140
subset_114 782399055 2321 121393352 782399055
subset_115 753443248 2269 116826096 753443248
subset_116 778379165 2309 120721653 778379165
subset_117 762842674 2308 118263601 762842674
subset_118 774789771 2302 120175330 774789771
subset_119 756600517 2278 117426698 756600517
subset_12 866050440 2349 134452465 866050440
subset_120 765910393 2299 118696797 765910393
subset_121 767138176 2268 118841238 767138176
subset_122 756896050 2295 117254355 756896050
subset_123 770068327 2311 119437514 770068327
subset_124 765333579 2295 118629615 765333579
subset_125 766040424 2286 118727941 766040424
subset_126 757178620 2310 117368915 757178620
subset_127 767104465 2306 118892799 767104465
subset_128 751988499 2288 116610831 751988499
subset_129 766503393 2322 118888428 766503393
subset_13 859275177 2341 133374434 859275177
subset_130 757153614 2305 117450530 757153614
subset_131 769507843 2332 119364439 769507843
subset_132 765664724 2309 118625069 765664724
subset_133 767388372 2297 119017402 767388372
subset_134 753006919 2301 116730106 753006919
subset_135 759928530 2303 117721316 759928530
subset_136 765664724 2309 118625069 765664724
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作