asahi417/seamless-align-enA-frA.speaker-embedding.hubert-xl
收藏Hugging Face2024-06-23 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/asahi417/seamless-align-enA-frA.speaker-embedding.hubert-xl
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多个子集,每个子集包含英文和法文的音频数据,具体特征包括行号、ID、激光评分以及音频的说话者嵌入。数据集主要用于处理和分析多语言音频数据。
This dataset contains multiple subsets, each including audio data in English and French, with features such as line number, ID, laser score, and speaker embeddings for audio. The dataset is primarily used for processing and analyzing multilingual audio data.
提供机构:
asahi417
原始信息汇总
数据集概述
数据集配置
该数据集包含多个子集,每个子集具有不同的配置名称和特征。以下是各子集的详细信息:
子集列表
- subset_1
- subset_10
- subset_100
- subset_101
- subset_102
- subset_103
- subset_104
- subset_105
- subset_106
- subset_107
- subset_108
- subset_109
- subset_11
- subset_110
- subset_111
- subset_112
- subset_113
- subset_114
- subset_115
- subset_116
- subset_117
- subset_118
- subset_119
- subset_12
- subset_120
- subset_121
- subset_122
- subset_123
- subset_124
- subset_125
- subset_126
特征描述
每个子集包含以下特征:
- line_no: 行号,数据类型为
int64。 - enA.id: 英文ID,数据类型为
string。 - enA.laser_score: 英文LASER分数,数据类型为
float64。 - frA.id: 法文ID,数据类型为
string。 - frA.laser_score: 法文LASER分数,数据类型为
float64。 - frA.audio.speaker_embedding: 法文音频说话者嵌入,数据类型为
float32序列。 - frA.audio.speaker_embedding.full: 完整的法文音频说话者嵌入,数据类型为
float32序列的序列。 - enA.audio.speaker_embedding: 英文音频说话者嵌入,数据类型为
float32序列。 - enA.audio.speaker_embedding.full: 完整的英文音频说话者嵌入,数据类型为
float32序列的序列。
数据分割
每个子集包含一个训练集分割:
- train: 训练集,包含数据字节数和样本数量。
数据集大小
每个子集的下载大小和数据集大小如下:
- subset_1: 下载大小为 11991093037 字节,数据集大小为 11955579968 字节。
- subset_10: 下载大小为 11351497820 字节,数据集大小为 11317113378 字节。
- subset_100: 下载大小为 10460770910 字节,数据集大小为 10428107562 字节。
- subset_101: 下载大小为 10396625318 字节,数据集大小为 10363930546 字节。
- subset_102: 下载大小为 10311855742 字节,数据集大小为 10279156575 字节。
- subset_103: 下载大小为 10455237447 字节,数据集大小为 10422395365 字节。
- subset_104: 下载大小为 10330495704 字节,数据集大小为 10297763679 字节。
- subset_105: 下载大小为 10436976751 字节,数据集大小为 10404210055 字节。
- subset_106: 下载大小为 10398958018 字节,数据集大小为 10366092228 字节。
- subset_107: 下载大小为 10595735096 字节,数据集大小为 10561823927 字节。
- subset_108: 下载大小为 10428004101 字节,数据集大小为 10395165860 字节。
- subset_109: 下载大小为 10399795358 字节,数据集大小为 10367567617 字节。
- subset_11: 下载大小为 11186618008 字节,数据集大小为 11152216421 字节。
- subset_110: 下载大小为 10092908881 字节,数据集大小为 10060084421 字节。
- subset_111: 下载大小为 10195073880 字节,数据集大小为 10162227057 字节。
- subset_112: 下载大小为 10690459742 字节,数据集大小为 10656767497 字节。
- subset_113: 下载大小为 10319456879 字节,数据集大小为 10286757776 字节。
- subset_114: 下载大小为 10460550912 字节,数据集大小为 10428195639 字节。
- subset_115: 下载大小为 10074974204 字节,数据集大小为 10042185092 字节。
- subset_116: 下载大小为 10407243871 字节,数据集大小为 10374746249 字节。
- subset_117: 下载大小为 10200230363 字节,数据集大小为 10167347118 字节。
- subset_118: 下载大小为 10359643336 字节,数据集大小为 10326872187 字节。
- subset_119: 下载大小为 10117262987 字节,数据集大小为 10084392269 字节。
- subset_12: 下载大小为 11579963903 字节,数据集大小为 11544384540 字节。
- subset_120: 下载大小为 10240988770 字节,数据集大小为 10208276933 字节。
- subset_121: 下载大小为 10257130248 字节,数据集大小为 10224763412 字节。
- subset_122: 下载大小为 10120976783 字节,数据集大小为 10088129054 字节。
- subset_123: 下载大小为 10296059503 字节,数据集大小为 10263786231 字节。
- subset_124: 下载大小为 10233270207 字节,数据集大小为 10200800715 字节。
- subset_125: 下载大小为 10242746530 字节,数据集大小为 10210069292 字节。
- subset_126: 下载大小为 10275436868 字节,数据集大小为 10242746530 字节。



