asahi417/seamless-align-enA-hiA.speaker-embedding.hubert-xl
收藏Hugging Face2024-06-14 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/asahi417/seamless-align-enA-hiA.speaker-embedding.hubert-xl
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多个子集(subset_1到subset_37),每个子集包含英语和印地语的音频数据。数据集的特征包括行号、英语和印地语的ID、激光评分以及音频的说话者嵌入。每个子集都有相应的训练集分割,包含字节数和示例数。数据集主要用于处理英语和印地语的音频数据。
该数据集包含多个子集(subset_1到subset_37),每个子集包含英语和印地语的音频数据。数据集的特征包括行号、英语和印地语的ID、激光评分以及音频的说话者嵌入。每个子集都有相应的训练集分割,包含字节数和示例数。数据集主要用于处理英语和印地语的音频数据。
提供机构:
asahi417
原始信息汇总
数据集概述
数据集配置
该数据集包含多个子集,每个子集的配置名称从subset_1到subset_37。
特征描述
每个子集包含以下特征:
line_no: 行号,数据类型为int64。enA.id: 英文A的ID,数据类型为string。enA.laser_score: 英文A的LASER评分,数据类型为float64。hiA.id: 印地语A的ID,数据类型为string。hiA.laser_score: 印地语A的LASER评分,数据类型为float64。enA.audio.speaker_embedding: 英文A的音频说话人嵌入,数据类型为float32序列。enA.audio.speaker_embedding.full: 英文A的完整音频说话人嵌入,数据类型为float32序列的序列。hiA.audio.speaker_embedding: 印地语A的音频说话人嵌入,数据类型为float32序列。hiA.audio.speaker_embedding.full: 印地语A的完整音频说话人嵌入,数据类型为float32序列的序列。
数据分割
每个子集仅包含一个分割:
train: 训练集,包含数据字节数和样本数量。
数据集大小
每个子集的下载大小和数据集大小如下:
| 子集名称 | 下载大小 (bytes) | 数据集大小 (bytes) | 训练集样本数 |
|---|---|---|---|
| subset_1 | 11490865608 | 11456903470 | 2295 |
| subset_10 | 8525108036 | 8497469033 | 2026 |
| subset_11 | 8211671614 | 8184086859 | 1984 |
| subset_12 | 8293785190 | 8267732668 | 2004 |
| subset_13 | 7836272058 | 7813596787 | 1931 |
| subset_14 | 8209357137 | 8181837081 | 1980 |
| subset_15 | 7681446772 | 7654872944 | 1959 |
| subset_16 | 7977767633 | 7951105030 | 2001 |
| subset_17 | 8410409589 | 8382711574 | 2022 |
| subset_18 | 7964412330 | 7937878932 | 1988 |
| subset_19 | 7996531378 | 7973944881 | 1965 |
| subset_2 | 11468346317 | 11434325392 | 2335 |
| subset_20 | 8099998069 | 8072628489 | 1971 |
| subset_21 | 7869318616 | 7842776502 | 1976 |
| subset_22 | 8258687492 | 8231015149 | 2018 |
| subset_23 | 7908693869 | 7882339323 | 1981 |
| subset_24 | 7907947016 | 7881574967 | 1970 |
| subset_25 | 7861902434 | 7839009922 | 1971 |
| subset_26 | 7787970361 | 7761654985 | 1933 |
| subset_27 | 7824102193 | 7799225980 | 1956 |
| subset_28 | 8039972646 | 8012410192 | 1958 |
| subset_29 | 7995093736 | 7970556536 | 1948 |
| subset_3 | 10700911929 | 10667678399 | 2282 |
| subset_30 | 7781841837 | 7755516455 | 1934 |
| subset_31 | 7733846345 | 7709626192 | 1938 |
| subset_32 | 7972076500 | 7945619371 | 1964 |
| subset_33 | 7782331103 | 7755861573 | 1956 |
| subset_34 | 7577309125 | 7551263495 | 1870 |
| subset_35 | 7743548116 | 7717436607 | 1892 |
| subset_36 | 7998248708 | 7972270125 | 1912 |
| subset_37 | 7848953597 | 7822660355 | 1922 |



