five

asahi417/seamless-align-enA-hiA.speaker-embedding.hubert-xl

收藏
Hugging Face2024-06-14 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/asahi417/seamless-align-enA-hiA.speaker-embedding.hubert-xl
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多个子集(subset_1到subset_37),每个子集包含英语和印地语的音频数据。数据集的特征包括行号、英语和印地语的ID、激光评分以及音频的说话者嵌入。每个子集都有相应的训练集分割,包含字节数和示例数。数据集主要用于处理英语和印地语的音频数据。

该数据集包含多个子集(subset_1到subset_37),每个子集包含英语和印地语的音频数据。数据集的特征包括行号、英语和印地语的ID、激光评分以及音频的说话者嵌入。每个子集都有相应的训练集分割,包含字节数和示例数。数据集主要用于处理英语和印地语的音频数据。
提供机构:
asahi417
原始信息汇总

数据集概述

数据集配置

该数据集包含多个子集,每个子集的配置名称从subset_1subset_37

特征描述

每个子集包含以下特征:

  • line_no: 行号,数据类型为int64
  • enA.id: 英文A的ID,数据类型为string
  • enA.laser_score: 英文A的LASER评分,数据类型为float64
  • hiA.id: 印地语A的ID,数据类型为string
  • hiA.laser_score: 印地语A的LASER评分,数据类型为float64
  • enA.audio.speaker_embedding: 英文A的音频说话人嵌入,数据类型为float32序列。
  • enA.audio.speaker_embedding.full: 英文A的完整音频说话人嵌入,数据类型为float32序列的序列。
  • hiA.audio.speaker_embedding: 印地语A的音频说话人嵌入,数据类型为float32序列。
  • hiA.audio.speaker_embedding.full: 印地语A的完整音频说话人嵌入,数据类型为float32序列的序列。

数据分割

每个子集仅包含一个分割:

  • train: 训练集,包含数据字节数和样本数量。

数据集大小

每个子集的下载大小和数据集大小如下:

子集名称 下载大小 (bytes) 数据集大小 (bytes) 训练集样本数
subset_1 11490865608 11456903470 2295
subset_10 8525108036 8497469033 2026
subset_11 8211671614 8184086859 1984
subset_12 8293785190 8267732668 2004
subset_13 7836272058 7813596787 1931
subset_14 8209357137 8181837081 1980
subset_15 7681446772 7654872944 1959
subset_16 7977767633 7951105030 2001
subset_17 8410409589 8382711574 2022
subset_18 7964412330 7937878932 1988
subset_19 7996531378 7973944881 1965
subset_2 11468346317 11434325392 2335
subset_20 8099998069 8072628489 1971
subset_21 7869318616 7842776502 1976
subset_22 8258687492 8231015149 2018
subset_23 7908693869 7882339323 1981
subset_24 7907947016 7881574967 1970
subset_25 7861902434 7839009922 1971
subset_26 7787970361 7761654985 1933
subset_27 7824102193 7799225980 1956
subset_28 8039972646 8012410192 1958
subset_29 7995093736 7970556536 1948
subset_3 10700911929 10667678399 2282
subset_30 7781841837 7755516455 1934
subset_31 7733846345 7709626192 1938
subset_32 7972076500 7945619371 1964
subset_33 7782331103 7755861573 1956
subset_34 7577309125 7551263495 1870
subset_35 7743548116 7717436607 1892
subset_36 7998248708 7972270125 1912
subset_37 7848953597 7822660355 1922
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作