asahi417/seamless-align-enA-koA.speaker-embedding.hubert-xl
收藏Hugging Face2024-06-17 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/asahi417/seamless-align-enA-koA.speaker-embedding.hubert-xl
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多个子集,每个子集包含英文和韩文的音频数据,特征包括行号、ID、LASER评分以及音频的说话者嵌入。数据集主要用于处理英文和韩文的音频数据,并且每个子集都有相应的训练集分割。
该数据集包含多个子集,每个子集包含英文和韩文的音频数据,特征包括行号、ID、LASER评分以及音频的说话者嵌入。数据集主要用于处理英文和韩文的音频数据,并且每个子集都有相应的训练集分割。
提供机构:
asahi417
原始信息汇总
数据集概述
数据集配置
子集 subset_1
- 特征:
line_no: 类型int64enA.id: 类型stringenA.laser_score: 类型float64koA.id: 类型stringkoA.laser_score: 类型float64koA.audio.speaker_embedding: 序列类型float32koA.audio.speaker_embedding.full: 嵌套序列类型float32enA.audio.speaker_embedding: 序列类型float32enA.audio.speaker_embedding.full: 嵌套序列类型float32
- 分割:
train:- 字节数: 11942607701
- 样本数: 2242
- 下载大小: 11977617670
- 数据集大小: 11942607701
子集 subset_10
- 特征:
line_no: 类型int64enA.id: 类型stringenA.laser_score: 类型float64koA.id: 类型stringkoA.laser_score: 类型float64enA.audio.speaker_embedding: 序列类型float32enA.audio.speaker_embedding.full: 嵌套序列类型float32koA.audio.speaker_embedding: 序列类型float32koA.audio.speaker_embedding.full: 嵌套序列类型float32
- 分割:
train:- 字节数: 8812136369
- 样本数: 1934
- 下载大小: 8840196494
- 数据集大小: 8812136369
子集 subset_100
- 特征:
line_no: 类型int64enA.id: 类型stringenA.laser_score: 类型float64koA.id: 类型stringkoA.laser_score: 类型float64koA.audio.speaker_embedding: 序列类型float32koA.audio.speaker_embedding.full: 嵌套序列类型float32enA.audio.speaker_embedding: 序列类型float32enA.audio.speaker_embedding.full: 嵌套序列类型float32
- 分割:
train:- 字节数: 8874180282
- 样本数: 1839
- 下载大小: 8899293582
- 数据集大小: 8874180282
子集 subset_11
- 特征:
line_no: 类型int64enA.id: 类型stringenA.laser_score: 类型float64koA.id: 类型stringkoA.laser_score: 类型float64enA.audio.speaker_embedding: 序列类型float32enA.audio.speaker_embedding.full: 嵌套序列类型float32koA.audio.speaker_embedding: 序列类型float32koA.audio.speaker_embedding.full: 嵌套序列类型float32
- 分割:
train:- 字节数: 8147616498
- 样本数: 1826
- 下载大小: 8174441871
- 数据集大小: 8147616498
子集 subset_12
- 特征:
line_no: 类型int64enA.id: 类型stringenA.laser_score: 类型float64koA.id: 类型stringkoA.laser_score: 类型float64enA.audio.speaker_embedding: 序列类型float32enA.audio.speaker_embedding.full: 嵌套序列类型float32koA.audio.speaker_embedding: 序列类型float32koA.audio.speaker_embedding.full: 嵌套序列类型float32
- 分割:
train:- 字节数: 8321962542
- 样本数: 1850
- 下载大小: 8348794548
- 数据集大小: 8321962542
子集 subset_13
- 特征:
line_no: 类型int64enA.id: 类型stringenA.laser_score: 类型float64koA.id: 类型stringkoA.laser_score: 类型float64enA.audio.speaker_embedding: 序列类型float32enA.audio.speaker_embedding.full: 嵌套序列类型float32koA.audio.speaker_embedding: 序列类型float32koA.audio.speaker_embedding.full: 嵌套序列类型float32
- 分割:
train:- 字节数: 8855070651
- 样本数: 1938
- 下载大小: 8883329123
- 数据集大小: 8855070651
子集 subset_14
- 特征:
line_no: 类型int64enA.id: 类型stringenA.laser_score: 类型float64koA.id: 类型stringkoA.laser_score: 类型float64enA.audio.speaker_embedding: 序列类型float32enA.audio.speaker_embedding.full: 嵌套序列类型float32koA.audio.speaker_embedding: 序列类型float32koA.audio.speaker_embedding.full: 嵌套序列类型float32
- 分割:
train:- 字节数: 8473283000
- 样本数: 1895
- 下载大小: 8500119702
- 数据集大小: 8473283000
子集 subset_15
- 特征:
line_no: 类型int64enA.id: 类型stringenA.laser_score: 类型float64koA.id: 类型stringkoA.laser_score: 类型float64enA.audio.speaker_embedding: 序列类型float32enA.audio.speaker_embedding.full: 嵌套序列类型float32koA.audio.speaker_embedding: 序列类型float32koA.audio.speaker_embedding.full: 嵌套序列类型float32
- 分割:
train:- 字节数: 8678074637
- 样本数: 1903
- 下载大小: 8706233889
- 数据集大小: 8678074637
子集 subset_16
- 特征:
line_no: 类型int64enA.id: 类型stringenA.laser_score: 类型float64koA.id: 类型stringkoA.laser_score: 类型float64koA.audio.speaker_embedding: 序列类型float32koA.audio.speaker_embedding.full: 嵌套序列类型float32enA.audio.speaker_embedding: 序列类型float32enA.audio.speaker_embedding.full: 嵌套序列类型float32
- 分割:
train:- 字节数: 8074527080
- 样本数: 1818
- 下载大小: 8101141214
- 数据集大小: 8074527080
子集 subset_17
- 特征:
line_no: 类型int64enA.id: 类型stringenA.laser_score: 类型float64koA.id: 类型stringkoA.laser_score: 类型float64enA.audio.speaker_embedding: 序列类型float32enA.audio.speaker_embedding.full: 嵌套序列类型float32koA.audio.speaker_embedding: 序列类型float32koA.audio.speaker_embedding.full: 嵌套序列类型float32
- 分割:
train:- 字节数: 8675852334
- 样本数: 1921
- 下载大小: 8704059772
- 数据集大小: 8675852334
子集 subset_18
- 特征:
line_no: 类型int64enA.id: 类型stringenA.laser_score: 类型float64koA.id: 类型stringkoA.laser_score: 类型float64koA.audio.speaker_embedding: 序列类型float32koA.audio.speaker_embedding.full: 嵌套序列类型float32enA.audio.speaker_embedding: 序列类型float32enA.audio.speaker_embedding.full: 嵌套序列类型float32
- 分割:
train:- 字节数: 8368890070
- 样本数: 1874
- 下载大小: 8395783939
- 数据集大小: 8368890070
子集 subset_19
- 特征:
line_no: 类型int64enA.id: 类型stringenA.laser_score: 类型float64koA.id: 类型stringkoA.laser_score: 类型float64koA.audio.speaker_embedding: 序列类型float32koA.audio.speaker_embedding.full: 嵌套序列类型float32enA.audio.speaker_embedding: 序列类型float32enA.audio.speaker_embedding.full: 嵌套序列类型float32
- 分割:
train:- 字节数: 8645393855
- 样本数: 1904
- 下载大小: 8673565653
- 数据集大小: 8645393855
子集 subset_2
- 特征:
line_no: 类型int64enA.id: 类型stringenA.laser_score: 类型float64koA.id: 类型stringkoA.laser_score: 类型float64koA.audio.speaker_embedding: 序列类型float32koA.audio.speaker_embedding.full: 嵌套序列类型float32enA.audio.speaker_embedding: 序列类型float32enA.audio.speaker_embedding.full: 嵌套序列类型float32
- 分割:
train:- 字节数: 11484840060
- 样本数: 2183
- 下载大小: 11518554537
- 数据集大小: 11484840060
子集 subset_20
- 特征:
line_no: 类型int64enA.id: 类型stringenA.laser_score: 类型float64koA.id: 类型stringkoA.laser_score: 类型float64koA.audio.speaker_embedding: 序列类型float32koA.audio.speaker_embedding.full: 嵌套序列类型float32enA.audio.speaker_embedding: 序列类型float32enA.audio.speaker_embedding.full: 嵌套序列类型float32
- 分割:
train:- 字节数: 8436412091
- 样本数: 1911
- 下载大小: 8463562026
- 数据集大小: 8436412091
子集 subset_21
- 特征:
line_no: 类型int64enA.id: 类型stringenA.laser_score: 类型float64koA.id: 类型stringkoA.laser_score: 类型float64enA.audio.speaker_embedding: 序列类型float32enA.audio.speaker_embedding.full: 嵌套序列类型float32koA.audio.speaker_embedding: 序列类型float32koA.audio.speaker_embedding.full: 嵌套序列类型float32
- 分割:
train:- 字节数: 8549758618
- 样本数: 1893
- 下载大小: 8577566325
- 数据集大小: 8549758618
子集 subset_22
- 特征:
line_no: 类型int64enA.id: 类型stringenA.laser_score: 类型float64- `ko



