asahi417/seamless-align-enA-zhA.speaker-embedding.xlsr-2b
收藏Hugging Face2024-06-17 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/asahi417/seamless-align-enA-zhA.speaker-embedding.xlsr-2b
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多个子集,每个子集包含与英语和汉语音频数据相关的特征。特征包括行号、ID、LASER分数以及英语和汉语音频的说话者嵌入。每个子集都有一个“train”分割,具有特定的字节大小和示例数量。该数据集的结构支持涉及双语音频数据分析的任务,例如语音识别、说话者识别或跨语言比较。
The dataset contains multiple subsets, each with features related to English and Chinese audio data. The features include line numbers, IDs, LASER scores, and speaker embeddings for both English and Chinese audio. Each subset has a train split with specific byte sizes and example counts. The dataset is structured to support tasks involving bilingual audio data analysis, such as speech recognition, speaker identification, or cross-lingual comparison.
提供机构:
asahi417
原始信息汇总
数据集概述
数据集配置
子集 subset_1
- 特征:
line_no: 整数类型enA.id: 字符串类型enA.laser_score: 浮点数类型zhA.id: 字符串类型zhA.laser_score: 浮点数类型enA.audio.speaker_embedding: 浮点数序列enA.audio.speaker_embedding.full: 嵌套浮点数序列zhA.audio.speaker_embedding: 浮点数序列zhA.audio.speaker_embedding.full: 嵌套浮点数序列
- 分割:
train:- 字节数: 14209259131
- 样本数: 1962
- 下载大小: 14256120203
- 数据集大小: 14209259131
子集 subset_10
- 特征:
line_no: 整数类型enA.id: 字符串类型enA.laser_score: 浮点数类型zhA.id: 字符串类型zhA.laser_score: 浮点数类型enA.audio.speaker_embedding: 浮点数序列enA.audio.speaker_embedding.full: 嵌套浮点数序列zhA.audio.speaker_embedding: 浮点数序列zhA.audio.speaker_embedding.full: 嵌套浮点数序列
- 分割:
train:- 字节数: 13574781625
- 样本数: 2031
- 下载大小: 13621966757
- 数据集大小: 13574781625
子集 subset_100
- 特征:
line_no: 整数类型enA.id: 字符串类型enA.laser_score: 浮点数类型zhA.id: 字符串类型zhA.laser_score: 浮点数类型zhA.audio.speaker_embedding: 浮点数序列zhA.audio.speaker_embedding.full: 嵌套浮点数序列enA.audio.speaker_embedding: 浮点数序列enA.audio.speaker_embedding.full: 嵌套浮点数序列
- 分割:
train:- 字节数: 13223964877
- 样本数: 1891
- 下载大小: 13269307182
- 数据集大小: 13223964877
子集 subset_101
- 特征:
line_no: 整数类型enA.id: 字符串类型enA.laser_score: 浮点数类型zhA.id: 字符串类型zhA.laser_score: 浮点数类型enA.audio.speaker_embedding: 浮点数序列enA.audio.speaker_embedding.full: 嵌套浮点数序列zhA.audio.speaker_embedding: 浮点数序列zhA.audio.speaker_embedding.full: 嵌套浮点数序列
- 分割:
train:- 字节数: 13038203739
- 样本数: 1885
- 下载大小: 13083404216
- 数据集大小: 13038203739
子集 subset_102
- 特征:
line_no: 整数类型enA.id: 字符串类型enA.laser_score: 浮点数类型zhA.id: 字符串类型zhA.laser_score: 浮点数类型zhA.audio.speaker_embedding: 浮点数序列zhA.audio.speaker_embedding.full: 嵌套浮点数序列enA.audio.speaker_embedding: 浮点数序列enA.audio.speaker_embedding.full: 嵌套浮点数序列
- 分割:
train:- 字节数: 12731679458
- 样本数: 1863
- 下载大小: 12775688644
- 数据集大小: 12731679458
子集 subset_103
- 特征:
line_no: 整数类型enA.id: 字符串类型enA.laser_score: 浮点数类型zhA.id: 字符串类型zhA.laser_score: 浮点数类型zhA.audio.speaker_embedding: 浮点数序列zhA.audio.speaker_embedding.full: 嵌套浮点数序列enA.audio.speaker_embedding: 浮点数序列enA.audio.speaker_embedding.full: 嵌套浮点数序列
- 分割:
train:- 字节数: 12967209285
- 样本数: 1861
- 下载大小: 13011071076
- 数据集大小: 12967209285
子集 subset_104
- 特征:
line_no: 整数类型enA.id: 字符串类型enA.laser_score: 浮点数类型zhA.id: 字符串类型zhA.laser_score: 浮点数类型zhA.audio.speaker_embedding: 浮点数序列zhA.audio.speaker_embedding.full: 嵌套浮点数序列enA.audio.speaker_embedding: 浮点数序列enA.audio.speaker_embedding.full: 嵌套浮点数序列
- 分割:
train:- 字节数: 12798692606
- 样本数: 1875
- 下载大小: 12842795816
- 数据集大小: 12798692606
子集 subset_105
- 特征:
line_no: 整数类型enA.id: 字符串类型enA.laser_score: 浮点数类型zhA.id: 字符串类型zhA.laser_score: 浮点数类型enA.audio.speaker_embedding: 浮点数序列enA.audio.speaker_embedding.full: 嵌套浮点数序列zhA.audio.speaker_embedding: 浮点数序列zhA.audio.speaker_embedding.full: 嵌套浮点数序列
- 分割:
train:- 字节数: 13127114114
- 样本数: 1871
- 下载大小: 13172271401
- 数据集大小: 13127114114
子集 subset_106
- 特征:
line_no: 整数类型enA.id: 字符串类型enA.laser_score: 浮点数类型zhA.id: 字符串类型zhA.laser_score: 浮点数类型zhA.audio.speaker_embedding: 浮点数序列zhA.audio.speaker_embedding.full: 嵌套浮点数序列enA.audio.speaker_embedding: 浮点数序列enA.audio.speaker_embedding.full: 嵌套浮点数序列
- 分割:
train:- 字节数: 12426801586
- 样本数: 1865
- 下载大小: 12469421998
- 数据集大小: 12426801586
子集 subset_107
- 特征:
line_no: 整数类型enA.id: 字符串类型enA.laser_score: 浮点数类型zhA.id: 字符串类型zhA.laser_score: 浮点数类型enA.audio.speaker_embedding: 浮点数序列enA.audio.speaker_embedding.full: 嵌套浮点数序列zhA.audio.speaker_embedding: 浮点数序列zhA.audio.speaker_embedding.full: 嵌套浮点数序列
- 分割:
train:- 字节数: 12484775174
- 样本数: 1838
- 下载大小: 12527398592
- 数据集大小: 12484775174
子集 subset_108
- 特征:
line_no: 整数类型enA.id: 字符串类型enA.laser_score: 浮点数类型zhA.id: 字符串类型zhA.laser_score: 浮点数类型enA.audio.speaker_embedding: 浮点数序列enA.audio.speaker_embedding.full: 嵌套浮点数序列zhA.audio.speaker_embedding: 浮点数序列zhA.audio.speaker_embedding.full: 嵌套浮点数序列
- 分割:
train:- 字节数: 13018346253
- 样本数: 1860
- 下载大小: 13063301347
- 数据集大小: 13018346253
子集 subset_109
- 特征:
line_no: 整数类型enA.id: 字符串类型enA.laser_score: 浮点数类型zhA.id: 字符串类型zhA.laser_score: 浮点数类型enA.audio.speaker_embedding: 浮点数序列enA.audio.speaker_embedding.full: 嵌套浮点数序列zhA.audio.speaker_embedding: 浮点数序列zhA.audio.speaker_embedding.full: 嵌套浮点数序列
- 分割:
train:- 字节数: 12986696298
- 样本数: 1866
- 下载大小: 13030608940
- 数据集大小: 12986696298
子集 subset_11
- 特征:
line_no: 整数类型enA.id: 字符串类型enA.laser_score: 浮点数类型zhA.id: 字符串类型zhA.laser_score: 浮点数类型enA.audio.speaker_embedding: 浮点数序列enA.audio.speaker_embedding.full: 嵌套浮点数序列zhA.audio.speaker_embedding: 浮点数序列zhA.audio.speaker_embedding.full: 嵌套浮点数序列
- 分割:
train:- 字节数: 13038519979
- 样本数: 1994
- 下载大小: 13084550040
- 数据集大小: 13038519979
子集 subset_110
- 特征:
line_no: 整数类型enA.id: 字符串类型enA.laser_score: 浮点数类型zhA.id: 字符串类型zhA.laser_score: 浮点数类型zhA.audio.speaker_embedding: 浮点数序列zhA.audio.speaker_embedding.full: 嵌套浮点数序列enA.audio.speaker_embedding: 浮点数序列enA.audio.speaker_embedding.full: 嵌套浮点数序列
- 分割:
train:- 字节数: 12537003686
- 样本数: 1843
- 下载大小: 12580875152
- 数据集大小: 12537003686
子集 subset_111
- 特征:
line_no: 整数类型enA.id: 字符串类型enA.laser_score: 浮点数类型zhA.id: 字符串类型zhA.laser_score: 浮点数类型zhA.audio.speaker_embedding: 浮点数序列zhA.audio.speaker_embedding.full: 嵌套浮点数序列enA.audio.speaker_embedding: 浮点数序列enA.audio.speaker_embedding.full: 嵌套浮点数序列
- 分割:
train:- 字节数: 12920543044
- 样本数: 1845
- 下载大小: 12964231904
- 数据集大小: 12920543044
子集 subset_112
- 特征:
line_no: 整数类型enA.id: 字符串类型enA.laser_score: 浮点数类型zhA.id: 字符串类型zhA.laser_score: 浮点数类型enA.audio.speaker_embedding: 浮点数序列enA.audio.speaker_embedding.full: 嵌套浮点数序列zhA.audio.speaker_embedding: 浮点数序列zhA.audio.speaker_embedding.full: 嵌套浮点数序列
- 分割:
train:- 字节数: 12666264009
- 样本数: 1844
- 下载大小: 12709732284
- 数据集大小: 12666264009
子集 subset_113
- 特征:
line_no: 整数类型enA.id: 字符串类型- `enA.l
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



