asahi417/seamless-align-enA-zhA.speaker-embedding.hubert-xl
收藏Hugging Face2024-06-16 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/asahi417/seamless-align-enA-zhA.speaker-embedding.hubert-xl
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多个子集配置,每个子集包含行号、英文和中文文本的ID、两种语言的LASER评分以及两种语言的音频说话者嵌入特征。数据集被划分为训练集,每个训练集包含特定数量的字节和样本。每个子集的下载大小和数据集大小也被列出。
The dataset contains multiple subset configurations, each including line numbers, IDs for English and Chinese texts, LASER scores for both languages, and speaker embeddings for audio in both languages. The dataset is divided into training splits, with each split containing a specified number of bytes and examples. The download size and dataset size are also listed for each subset.
提供机构:
asahi417
原始信息汇总
数据集概述
数据集配置
子集 1 (subset_1)
- 特征:
line_no: 整数 (int64)enA.id: 字符串 (string)enA.laser_score: 浮点数 (float64)zhA.id: 字符串 (string)zhA.laser_score: 浮点数 (float64)enA.audio.speaker_embedding: 浮点数序列 (float32)enA.audio.speaker_embedding.full: 嵌套浮点数序列 (float32)zhA.audio.speaker_embedding: 浮点数序列 (float32)zhA.audio.speaker_embedding.full: 嵌套浮点数序列 (float32)
- 分割:
train:- 字节数: 9475358331
- 样本数: 1962
- 下载大小: 9504134241
- 数据集大小: 9475358331
子集 10 (subset_10)
- 特征:
line_no: 整数 (int64)enA.id: 字符串 (string)enA.laser_score: 浮点数 (float64)zhA.id: 字符串 (string)zhA.laser_score: 浮点数 (float64)zhA.audio.speaker_embedding: 浮点数序列 (float32)zhA.audio.speaker_embedding.full: 嵌套浮点数序列 (float32)enA.audio.speaker_embedding: 浮点数序列 (float32)enA.audio.speaker_embedding.full: 嵌套浮点数序列 (float32)
- 分割:
train:- 字节数: 9052265145
- 样本数: 2031
- 下载大小: 9081911906
- 数据集大小: 9052265145
子集 100 (subset_100)
- 特征:
line_no: 整数 (int64)enA.id: 字符串 (string)enA.laser_score: 浮点数 (float64)zhA.id: 字符串 (string)zhA.laser_score: 浮点数 (float64)zhA.audio.speaker_embedding: 浮点数序列 (float32)zhA.audio.speaker_embedding.full: 嵌套浮点数序列 (float32)enA.audio.speaker_embedding: 浮点数序列 (float32)enA.audio.speaker_embedding.full: 嵌套浮点数序列 (float32)
- 分割:
train:- 字节数: 8818322637
- 样本数: 1891
- 下载大小: 8846394382
- 数据集大小: 8818322637
子集 101 (subset_101)
- 特征:
line_no: 整数 (int64)enA.id: 字符串 (string)enA.laser_score: 浮点数 (float64)zhA.id: 字符串 (string)zhA.laser_score: 浮点数 (float64)zhA.audio.speaker_embedding: 浮点数序列 (float32)zhA.audio.speaker_embedding.full: 嵌套浮点数序列 (float32)enA.audio.speaker_embedding: 浮点数序列 (float32)enA.audio.speaker_embedding.full: 嵌套浮点数序列 (float32)
- 分割:
train:- 字节数: 8694449499
- 样本数: 1885
- 下载大小: 8722422676
- 数据集大小: 8694449499
子集 102 (subset_102)
- 特征:
line_no: 整数 (int64)enA.id: 字符串 (string)enA.laser_score: 浮点数 (float64)zhA.id: 字符串 (string)zhA.laser_score: 浮点数 (float64)enA.audio.speaker_embedding: 浮点数序列 (float32)enA.audio.speaker_embedding.full: 嵌套浮点数序列 (float32)zhA.audio.speaker_embedding: 浮点数序列 (float32)zhA.audio.speaker_embedding.full: 嵌套浮点数序列 (float32)
- 分割:
train:- 字节数: 8490046178
- 样本数: 1863
- 下载大小: 8516889176
- 数据集大小: 8490046178
子集 103 (subset_103)
- 特征:
line_no: 整数 (int64)enA.id: 字符串 (string)enA.laser_score: 浮点数 (float64)zhA.id: 字符串 (string)zhA.laser_score: 浮点数 (float64)zhA.audio.speaker_embedding: 浮点数序列 (float32)zhA.audio.speaker_embedding.full: 嵌套浮点数序列 (float32)enA.audio.speaker_embedding: 浮点数序列 (float32)enA.audio.speaker_embedding.full: 嵌套浮点数序列 (float32)
- 分割:
train:- 字节数: 8647106885
- 样本数: 1861
- 下载大小: 8674999999
- 数据集大小: 8647106885
子集 104 (subset_104)
- 特征:
line_no: 整数 (int64)enA.id: 字符串 (string)enA.laser_score: 浮点数 (float64)zhA.id: 字符串 (string)zhA.laser_score: 浮点数 (float64)zhA.audio.speaker_embedding: 浮点数序列 (float32)zhA.audio.speaker_embedding.full: 嵌套浮点数序列 (float32)enA.audio.speaker_embedding: 浮点数序列 (float32)enA.audio.speaker_embedding.full: 嵌套浮点数序列 (float32)
- 分割:
train:- 字节数: 8534733566
- 样本数: 1875
- 下载大小: 8562882733
- 数据集大小: 8534733566
子集 105 (subset_105)
- 特征:
line_no: 整数 (int64)enA.id: 字符串 (string)enA.laser_score: 浮点数 (float64)zhA.id: 字符串 (string)zhA.laser_score: 浮点数 (float64)enA.audio.speaker_embedding: 浮点数序列 (float32)enA.audio.speaker_embedding.full: 嵌套浮点数序列 (float32)zhA.audio.speaker_embedding: 浮点数序列 (float32)zhA.audio.speaker_embedding.full: 嵌套浮点数序列 (float32)
- 分割:
train:- 字节数: 8753738114
- 样本数: 1871
- 下载大小: 8781689050
- 数据集大小: 8753738114
子集 106 (subset_106)
- 特征:
line_no: 整数 (int64)enA.id: 字符串 (string)enA.laser_score: 浮点数 (float64)zhA.id: 字符串 (string)zhA.laser_score: 浮点数 (float64)zhA.audio.speaker_embedding: 浮点数序列 (float32)zhA.audio.speaker_embedding.full: 嵌套浮点数序列 (float32)enA.audio.speaker_embedding: 浮点数序列 (float32)enA.audio.speaker_embedding.full: 嵌套浮点数序列 (float32)
- 分割:
train:- 字节数: 8286741426
- 样本数: 1865
- 下载大小: 8313205426
- 数据集大小: 8286741426
子集 107 (subset_107)
- 特征:
line_no: 整数 (int64)enA.id: 字符串 (string)enA.laser_score: 浮点数 (float64)zhA.id: 字符串 (string)zhA.laser_score: 浮点数 (float64)enA.audio.speaker_embedding: 浮点数序列 (float32)enA.audio.speaker_embedding.full: 嵌套浮点数序列 (float32)zhA.audio.speaker_embedding: 浮点数序列 (float32)zhA.audio.speaker_embedding.full: 嵌套浮点数序列 (float32)
- 分割:
train:- 字节数: 8325399814
- 样本数: 1838
- 下载大小: 8352141658
- 数据集大小: 8325399814
子集 108 (subset_108)
- 特征:
line_no: 整数 (int64)enA.id: 字符串 (string)enA.laser_score: 浮点数 (float64)zhA.id: 字符串 (string)zhA.laser_score: 浮点数 (float64)zhA.audio.speaker_embedding: 浮点数序列 (float32)zhA.audio.speaker_embedding.full: 嵌套浮点数序列 (float32)enA.audio.speaker_embedding: 浮点数序列 (float32)enA.audio.speaker_embedding.full: 嵌套浮点数序列 (float32)
- 分割:
train:- 字节数: 8681207053
- 样本数: 1860
- 下载大小: 8709094371
- 数据集大小: 8681207053
子集 109 (subset_109)
- 特征:
line_no: 整数 (int64)enA.id: 字符串 (string)enA.laser_score: 浮点数 (float64)zhA.id: 字符串 (string)zhA.laser_score: 浮点数 (float64)zhA.audio.speaker_embedding: 浮点数序列 (float32)zhA.audio.speaker_embedding.full: 嵌套浮点数序列 (float32)enA.audio.speaker_embedding: 浮点数序列 (float32)enA.audio.speaker_embedding.full: 嵌套浮点数序列 (float32)
- 分割:
train:- 字节数: 8660101738
- 样本数: 1866
- 下载大小: 8687993587
- 数据集大小: 8660101738
子集 11 (subset_11)
- 特征:
line_no: 整数 (int64)enA.id: 字符串 (string)enA.laser_score: 浮点数 (float64)zhA.id: 字符串 (string)zhA.laser_score: 浮点数 (float64)enA.audio.speaker_embedding: 浮点数序列 (float32)enA.audio.speaker_embedding.full: 嵌套浮点数序列 (float32)zhA.audio.speaker_embedding: 浮点数序列 (float32)zhA.audio.speaker_embedding.full: 嵌套浮点数序列 (float32)
- 分割:
train:- 字节数: 8694663339
- 样本数: 1994
- 下载大小: 8723170105
- 数据集大小: 8694663339
子集 110 (subset_110)
- 特征:
line_no: 整数 (int64)enA.id: 字符串 (string)enA.laser_score: 浮点数 (float64)zhA.id: 字符串 (string)zhA.laser_score: 浮点数 (float64)enA.audio.speaker_embedding: 浮点数序列 (float32)enA.audio.speaker_embedding.full: 嵌套浮点数序列 (float32)zhA.audio.speaker_embedding: 浮点数序列 (float32)zhA.audio.speaker_embedding.full: 嵌套浮点数序列 (float32)
- 分割:
train:- 字节数: 8360228006
- 样本数: 1843
- 下载大小: 8386976872
- 数据集大小: 8360228006
子集 111 (subset_111)
- 特征:
line_no: 整数 (int64)- `



