five

asahi417/seamless-align-enA-esA.speaker-embedding.xlsr-2b

收藏
Hugging Face2024-06-24 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/asahi417/seamless-align-enA-esA.speaker-embedding.xlsr-2b
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多个子集,每个子集包含英语和西班牙语的音频和文本数据。数据集的特征包括行号、语言ID、LASER评分以及音频的说话者嵌入。数据集主要用于多语言音频和文本处理任务,如语音识别、语音合成或多语言NLP任务。

This dataset contains multiple subsets, each containing audio and text data in English and Spanish. The features of the dataset include line numbers, language IDs, LASER scores, and speaker embeddings for audio. The dataset is primarily used for multilingual audio and text processing tasks, such as speech recognition, speech synthesis, or multilingual NLP tasks.
提供机构:
asahi417
原始信息汇总

数据集概述

该数据集包含多个子集,每个子集具有相同的特征结构和数据分割方式。以下是各子集的详细信息:

特征结构

每个子集包含以下特征:

  • line_no: 行号,数据类型为 int64
  • enA.id: 英文A部分的ID,数据类型为 string
  • enA.laser_score: 英文A部分的LASER评分,数据类型为 float64
  • esA.id: 西班牙语A部分的ID,数据类型为 string
  • esA.laser_score: 西班牙语A部分的LASER评分,数据类型为 float64
  • enA.audio.speaker_embedding: 英文A部分的音频说话人嵌入,数据类型为 float32 序列。
  • enA.audio.speaker_embedding.full: 英文A部分的完整音频说话人嵌入,数据类型为 float32 序列的序列。
  • esA.audio.speaker_embedding: 西班牙语A部分的音频说话人嵌入,数据类型为 float32 序列。
  • esA.audio.speaker_embedding.full: 西班牙语A部分的完整音频说话人嵌入,数据类型为 float32 序列的序列。

数据分割

每个子集仅包含一个数据分割:

  • train: 训练集

子集详细信息

以下是各子集的具体信息:

子集 subset_1

  • 训练集字节数: 17615486614
  • 训练集样本数: 2178
  • 下载大小: 17671956372
  • 数据集大小: 17615486614

子集 subset_10

  • 训练集字节数: 16927334118
  • 训练集样本数: 2220
  • 下载大小: 16981705853
  • 数据集大小: 16927334118

子集 subset_100

  • 训练集字节数: 13270315892
  • 训练集样本数: 2091
  • 下载大小: 13316774841
  • 数据集大小: 13270315892

子集 subset_101

  • 训练集字节数: 13259634937
  • 训练集样本数: 2089
  • 下载大小: 13305926124
  • 数据集大小: 13259634937

子集 subset_102

  • 训练集字节数: 12870979863
  • 训练集样本数: 2015
  • 下载大小: 12915729898
  • 数据集大小: 12870979863

子集 subset_103

  • 训练集字节数: 13380071688
  • 训练集样本数: 2061
  • 下载大小: 13426181130
  • 数据集大小: 13380071688

子集 subset_104

  • 训练集字节数: 13344159869
  • 训练集样本数: 2100
  • 下载大小: 13390587699
  • 数据集大小: 13344159869

子集 subset_105

  • 训练集字节数: 13328330644
  • 训练集样本数: 2098
  • 下载大小: 13374926961
  • 数据集大小: 13328330644

子集 subset_106

  • 训练集字节数: 13096062318
  • 训练集样本数: 2048
  • 下载大小: 13142156831
  • 数据集大小: 13096062318

子集 subset_107

  • 训练集字节数: 13034952356
  • 训练集样本数: 2059
  • 下载大小: 13081006606
  • 数据集大小: 13034952356

子集 subset_108

  • 训练集字节数: 13404917635
  • 训练集样本数: 2105
  • 下载大小: 13451465897
  • 数据集大小: 13404917635

子集 subset_109

  • 训练集字节数: 13141422631
  • 训练集样本数: 2069
  • 下载大小: 13187287737
  • 数据集大小: 13141422631

子集 subset_11

  • 训练集字节数: 16951209374
  • 训练集样本数: 2233
  • 下载大小: 17005518613
  • 数据集大小: 16951209374

子集 subset_110

  • 训练集字节数: 13040115701
  • 训练集样本数: 2055
  • 下载大小: 13086087673
  • 数据集大小: 13040115701

子集 subset_111

  • 训练集字节数: 12931440533
  • 训练集样本数: 2051
  • 下载大小: 12976152367
  • 数据集大小: 12931440533

子集 subset_112

  • 训练集字节数: 12686272722
  • 训练集样本数: 2025
  • 下载大小: 12730618021
  • 数据集大小: 12686272722

子集 subset_113

  • 训练集字节数: 13190310595
  • 训练集样本数: 2097
  • 下载大小: 13236739071
  • 数据集大小: 13190310595

子集 subset_114

  • 训练集字节数: 13285434302
  • 训练集样本数: 2046
  • 下载大小: 13331320055
  • 数据集大小: 13285434302

子集 subset_115

  • 训练集字节数: 13120000810
  • 训练集样本数: 2083
  • 下载大小: 13166227875
  • 数据集大小: 13120000810

子集 subset_116

  • 训练集字节数: 12704630141
  • 训练集样本数: 2029
  • 下载大小: 12749446486
  • 数据集大小: 12704630141

子集 subset_117

  • 训练集字节数: 12859255799
  • 训练集样本数: 2036
  • 下载大小: 12904092383
  • 数据集大小: 12859255799

子集 subset_118

  • 训练集字节数: 12860464458
  • 训练集样本数: 2064
  • 下载大小: 12905429560
  • 数据集大小: 12860464458

子集 subset_119

  • 训练集字节数: 13131625042
  • 训练集样本数: 2062
  • 下载大小: 13177824920
  • 数据集大小: 13131625042

子集 subset_12

  • 训练集字节数: 16686439189
  • 训练集样本数: 2201
  • 下载大小: 16740713100
  • 数据集大小: 16686439189

子集 subset_120

  • 训练集字节数: 12674395327
  • 训练集样本数: 2051
  • 下载大小: 12719575500
  • 数据集大小: 12674395327

子集 subset_121

  • 训练集字节数: 12650742527
  • 训练集样本数: 2033
  • 下载大小: 12695314327
  • 数据集大小: 12650742527

子集 subset_122

  • 训练集字节数: 12677130233
  • 训练集样本数: 2043
  • 下载大小: 12722174432
  • 数据集大小: 12677130233

子集 subset_123

  • 训练集字节数: 12951044389
  • 训练集样本数: 2075
  • 下载大小: 12995988239
  • 数据集大小: 12951044389

子集 subset_124

  • 训练集字节数: 12478574614
  • 训练集样本数: 2031
  • 下载大小: 12522233390
  • 数据集大小: 12478574614

子集 subset_125

  • 训练集字节数: 12737934749
  • 训练集样本数: 2056
  • 下载大小: 12783009884
  • 数据集大小: 12737934749

子集 subset_126

  • 训练集字节数: 12737934749
  • 训练集样本数: 2056
  • 下载大小: 12783009884
  • 数据集大小: 12737934749
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作