five

asahi417/seamless-align-enA-viA.speaker-embedding.xlsr-2b

收藏
Hugging Face2024-06-25 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/asahi417/seamless-align-enA-viA.speaker-embedding.xlsr-2b
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多个子集(如subset_1、subset_10等),每个子集包含行号、ID、激光分数以及英语(enA)和越南语(viA)数据的音频说话者嵌入等特征。每个子集都有一个“train”分割,并指定了字节大小和示例数量。数据集主要关注音频和文本数据,特征涉及说话者嵌入和激光分数,可能用于说话者识别或音频-文本对齐等任务。

The dataset contains multiple subsets (e.g., subset_1, subset_10, etc.), each with features such as line numbers, IDs, laser scores, and audio speaker embeddings for both English (enA) and Vietnamese (viA) data. Each subset has a train split with specified byte sizes and example counts. The dataset primarily focuses on audio and text data, with features related to speaker embeddings and laser scores, likely used for tasks such as speaker identification or audio-text alignment.
提供机构:
asahi417
原始信息汇总

数据集概述

该数据集包含多个子集,每个子集具有相同的特征结构和数据分割方式。以下是各子集的详细信息:

特征结构

每个子集包含以下特征:

  • line_no: 行号,数据类型为 int64
  • enA.id: 英文A的ID,数据类型为 string
  • enA.laser_score: 英文A的LASER评分,数据类型为 float64
  • viA.id: 越南语A的ID,数据类型为 string
  • viA.laser_score: 越南语A的LASER评分,数据类型为 float64
  • viA.audio.speaker_embedding: 越南语A的音频说话人嵌入,数据类型为 float32 序列。
  • viA.audio.speaker_embedding.full: 越南语A的完整音频说话人嵌入,数据类型为 float32 序列的序列。
  • enA.audio.speaker_embedding: 英文A的音频说话人嵌入,数据类型为 float32 序列。
  • enA.audio.speaker_embedding.full: 英文A的完整音频说话人嵌入,数据类型为 float32 序列的序列。

数据分割

每个子集仅包含一个数据分割:

  • train: 训练集,包含数据字节数和样本数量。

子集信息

以下是各子集的具体信息:

subset_1

  • 训练集字节数: 13152124231
  • 训练集样本数: 1853
  • 下载大小: 13196111601
  • 数据集大小: 13152124231

subset_10

  • 训练集字节数: 6657621784
  • 训练集样本数: 1090
  • 下载大小: 6681474976
  • 数据集大小: 6657621784

subset_100

  • 训练集字节数: 9681441551
  • 训练集样本数: 1520
  • 下载大小: 9716028942
  • 数据集大小: 9681441551

subset_101

  • 训练集字节数: 9765322177
  • 训练集样本数: 1545
  • 下载大小: 9800069846
  • 数据集大小: 9765322177

subset_102

  • 训练集字节数: 9860909658
  • 训练集样本数: 1527
  • 下载大小: 9895478528
  • 数据集大小: 9860909658

subset_103

  • 训练集字节数: 9709072687
  • 训练集样本数: 1513
  • 下载大小: 9743463146
  • 数据集大小: 9709072687

subset_104

  • 训练集字节数: 9317976193
  • 训练集样本数: 1465
  • 下载大小: 9350906284
  • 数据集大小: 9317976193

subset_105

  • 训练集字节数: 9599344558
  • 训练集样本数: 1506
  • 下载大小: 9633714817
  • 数据集大小: 9599344558

subset_106

  • 训练集字节数: 9611793564
  • 训练集样本数: 1517
  • 下载大小: 9646264815
  • 数据集大小: 9611793564

subset_107

  • 训练集字节数: 9817555828
  • 训练集样本数: 1518
  • 下载大小: 9851984781
  • 数据集大小: 9817555828

subset_108

  • 训练集字节数: 9759896244
  • 训练集样本数: 1532
  • 下载大小: 9794111609
  • 数据集大小: 9759896244

subset_109

  • 训练集字节数: 9920046697
  • 训练集样本数: 1539
  • 下载大小: 9954649265
  • 数据集大小: 9920046697

subset_11

  • 训练集字节数: 7059876136
  • 训练集样本数: 1146
  • 下载大小: 7085729003
  • 数据集大小: 7059876136

subset_110

  • 训练集字节数: 9229841208
  • 训练集样本数: 1471
  • 下载大小: 9262898789
  • 数据集大小: 9229841208

subset_111

  • 训练集字节数: 9385133176
  • 训练集样本数: 1450
  • 下载大小: 9418047633
  • 数据集大小: 9385133176

subset_112

  • 训练集字节数: 9493840990
  • 训练集样本数: 1478
  • 下载大小: 9525582216
  • 数据集大小: 9493840990

subset_113

  • 训练集字节数: 9706904149
  • 训练集样本数: 1493
  • 下载大小: 9741249161
  • 数据集大小: 9706904149

subset_114

  • 训练集字节数: 9563013098
  • 训练集样本数: 1487
  • 下载大小: 9597350611
  • 数据集大小: 9563013098

subset_115

  • 训练集字节数: 9735858312
  • 训练集样本数: 1504
  • 下载大小: 9770239160
  • 数据集大小: 9735858312

subset_116

  • 训练集字节数: 10002930156
  • 训练集样本数: 1492
  • 下载大小: 10038446988
  • 数据集大小: 10002930156

subset_117

  • 训练集字节数: 9623888728
  • 训练集样本数: 1524
  • 下载大小: 9658530642
  • 数据集大小: 9623888728

subset_118

  • 训练集字节数: 9814472575
  • 训练集样本数: 1494
  • 下载大小: 9848825015
  • 数据集大小: 9814472575

subset_119

  • 训练集字节数: 9737465938
  • 训练集样本数: 1524
  • 下载大小: 9770633676
  • 数据集大小: 9737465938

subset_12

  • 训练集字节数: 6654933967
  • 训练集样本数: 1109
  • 下载大小: 6679320781
  • 数据集大小: 6654933967

subset_120

  • 训练集字节数: 9725133610
  • 训练集样本数: 1530
  • 下载大小: 9759744099
  • 数据集大小: 9725133610

subset_121

  • 训练集字节数: 9807752743
  • 训练集样本数: 1539
  • 下载大小: 9842394283
  • 数据集大小: 9807752743

subset_122

  • 训练集字节数: 10160148335
  • 训练集样本数: 1535
  • 下载大小: 10195448487
  • 数据集大小: 10160148335

subset_123

  • 训练集字节数: 9612845669
  • 训练集样本数: 1510
  • 下载大小: 9647308805
  • 数据集大小: 9612845669

subset_124

  • 训练集字节数: 9783575920
  • 训练集样本数: 1503
  • 下载大小: 9817979503
  • 数据集大小: 9783575920

subset_125

  • 训练集字节数: 9937878067
  • 训练集样本数: 1500
  • 下载大小: 9970948531
  • 数据集大小: 9937878067

subset_126

  • 训练集字节数: 10063911799
  • 训练集样本数: 1509
  • 下载大小: 10099441054
  • 数据集大小: 10063911799
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作