five

asahi417/seamless-align-enA-zhA.speaker-embedding.xlsr-2b

收藏
Hugging Face2024-06-17 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/asahi417/seamless-align-enA-zhA.speaker-embedding.xlsr-2b
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多个子集,每个子集包含与英语和汉语音频数据相关的特征。特征包括行号、ID、LASER分数以及英语和汉语音频的说话者嵌入。每个子集都有一个“train”分割,具有特定的字节大小和示例数量。该数据集的结构支持涉及双语音频数据分析的任务,例如语音识别、说话者识别或跨语言比较。

The dataset contains multiple subsets, each with features related to English and Chinese audio data. The features include line numbers, IDs, LASER scores, and speaker embeddings for both English and Chinese audio. Each subset has a train split with specific byte sizes and example counts. The dataset is structured to support tasks involving bilingual audio data analysis, such as speech recognition, speaker identification, or cross-lingual comparison.
提供机构:
asahi417
原始信息汇总

数据集概述

数据集配置

子集 subset_1

  • 特征:
    • line_no: 整数类型
    • enA.id: 字符串类型
    • enA.laser_score: 浮点数类型
    • zhA.id: 字符串类型
    • zhA.laser_score: 浮点数类型
    • enA.audio.speaker_embedding: 浮点数序列
    • enA.audio.speaker_embedding.full: 嵌套浮点数序列
    • zhA.audio.speaker_embedding: 浮点数序列
    • zhA.audio.speaker_embedding.full: 嵌套浮点数序列
  • 分割:
    • train:
      • 字节数: 14209259131
      • 样本数: 1962
  • 下载大小: 14256120203
  • 数据集大小: 14209259131

子集 subset_10

  • 特征:
    • line_no: 整数类型
    • enA.id: 字符串类型
    • enA.laser_score: 浮点数类型
    • zhA.id: 字符串类型
    • zhA.laser_score: 浮点数类型
    • enA.audio.speaker_embedding: 浮点数序列
    • enA.audio.speaker_embedding.full: 嵌套浮点数序列
    • zhA.audio.speaker_embedding: 浮点数序列
    • zhA.audio.speaker_embedding.full: 嵌套浮点数序列
  • 分割:
    • train:
      • 字节数: 13574781625
      • 样本数: 2031
  • 下载大小: 13621966757
  • 数据集大小: 13574781625

子集 subset_100

  • 特征:
    • line_no: 整数类型
    • enA.id: 字符串类型
    • enA.laser_score: 浮点数类型
    • zhA.id: 字符串类型
    • zhA.laser_score: 浮点数类型
    • zhA.audio.speaker_embedding: 浮点数序列
    • zhA.audio.speaker_embedding.full: 嵌套浮点数序列
    • enA.audio.speaker_embedding: 浮点数序列
    • enA.audio.speaker_embedding.full: 嵌套浮点数序列
  • 分割:
    • train:
      • 字节数: 13223964877
      • 样本数: 1891
  • 下载大小: 13269307182
  • 数据集大小: 13223964877

子集 subset_101

  • 特征:
    • line_no: 整数类型
    • enA.id: 字符串类型
    • enA.laser_score: 浮点数类型
    • zhA.id: 字符串类型
    • zhA.laser_score: 浮点数类型
    • enA.audio.speaker_embedding: 浮点数序列
    • enA.audio.speaker_embedding.full: 嵌套浮点数序列
    • zhA.audio.speaker_embedding: 浮点数序列
    • zhA.audio.speaker_embedding.full: 嵌套浮点数序列
  • 分割:
    • train:
      • 字节数: 13038203739
      • 样本数: 1885
  • 下载大小: 13083404216
  • 数据集大小: 13038203739

子集 subset_102

  • 特征:
    • line_no: 整数类型
    • enA.id: 字符串类型
    • enA.laser_score: 浮点数类型
    • zhA.id: 字符串类型
    • zhA.laser_score: 浮点数类型
    • zhA.audio.speaker_embedding: 浮点数序列
    • zhA.audio.speaker_embedding.full: 嵌套浮点数序列
    • enA.audio.speaker_embedding: 浮点数序列
    • enA.audio.speaker_embedding.full: 嵌套浮点数序列
  • 分割:
    • train:
      • 字节数: 12731679458
      • 样本数: 1863
  • 下载大小: 12775688644
  • 数据集大小: 12731679458

子集 subset_103

  • 特征:
    • line_no: 整数类型
    • enA.id: 字符串类型
    • enA.laser_score: 浮点数类型
    • zhA.id: 字符串类型
    • zhA.laser_score: 浮点数类型
    • zhA.audio.speaker_embedding: 浮点数序列
    • zhA.audio.speaker_embedding.full: 嵌套浮点数序列
    • enA.audio.speaker_embedding: 浮点数序列
    • enA.audio.speaker_embedding.full: 嵌套浮点数序列
  • 分割:
    • train:
      • 字节数: 12967209285
      • 样本数: 1861
  • 下载大小: 13011071076
  • 数据集大小: 12967209285

子集 subset_104

  • 特征:
    • line_no: 整数类型
    • enA.id: 字符串类型
    • enA.laser_score: 浮点数类型
    • zhA.id: 字符串类型
    • zhA.laser_score: 浮点数类型
    • zhA.audio.speaker_embedding: 浮点数序列
    • zhA.audio.speaker_embedding.full: 嵌套浮点数序列
    • enA.audio.speaker_embedding: 浮点数序列
    • enA.audio.speaker_embedding.full: 嵌套浮点数序列
  • 分割:
    • train:
      • 字节数: 12798692606
      • 样本数: 1875
  • 下载大小: 12842795816
  • 数据集大小: 12798692606

子集 subset_105

  • 特征:
    • line_no: 整数类型
    • enA.id: 字符串类型
    • enA.laser_score: 浮点数类型
    • zhA.id: 字符串类型
    • zhA.laser_score: 浮点数类型
    • enA.audio.speaker_embedding: 浮点数序列
    • enA.audio.speaker_embedding.full: 嵌套浮点数序列
    • zhA.audio.speaker_embedding: 浮点数序列
    • zhA.audio.speaker_embedding.full: 嵌套浮点数序列
  • 分割:
    • train:
      • 字节数: 13127114114
      • 样本数: 1871
  • 下载大小: 13172271401
  • 数据集大小: 13127114114

子集 subset_106

  • 特征:
    • line_no: 整数类型
    • enA.id: 字符串类型
    • enA.laser_score: 浮点数类型
    • zhA.id: 字符串类型
    • zhA.laser_score: 浮点数类型
    • zhA.audio.speaker_embedding: 浮点数序列
    • zhA.audio.speaker_embedding.full: 嵌套浮点数序列
    • enA.audio.speaker_embedding: 浮点数序列
    • enA.audio.speaker_embedding.full: 嵌套浮点数序列
  • 分割:
    • train:
      • 字节数: 12426801586
      • 样本数: 1865
  • 下载大小: 12469421998
  • 数据集大小: 12426801586

子集 subset_107

  • 特征:
    • line_no: 整数类型
    • enA.id: 字符串类型
    • enA.laser_score: 浮点数类型
    • zhA.id: 字符串类型
    • zhA.laser_score: 浮点数类型
    • enA.audio.speaker_embedding: 浮点数序列
    • enA.audio.speaker_embedding.full: 嵌套浮点数序列
    • zhA.audio.speaker_embedding: 浮点数序列
    • zhA.audio.speaker_embedding.full: 嵌套浮点数序列
  • 分割:
    • train:
      • 字节数: 12484775174
      • 样本数: 1838
  • 下载大小: 12527398592
  • 数据集大小: 12484775174

子集 subset_108

  • 特征:
    • line_no: 整数类型
    • enA.id: 字符串类型
    • enA.laser_score: 浮点数类型
    • zhA.id: 字符串类型
    • zhA.laser_score: 浮点数类型
    • enA.audio.speaker_embedding: 浮点数序列
    • enA.audio.speaker_embedding.full: 嵌套浮点数序列
    • zhA.audio.speaker_embedding: 浮点数序列
    • zhA.audio.speaker_embedding.full: 嵌套浮点数序列
  • 分割:
    • train:
      • 字节数: 13018346253
      • 样本数: 1860
  • 下载大小: 13063301347
  • 数据集大小: 13018346253

子集 subset_109

  • 特征:
    • line_no: 整数类型
    • enA.id: 字符串类型
    • enA.laser_score: 浮点数类型
    • zhA.id: 字符串类型
    • zhA.laser_score: 浮点数类型
    • enA.audio.speaker_embedding: 浮点数序列
    • enA.audio.speaker_embedding.full: 嵌套浮点数序列
    • zhA.audio.speaker_embedding: 浮点数序列
    • zhA.audio.speaker_embedding.full: 嵌套浮点数序列
  • 分割:
    • train:
      • 字节数: 12986696298
      • 样本数: 1866
  • 下载大小: 13030608940
  • 数据集大小: 12986696298

子集 subset_11

  • 特征:
    • line_no: 整数类型
    • enA.id: 字符串类型
    • enA.laser_score: 浮点数类型
    • zhA.id: 字符串类型
    • zhA.laser_score: 浮点数类型
    • enA.audio.speaker_embedding: 浮点数序列
    • enA.audio.speaker_embedding.full: 嵌套浮点数序列
    • zhA.audio.speaker_embedding: 浮点数序列
    • zhA.audio.speaker_embedding.full: 嵌套浮点数序列
  • 分割:
    • train:
      • 字节数: 13038519979
      • 样本数: 1994
  • 下载大小: 13084550040
  • 数据集大小: 13038519979

子集 subset_110

  • 特征:
    • line_no: 整数类型
    • enA.id: 字符串类型
    • enA.laser_score: 浮点数类型
    • zhA.id: 字符串类型
    • zhA.laser_score: 浮点数类型
    • zhA.audio.speaker_embedding: 浮点数序列
    • zhA.audio.speaker_embedding.full: 嵌套浮点数序列
    • enA.audio.speaker_embedding: 浮点数序列
    • enA.audio.speaker_embedding.full: 嵌套浮点数序列
  • 分割:
    • train:
      • 字节数: 12537003686
      • 样本数: 1843
  • 下载大小: 12580875152
  • 数据集大小: 12537003686

子集 subset_111

  • 特征:
    • line_no: 整数类型
    • enA.id: 字符串类型
    • enA.laser_score: 浮点数类型
    • zhA.id: 字符串类型
    • zhA.laser_score: 浮点数类型
    • zhA.audio.speaker_embedding: 浮点数序列
    • zhA.audio.speaker_embedding.full: 嵌套浮点数序列
    • enA.audio.speaker_embedding: 浮点数序列
    • enA.audio.speaker_embedding.full: 嵌套浮点数序列
  • 分割:
    • train:
      • 字节数: 12920543044
      • 样本数: 1845
  • 下载大小: 12964231904
  • 数据集大小: 12920543044

子集 subset_112

  • 特征:
    • line_no: 整数类型
    • enA.id: 字符串类型
    • enA.laser_score: 浮点数类型
    • zhA.id: 字符串类型
    • zhA.laser_score: 浮点数类型
    • enA.audio.speaker_embedding: 浮点数序列
    • enA.audio.speaker_embedding.full: 嵌套浮点数序列
    • zhA.audio.speaker_embedding: 浮点数序列
    • zhA.audio.speaker_embedding.full: 嵌套浮点数序列
  • 分割:
    • train:
      • 字节数: 12666264009
      • 样本数: 1844
  • 下载大小: 12709732284
  • 数据集大小: 12666264009

子集 subset_113

  • 特征:
    • line_no: 整数类型
    • enA.id: 字符串类型
    • `enA.l
搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作