five

ymoslem/CoVoST2-EN-AR

收藏
Hugging Face2024-07-18 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/ymoslem/CoVoST2-EN-AR
下载链接
链接失效反馈
官方服务:
资源简介:
CoVoST 2是一个基于Common Voice的大规模多语言语音翻译语料库,由FAIR开发。这是该数据集的英语到阿拉伯语部分。

CoVoST 2是一个基于Common Voice的大规模多语言语音翻译语料库,由FAIR开发。这是该数据集的英语到阿拉伯语部分。
提供机构:
ymoslem
原始信息汇总

数据集概述

数据集配置

  • config_name: ar-en

    • 特征(Features):
      • client_id: 数据类型 - 字符串
      • file: 数据类型 - 字符串
      • audio: 数据类型 - 音频,采样率为16000 Hz
      • sentence: 数据类型 - 字符串
      • translation: 数据类型 - 字符串
      • id: 数据类型 - 字符串
    • 数据分割(Splits):
      • train: 样本数 - 2283
      • test: 样本数 - 1758
      • validation: 样本数 - 1695
  • config_name: en-ar

    • 特征(Features):
      • client_id: 数据类型 - 字符串
      • file: 数据类型 - 字符串
      • audio: 数据类型 - 音频,采样率为16000 Hz
      • sentence: 数据类型 - 字符串
      • translation: 数据类型 - 字符串
      • id: 数据类型 - 字符串
    • 数据分割(Splits):
      • train: 样本数 - 289430
      • test: 样本数 - 15531
      • validation: 样本数 - 15531

数据文件配置

  • config_name: ar-en

    • 数据文件路径(Data Files Paths):
      • train: ar-en/train-*
      • validation: ar-en/validation-*
      • test: ar-en/test-*
  • config_name: en-ar

    • 数据文件路径(Data Files Paths):
      • train: en-ar/train-*
      • validation: en-ar/validation-*
      • test: en-ar/test-*

许可证

  • license: cc0-1.0

任务类别

  • task_categories:
    • 自动语音识别
    • 文本到语音

语言

  • language:
    • 阿拉伯语
    • 英语

数据集大小类别

  • size_categories: 100K<n<1M
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作