five

ky552/cszs_es_en

收藏
Hugging Face2024-05-24 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/ky552/cszs_es_en
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含ICASSP 2024基准测试中的西班牙语-英语轨道,旨在评估语音基础模型的语义和句法能力。数据集包含正确和错误的音频文件及其转录文本,适用于代码切换自动语音识别(ASR)任务。数据集分为训练集、开发集和测试集,分别包含129220、13866和13740个样本。数据集的下载大小为36453700196字节,总大小为36997427789.215996字节。数据集的语言为英语和西班牙语,许可证为MIT。

该数据集包含ICASSP 2024基准测试中的西班牙语-英语轨道,旨在评估语音基础模型的语义和句法能力。数据集包含正确和错误的音频文件及其转录文本,适用于代码切换自动语音识别(ASR)任务。数据集分为训练集、开发集和测试集,分别包含129220、13866和13740个样本。数据集的下载大小为36453700196字节,总大小为36997427789.215996字节。数据集的语言为英语和西班牙语,许可证为MIT。
提供机构:
ky552
原始信息汇总

数据集概述

数据特征

  • correct_audio: 音频数据类型
  • correct_transcription: 字符串类型
  • correct_file: 字符串类型
  • wrong_audio: 音频数据类型
  • wrong_transcription: 字符串类型
  • wrong_file: 字符串类型

数据分割

  • train:
    • 字节数: 30462716413.44
    • 样本数: 129220
  • dev:
    • 字节数: 3325102230.576
    • 样本数: 13866
  • test:
    • 字节数: 3209609145.2
    • 样本数: 13740

数据大小

  • 下载大小: 36453700196
  • 数据集大小: 36997427789.215996

配置

  • config_name: default
    • data_files:
      • train: data/train-*
      • dev: data/dev-*
      • test: data/test-*

许可

  • license: MIT

语言

  • language:
    • en
    • es
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作