ky552/cszs_es_en
收藏Hugging Face2024-05-24 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/ky552/cszs_es_en
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含ICASSP 2024基准测试中的西班牙语-英语轨道,旨在评估语音基础模型的语义和句法能力。数据集包含正确和错误的音频文件及其转录文本,适用于代码切换自动语音识别(ASR)任务。数据集分为训练集、开发集和测试集,分别包含129220、13866和13740个样本。数据集的下载大小为36453700196字节,总大小为36997427789.215996字节。数据集的语言为英语和西班牙语,许可证为MIT。
该数据集包含ICASSP 2024基准测试中的西班牙语-英语轨道,旨在评估语音基础模型的语义和句法能力。数据集包含正确和错误的音频文件及其转录文本,适用于代码切换自动语音识别(ASR)任务。数据集分为训练集、开发集和测试集,分别包含129220、13866和13740个样本。数据集的下载大小为36453700196字节,总大小为36997427789.215996字节。数据集的语言为英语和西班牙语,许可证为MIT。
提供机构:
ky552
原始信息汇总
数据集概述
数据特征
- correct_audio: 音频数据类型
- correct_transcription: 字符串类型
- correct_file: 字符串类型
- wrong_audio: 音频数据类型
- wrong_transcription: 字符串类型
- wrong_file: 字符串类型
数据分割
- train:
- 字节数: 30462716413.44
- 样本数: 129220
- dev:
- 字节数: 3325102230.576
- 样本数: 13866
- test:
- 字节数: 3209609145.2
- 样本数: 13740
数据大小
- 下载大小: 36453700196
- 数据集大小: 36997427789.215996
配置
- config_name: default
- data_files:
- train: data/train-*
- dev: data/dev-*
- test: data/test-*
- data_files:
许可
- license: MIT
语言
- language:
- en
- es



