Prajwal-143/ASR-Tamil-cleaned
收藏Hugging Face2024-04-11 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/Prajwal-143/ASR-Tamil-cleaned
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是Common Voice 16.0和Open SLR数据集的结合,总计534小时的语音数据。数据集经过精心整理,标准化为16kHz采样率,并进行了清理以提高可用性。该数据集旨在为语音识别、自然语言处理和机器学习研究提供一个全面的语音数据集合。数据集的结构包括音频文件路径、音频数据和对应的泰米尔语转录文本。数据集的创建过程涉及音频数据的转换、多样化的数据来源以及数据清理工作。数据集的来源包括Mozilla的Common Voice和Open SLR。
该数据集是Common Voice 16.0和Open SLR数据集的结合,总计534小时的语音数据。数据集经过精心整理,标准化为16kHz采样率,并进行了清理以提高可用性。该数据集旨在为语音识别、自然语言处理和机器学习研究提供一个全面的语音数据集合。数据集的结构包括音频文件路径、音频数据和对应的泰米尔语转录文本。数据集的创建过程涉及音频数据的转换、多样化的数据来源以及数据清理工作。数据集的来源包括Mozilla的Common Voice和Open SLR。
提供机构:
Prajwal-143
原始信息汇总
数据集概述
基本信息
- 语言:泰米尔语(Tamil)
- 大小:100K<n<1M
- 任务类别:自动语音识别
- 美观名称:语音转文字(已清理)
数据集特征
- path:字符串类型,音频文件名
- sentence:字符串类型,音频文件的泰米尔语转录
- audio:音频特征,包括采样率16000
数据集分割
- 训练集:224581个样本,总字节数7336930447.304
- 验证集:56146个样本,总字节数1796570819.462
- 测试集:31192个样本,总字节数1030720788.984
数据集大小
- 下载大小:10119221124字节
- 数据集大小:10164222055.749998字节
数据集结构
- path:音频文件名,转换为数组
- audio:包含路径、数组和采样率的音频字典
- sentence:音频文件的泰米尔语转录
数据集来源
- Common Voice:Mozilla收集的大规模公开可用语音数据集,由全球志愿者贡献
- Open SLR:通过Open Speech and Language Resources收集和共享的各种开放语音和语言资源
数据集创建
- 数据收集和处理:所有音频样本已标准化至16kHz采样率,确保数据集的一致性和高质量
- 清理数据:进行了大量数据清理工作,移除了噪音、标点、重复和无关元数据,以提高数据集的可用性和准确性
数据集作者
- Prajwal N. Pharande
联系信息
- 邮箱:pharandeprajwal@gmail.com



