five

Prajwal-143/ASR-Tamil-cleaned

收藏
Hugging Face2024-04-11 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/Prajwal-143/ASR-Tamil-cleaned
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是Common Voice 16.0和Open SLR数据集的结合,总计534小时的语音数据。数据集经过精心整理,标准化为16kHz采样率,并进行了清理以提高可用性。该数据集旨在为语音识别、自然语言处理和机器学习研究提供一个全面的语音数据集合。数据集的结构包括音频文件路径、音频数据和对应的泰米尔语转录文本。数据集的创建过程涉及音频数据的转换、多样化的数据来源以及数据清理工作。数据集的来源包括Mozilla的Common Voice和Open SLR。

该数据集是Common Voice 16.0和Open SLR数据集的结合,总计534小时的语音数据。数据集经过精心整理,标准化为16kHz采样率,并进行了清理以提高可用性。该数据集旨在为语音识别、自然语言处理和机器学习研究提供一个全面的语音数据集合。数据集的结构包括音频文件路径、音频数据和对应的泰米尔语转录文本。数据集的创建过程涉及音频数据的转换、多样化的数据来源以及数据清理工作。数据集的来源包括Mozilla的Common Voice和Open SLR。
提供机构:
Prajwal-143
原始信息汇总

数据集概述

基本信息

  • 语言:泰米尔语(Tamil)
  • 大小:100K<n<1M
  • 任务类别:自动语音识别
  • 美观名称:语音转文字(已清理)

数据集特征

  • path:字符串类型,音频文件名
  • sentence:字符串类型,音频文件的泰米尔语转录
  • audio:音频特征,包括采样率16000

数据集分割

  • 训练集:224581个样本,总字节数7336930447.304
  • 验证集:56146个样本,总字节数1796570819.462
  • 测试集:31192个样本,总字节数1030720788.984

数据集大小

  • 下载大小:10119221124字节
  • 数据集大小:10164222055.749998字节

数据集结构

  • path:音频文件名,转换为数组
  • audio:包含路径、数组和采样率的音频字典
  • sentence:音频文件的泰米尔语转录

数据集来源

  • Common Voice:Mozilla收集的大规模公开可用语音数据集,由全球志愿者贡献
  • Open SLR:通过Open Speech and Language Resources收集和共享的各种开放语音和语言资源

数据集创建

  • 数据收集和处理:所有音频样本已标准化至16kHz采样率,确保数据集的一致性和高质量
  • 清理数据:进行了大量数据清理工作,移除了噪音、标点、重复和无关元数据,以提高数据集的可用性和准确性

数据集作者

  • Prajwal N. Pharande

联系信息

  • 邮箱:pharandeprajwal@gmail.com
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作