Prajwal-143/ASR-Tamil-cleaned

Name: Prajwal-143/ASR-Tamil-cleaned
Creator: Prajwal-143
Published: 2024-04-11 06:02:30
License: 暂无描述

Hugging Face2024-04-11 更新2024-06-11 收录

下载链接：

https://hf-mirror.com/datasets/Prajwal-143/ASR-Tamil-cleaned

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是Common Voice 16.0和Open SLR数据集的结合，总计534小时的语音数据。数据集经过精心整理，标准化为16kHz采样率，并进行了清理以提高可用性。该数据集旨在为语音识别、自然语言处理和机器学习研究提供一个全面的语音数据集合。数据集的结构包括音频文件路径、音频数据和对应的泰米尔语转录文本。数据集的创建过程涉及音频数据的转换、多样化的数据来源以及数据清理工作。数据集的来源包括Mozilla的Common Voice和Open SLR。

提供机构：

Prajwal-143

原始信息汇总

数据集概述

基本信息

语言：泰米尔语（Tamil）
大小：100K<n<1M
任务类别：自动语音识别
美观名称：语音转文字（已清理）

数据集特征

path：字符串类型，音频文件名
sentence：字符串类型，音频文件的泰米尔语转录
audio：音频特征，包括采样率16000

数据集分割

训练集：224581个样本，总字节数7336930447.304
验证集：56146个样本，总字节数1796570819.462
测试集：31192个样本，总字节数1030720788.984

数据集大小

下载大小：10119221124字节
数据集大小：10164222055.749998字节

数据集结构

path：音频文件名，转换为数组
audio：包含路径、数组和采样率的音频字典
sentence：音频文件的泰米尔语转录

数据集来源

Common Voice：Mozilla收集的大规模公开可用语音数据集，由全球志愿者贡献
Open SLR：通过Open Speech and Language Resources收集和共享的各种开放语音和语言资源

数据集创建

数据收集和处理：所有音频样本已标准化至16kHz采样率，确保数据集的一致性和高质量
清理数据：进行了大量数据清理工作，移除了噪音、标点、重复和无关元数据，以提高数据集的可用性和准确性

数据集作者

Prajwal N. Pharande

联系信息

邮箱：pharandeprajwal@gmail.com

5,000+

优质数据集

54 个

任务类型

进入经典数据集