PrathamOrgAI/ReadNet
收藏Hugging Face2024-05-07 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/PrathamOrgAI/ReadNet
下载链接
链接失效反馈官方服务:
资源简介:
ReadNet是一个音频数据集,收集了超过20万名5-16岁儿童的印地语和马拉地语朗读音频。数据集包含wav格式的音频文件,儿童朗读了其母语中的字母、单词、故事和段落。该数据集是更大数据集的一个子集,估计包含2500小时的音频数据,而本数据集包含约87小时的印地语和马拉地语音频数据。
ReadNet是一个音频数据集,收集了超过20万名5-16岁儿童的印地语和马拉地语朗读音频。数据集包含wav格式的音频文件,儿童朗读了其母语中的字母、单词、故事和段落。该数据集是更大数据集的一个子集,估计包含2500小时的音频数据,而本数据集包含约87小时的印地语和马拉地语音频数据。
提供机构:
PrathamOrgAI
原始信息汇总
ReadNet Dataset Summary
基本信息
- 许可证: CC-BY-NC-4.0
- 任务类别: 自动语音识别
- 语言: 印地语, 马拉地语
数据集描述
- 数据集大小: 约87小时音频数据
- 数据来源: 超过200,000名5-16岁儿童的阅读录音
- 数据内容: 儿童朗读的字母、单词、故事和段落
- 文件格式: wav格式
- 样本来源: ASER样本
数据字段
- URL: 音频文件的下载链接
- Transcribed Text: 音频文件的转录文本
注释信息
- 注释过程: 由ASER团队专家进行,通过内部开发的注释门户进行培训和质量控制
- 注释重复性: 部分数据进行两次注释,其余一次
社会影响
- 目的: 开发用于评估儿童阅读水平的定制语音识别模型
- 应用: 帮助开发自动化工具以评估印地语和马拉地语儿童的阅读能力
许可信息
- 许可证: 公共领域, 创意共享署名非商业4.0国际公共许可证
致谢
- 资助者: Schmidt Futures, Sarva Mangal Family trust
- 贡献者: Dr. Wilma Wadhwa, Anil Kumar Kamath, Rajarshi Singh, Uday Narayan Singh, Dolly Agarwal及Pratham Education Foundation技术团队



