five

PrathamOrgAI/ReadNet

收藏
Hugging Face2024-05-07 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/PrathamOrgAI/ReadNet
下载链接
链接失效反馈
官方服务:
资源简介:
ReadNet是一个音频数据集,收集了超过20万名5-16岁儿童的印地语和马拉地语朗读音频。数据集包含wav格式的音频文件,儿童朗读了其母语中的字母、单词、故事和段落。该数据集是更大数据集的一个子集,估计包含2500小时的音频数据,而本数据集包含约87小时的印地语和马拉地语音频数据。

ReadNet是一个音频数据集,收集了超过20万名5-16岁儿童的印地语和马拉地语朗读音频。数据集包含wav格式的音频文件,儿童朗读了其母语中的字母、单词、故事和段落。该数据集是更大数据集的一个子集,估计包含2500小时的音频数据,而本数据集包含约87小时的印地语和马拉地语音频数据。
提供机构:
PrathamOrgAI
原始信息汇总

ReadNet Dataset Summary

基本信息

  • 许可证: CC-BY-NC-4.0
  • 任务类别: 自动语音识别
  • 语言: 印地语, 马拉地语

数据集描述

  • 数据集大小: 约87小时音频数据
  • 数据来源: 超过200,000名5-16岁儿童的阅读录音
  • 数据内容: 儿童朗读的字母、单词、故事和段落
  • 文件格式: wav格式
  • 样本来源: ASER样本

数据字段

  • URL: 音频文件的下载链接
  • Transcribed Text: 音频文件的转录文本

注释信息

  • 注释过程: 由ASER团队专家进行,通过内部开发的注释门户进行培训和质量控制
  • 注释重复性: 部分数据进行两次注释,其余一次

社会影响

  • 目的: 开发用于评估儿童阅读水平的定制语音识别模型
  • 应用: 帮助开发自动化工具以评估印地语和马拉地语儿童的阅读能力

许可信息

  • 许可证: 公共领域, 创意共享署名非商业4.0国际公共许可证

致谢

  • 资助者: Schmidt Futures, Sarva Mangal Family trust
  • 贡献者: Dr. Wilma Wadhwa, Anil Kumar Kamath, Rajarshi Singh, Uday Narayan Singh, Dolly Agarwal及Pratham Education Foundation技术团队
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作