ASER Dataset

github2024-03-30 更新2024-05-31 收录

下载链接：

https://github.com/PrathamOrg/ASER-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

为了促进印度自动化阅读评估的深度学习研究，我们提供了一个包含6-14岁儿童的数据集。该数据集通过定制的移动应用生成，包括标记的音频片段，内容为儿童朗读不同级别的印地语、马拉地语和英语文本。标签代表了专家对儿童是否符合特定阅读水平的意见。此数据集支持语音和语言处理、印度语言的语音转录、韵律、节奏、重音、音调、速度和儿童阅读风格的研究。

To advance deep learning research in automated reading assessment in India, we have provided a dataset comprising children aged 6-14. This dataset was generated through a custom mobile application and includes labeled audio clips of children reading texts in Hindi, Marathi, and English at various levels. The labels represent expert opinions on whether the children meet specific reading standards. This dataset supports research in speech and language processing, speech transcription for Indian languages, prosody, rhythm, stress, intonation, speed, and children's reading styles.

创建时间：

2019-10-16

原始信息汇总

数据集概述

数据集名称

ASER Dataset

数据集目的

用于促进印度自动化阅读评估的深度学习研究。
旨在公开此数据集以激发创新，并生成评估阅读水平的新解决方案。

数据集内容

包含5301个样本，每个样本包括音频文件及其对应的JSON文件。
音频文件为儿童朗读不同级别文本的录音，文本语言包括Hindi, Marathi和English。
JSON文件记录了专家对儿童是否达到指定阅读水平的评估。

数据集结构

问题样本集描述
- 针对每种语言（Hindi和Marathi），有4个问题样本集，每个样本集包含2个部分：阅读和英语工具。
- 每个样本的问题ID格式为language_SampleNo_level_count。
- 阅读水平符号包括：ST（故事）、P（段落）、WD（单词）、L（字母）。
- 英语水平符号包括：CL（大写字母）、SL（小写字母）、W（单词）、S（句子）。
JSON文件描述
- JSON文件记录了学生的阅读熟练度，由测试者根据儿童在测试中的表现标记。
- 熟练度分为母语和英语两种。
- 母语阅读水平分为5级：初学者、字母级、单词级、段落级、故事级。
- 英语水平分为5级：大写字母、小写字母、单词、句子。
- JSON对象中的sequenceList是一个JSON数组，包含学生按顺序尝试的所有问题。
- sequenceList中的字段包括：isCorrect（是否正确）、noOfMistakes（错误数量）、recordingName（录音文件名）。

数据集许可

根据Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License授权。

搜集汇总

数据集介绍

构建方式

ASER数据集旨在推动印度儿童阅读水平自动评估的深度学习研究，其构建过程依托于一款定制移动应用。该应用采集了6至14岁儿童阅读印地语、马拉地语和英语文本的音频片段，并由专家根据儿童的阅读表现进行标注。数据集共包含5301个样本，每个样本由音频文件及其对应的JSON文件组成，JSON文件记录了测试过程中儿童的阅读表现和错误数量。

使用方法

使用ASER数据集时，研究人员可通过分析音频文件和对应的JSON文件，了解儿童在不同阅读水平下的表现。JSON文件中的`sequenceList`字段记录了儿童在测试中尝试的每个问题及其正确性、错误数量和录音文件名。通过这些数据，研究人员可以构建模型，自动评估儿童的阅读水平，并探索语音和语言处理、印度语言的语音识别、韵律分析等领域的新方法。

背景与挑战

背景概述

ASER数据集由印度非政府组织Pratham于2020年发布，旨在通过深度学习技术自动化评估印度儿童的阅读水平。该数据集涵盖了6至14岁儿童的阅读能力测试，包括印地语、马拉地语和英语的音频样本。数据集的核心研究问题在于如何通过语音和语言处理技术，特别是自动语音识别（ASR）和韵律分析，来评估儿童的阅读能力。ASER数据集的发布不仅推动了印度本土语言处理技术的发展，还为教育技术领域提供了重要的研究资源，特别是在大规模评估儿童阅读能力方面。

当前挑战

ASER数据集在解决儿童阅读能力评估问题时面临多重挑战。首先，印度本土语言的多样性和复杂性使得语音识别和文本处理技术难以统一应用。其次，儿童在阅读时的发音、语调和节奏变化较大，增加了数据标注和模型训练的难度。在数据集构建过程中，研究人员还需克服数据采集的标准化问题，确保不同地区、不同背景的儿童数据具有可比性。此外，如何将专家的评估标准转化为可量化的机器学习模型，也是该数据集面临的重要技术挑战。

常用场景

经典使用场景

ASER数据集在语音和语言处理领域具有广泛的应用，特别是在自动评估儿童阅读水平的场景中。该数据集通过收集印度农村6至14岁儿童阅读不同难度文本的音频片段，结合专家标注的阅读水平标签，为研究人员提供了丰富的实验材料。经典的使用场景包括开发自动语音识别（ASR）系统、语音合成（TTS）技术以及自然语言处理（NLP）模型，尤其是针对印度语言（如印地语和马拉地语）的语音处理任务。

解决学术问题

ASER数据集解决了在教育技术领域中自动化评估儿童阅读能力的学术研究问题。传统的人工评估方法耗时且成本高昂，而该数据集通过提供大量标注的音频数据，为开发基于深度学习的自动化评估工具奠定了基础。这不仅提高了评估效率，还为研究儿童语音特征、阅读节奏、语调等提供了数据支持，推动了语音处理技术在教育领域的应用。

实际应用

在实际应用中，ASER数据集被广泛用于开发智能教育工具，例如自动阅读评估系统和个性化学习平台。这些工具能够根据儿童的阅读表现实时反馈其阅读水平，帮助教师和家长更好地了解学生的学习进展。此外，该数据集还为开发多语言语音识别系统提供了重要资源，特别是在印度多语言环境中，为提升教育公平性和可及性做出了贡献。

数据集最近研究