AR-AES

Name: AR-AES
Creator: 乌姆·阿尔库拉大学
Published: 2024-07-16 03:55:37
License: 暂无描述

arXiv2024-07-16 更新2024-07-18 收录

下载链接：

https://osf.io/dp2nh/?view_only=4ac6373c60214ea6952855f81507fec7

下载链接

链接失效反馈

官方服务：

资源简介：

AR-AES数据集由乌姆·阿尔库拉大学创建，包含2046篇阿拉伯语本科生论文，涵盖性别信息、评分及基于评分标准的评估指南。数据集涉及四个不同课程，包括传统和在线考试形式，总Token数为115,454，独特Token数为12,440。该数据集的创建旨在解决阿拉伯语自动作文评分研究中数据集缺乏的问题，特别是在使用AraBERT等预训练模型进行评分时。数据集的应用领域主要是在教育领域，帮助提高评分效率和一致性。

提供机构：

乌姆·阿尔库拉大学

创建时间：

2024-07-16

原始信息汇总

数据集概述

标题

OSF | Automated Essay Scoring in Arabic: A Dataset and Analysis of a BERT-based System

描述

该数据集用于阿拉伯语作文自动评分，包含一个基于BERT的系统的数据和分析。

关键信息

语言: 阿拉伯语
应用领域: 自动作文评分
技术: 基于BERT的系统

内容

数据集提供了用于阿拉伯语作文自动评分的数据，并分析了基于BERT的系统的性能。

搜集汇总

数据集介绍

构建方式

AR-AES数据集的构建采用了收集来自不同学科、不同性别的本科生的阿拉伯语论文，并确保了论文的多样性。数据集包含了2046篇论文，涵盖了各种话题和写作风格，并通过传统的面对面考试和在线考试收集。此外，数据集中还包含了学生的性别信息、评分以及透明的评分标准，以提供对评分过程的全面了解。为了确保数据集的质量，研究人员还进行了严格的标注和质量控制，确保了标注的准确性和一致性。

特点

AR-AES数据集的特点在于其全面性和多样性。数据集包含了来自不同学科、不同性别的本科生的阿拉伯语论文，涵盖了各种话题和写作风格，并通过传统的面对面考试和在线考试收集。此外，数据集中还包含了学生的性别信息、评分以及透明的评分标准，以提供对评分过程的全面了解。数据集的全面性和多样性使得研究人员能够探索AES系统对不同类型的论文、考试类型或学生群体的适用性。

使用方法

使用AR-AES数据集的方法包括训练和评估阿拉伯语AES系统。数据集包含了2046篇论文，涵盖了各种话题和写作风格，并通过传统的面对面考试和在线考试收集。此外，数据集中还包含了学生的性别信息、评分以及透明的评分标准，以提供对评分过程的全面了解。研究人员可以使用这些数据来训练和评估他们的AES模型，以测试模型在不同情况下的性能。此外，数据集中的标注和评分标准还可以帮助研究人员更好地理解评分过程，从而改进他们的AES系统。

背景与挑战

背景概述

自动化作文评分（AES）在教育领域具有重大意义，它可以帮助教育工作者批改大量作文并提供及时反馈。然而，由于缺乏公开可用的阿拉伯语作文数据，阿拉伯语AES研究一直受到限制。本研究介绍了AR-AES，这是一个阿拉伯语AES基准数据集，包含2046篇本科作文，包括性别信息、分数和透明的基于评分标准的评估指南，为评分过程提供了全面的洞察。这些作文来自四个不同的课程，涵盖传统和在线考试。此外，我们率先使用AraBERT进行AES，探索了其在不同问题类型上的性能。我们发现，特别是在环境化学和依赖来源的作文问题上，结果令人鼓舞。这是第一次检查基于BERT的AES系统的错误规模，发现96.15%的错误在1到5的评分范围内与第一个人类标记者的预测相差不到一个点，其中79.49%的预测完全匹配。相比之下，额外的标记者与第一个标记者的完全匹配率没有超过30%，62.9%在1个分数以内。这些发现突出了作文评分的主观性，并强调了当前AES技术帮助人类标记者在大型班级中保持一致评分的潜力。

当前挑战

AR-AES数据集的研究背景是阿拉伯语AES研究受限，因为缺乏公开可用的作文数据。AR-AES数据集的创建旨在解决这一挑战，它由2046篇本科作文组成，包括性别信息、分数和透明的基于评分标准的评估指南，为评分过程提供了全面的洞察。这些作文来自四个不同的课程，涵盖传统和在线考试。此外，我们率先使用AraBERT进行AES，探索了其在不同问题类型上的性能。然而，构建AR-AES数据集的过程中也遇到了一些挑战，包括数据收集的多样性和复杂性，以及确保数据质量和一致性的困难。

常用场景

经典使用场景

AR-AES数据集的创建旨在推动阿拉伯语自动作文评分(AES)领域的研究，其经典使用场景包括训练和评估基于阿拉伯语的AES系统。该数据集包含了2046篇本科生的作文，这些作文来自四个不同的课程，涵盖了传统和在线考试，并提供了性别信息、分数和透明的评分准则。研究者可以利用这些数据来训练和测试他们的AES模型，以评估模型在不同类型作文、考试类型和学生群体中的表现。

衍生相关工作

AR-AES数据集的创建衍生了许多相关的经典工作。例如，研究者使用AraBERT模型对AR-AES数据集进行了实验，发现AraBERT在环境化学和基于来源的作文问题上的表现尤为出色。此外，研究者还评估了基于BERT的AES系统的错误规模，发现96.15%的错误在一个评分点以内，79.49%的预测与第一个人类评分者的预测完全匹配。这些发现突出了作文评分的主观性，并强调了当前AES技术在协助人类评分者在大规模班级中保持一致性的潜力。

数据集最近研究