Essay-BR
收藏github2023-05-08 更新2024-05-31 收录
下载链接:
https://github.com/lplnufpi/essay-br
下载链接
链接失效反馈官方服务:
资源简介:
Essay-BR是一个巴西语料库,用于自动论文评分任务。它包含了由巴西高中学生撰写的论文,这些论文已按照ENEM考试标准由专业人士进行了评分。
Essay-BR is a Brazilian corpus designed for the task of automated essay scoring. It comprises essays written by Brazilian high school students, which have been professionally graded according to the standards of the ENEM exam.
创建时间:
2021-11-18
原始信息汇总
数据集概述
数据集名称
- Extended Essay-BR
数据集内容
- 包含巴西高中学生撰写的论文。
- 论文由专业人员按照ENEM考试标准进行评分。
数据集用途
- 用于自动论文评分任务。
数据集引用信息
- 作者:Jeziel Marinho, Rafael Anchiêta, Raimundo Moura
- 标题:Essay-BR: a Brazilian Corpus to Automatic Essay Scoring Task
- 期刊:Journal of Information and Data Management
- 年份:2022
- 卷号:13
- 期号:1
- 页码:65--76
- 出版商:Sociedade Brasileira de Computação
- DOI:10.5753/jidm.2022.2340
- URL:链接
搜集汇总
数据集介绍

构建方式
Essay-BR数据集的构建基于巴西高中学生撰写的作文,这些作文由专业评分人员根据巴西国家中等教育考试(ENEM)的标准进行评分。数据集的扩展版本在原版基础上进行了进一步的整理和优化,确保了数据的多样性和代表性。通过这一过程,数据集不仅涵盖了广泛的作文主题,还反映了学生在不同写作任务中的表现。
特点
Essay-BR数据集的特点在于其丰富的作文内容和详细的评分信息。每篇作文都附有多个评分维度,如内容、结构和语言表达等,这些评分维度为研究者提供了多维度的分析视角。此外,数据集还包含了作文的标题、提示词以及最终的得分,使得研究者能够深入探讨作文质量与评分标准之间的关系。
使用方法
使用Essay-BR数据集时,研究者可以通过Python脚本轻松加载数据。数据集被划分为训练集、验证集和测试集,便于进行模型训练和评估。通过调用`Corpus`类的`read_splits`方法,用户可以获取这些数据集,并利用`head`方法快速查看数据的前几行。这种设计使得数据集的加载和使用变得极为便捷,适合用于自动作文评分系统的开发和测试。
背景与挑战
背景概述
Essay-BR数据集由Jeziel Marinho、Rafael Anchiêta和Raimundo Moura等研究人员于2022年创建,旨在为巴西高中生的作文自动评分任务提供支持。该数据集基于巴西国家中等教育考试(ENEM)的评分标准,由专业评分员对作文进行人工评分。数据集中的作文涵盖了多种主题,反映了学生在不同领域的写作能力。该数据集的发布为自然语言处理领域,特别是自动作文评分系统的研究提供了重要的数据资源,推动了相关算法的发展与优化。
当前挑战
Essay-BR数据集在解决自动作文评分问题时面临多重挑战。首先,作文评分具有高度主观性,评分标准涉及语言表达、逻辑结构、内容深度等多个维度,如何将这些主观标准转化为可量化的特征是一个复杂的问题。其次,数据集中作文的语言风格和主题多样性较高,这对模型的泛化能力提出了更高要求。此外,构建过程中需要确保评分的准确性和一致性,这对人工评分员的专业性和数据标注流程的严谨性提出了挑战。这些因素共同构成了该数据集在研究和应用中的主要难点。
常用场景
经典使用场景
Essay-BR数据集广泛应用于自动作文评分(AES)领域,特别是在巴西教育环境中。该数据集包含了由巴西高中生撰写的作文,这些作文根据ENEM考试的标准由专业人士进行评分。研究人员利用这些数据训练和评估自动评分模型,以提高评分的准确性和一致性。
衍生相关工作
基于Essay-BR数据集,研究人员已经开发了多种自动作文评分模型和算法。这些工作不仅推动了自动评分技术的发展,还为其他语言和文化背景下的作文评分研究提供了参考。例如,一些研究利用该数据集探索了跨语言评分的可能性,进一步扩展了自动评分技术的应用范围。
数据集最近研究
最新研究方向
在自然语言处理领域,Essay-BR数据集为自动作文评分(AES)任务提供了重要的研究基础。该数据集包含了巴西高中学生撰写的作文,并由专业人士根据ENEM考试标准进行评分。近年来,随着深度学习技术的快速发展,基于Essay-BR的研究方向主要集中在利用预训练语言模型(如BERT、GPT等)进行作文评分的自动化与优化。这些研究不仅提升了评分的准确性和一致性,还为教育领域的个性化学习与反馈提供了技术支持。此外,结合多模态数据(如文本与评分标准)的融合方法也成为研究热点,旨在进一步提高模型的泛化能力和解释性。Essay-BR的应用不仅推动了AES技术的发展,还为跨语言和文化背景下的教育评估提供了新的研究视角。
以上内容由遇见数据集搜集并总结生成



