DREsS

arXiv2024-02-21 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2402.16733v1

下载链接

链接失效反馈

官方服务：

资源简介：

DREsS是一个大规模、标准化的基于评分标准的自动作文评分数据集，包含三个子数据集：DREsS_New、DREsS_Std.和DREsS_CASE。DREsS_New是一个真实的课堂数据集，包含1.7K篇由EFL本科生撰写的作文，并由英语教育专家评分。DREsS_Std.是对现有基于评分标准的作文评分数据集的标准化。DREsS_CASE通过一种基于错误的增强策略生成20K合成样本，提高了基准结果45.44%。

DREsS is a large-scale, standardized rubric-based automated essay scoring dataset that comprises three subsets: DREsS_New, DREsS_Std., and DREsS_CASE. DREsS_New is a real-world classroom dataset containing 1.7K essays written by EFL undergraduates, with scores annotated by English education experts. DREsS_Std. is a standardized version of existing rubric-based automated essay scoring datasets. DREsS_CASE generates 20K synthetic samples via an error-based augmentation strategy, achieving a 45.44% improvement over baseline performance.

创建时间：

2024-02-21

搜集汇总

数据集介绍

构建方式

在英语作为外语（EFL）写作教育领域，构建高质量的数据集对于开发可靠的自动作文评分系统至关重要。DREsS数据集的构建采用了多源整合与创新增强策略，其核心由三个子集构成：DREsSNew收集了1,782篇由EFL本科生撰写的议论文，并由英语教育专家依据内容、组织和语言三个维度进行精细评分，确保了数据的真实性与专业性；DREsSStd.则通过标准化处理，将现有基于量规的数据集（如ASAP Prompt 7-8、ASAP++ Prompt 1-2和ICNALE EE）统一至相同量规体系，实现了数据的一致性与可扩展性；DREsSCASE则引入了一种基于破坏的增强方法（CASE），通过替换、交换句子或引入语法错误，从高质量作文中生成20,601篇合成样本，有效缓解了数据稀缺问题，提升了模型的泛化能力。

特点

DREsS数据集在EFL写作评估领域展现出显著特点。其量规设计基于教育研究共识，聚焦内容、组织和语言三个核心维度，评分范围精细至0.5分间隔，为分析性评估提供了结构化框架。数据来源兼具多样性与权威性，既包含真实课堂环境中学生撰写的作文，也整合了经专家重新标注的现有数据集，确保了样本的代表性与评分的一致性。此外，数据集规模庞大，总量超过12,000篇作文，并辅以创新的合成数据增强策略，不仅丰富了训练样本，还通过实验验证了增强数据对基线性能的显著提升，为开发精准、实用的自动评分系统奠定了坚实基础。

使用方法

DREsS数据集为自动作文评分研究提供了系统的应用路径。研究者可首先利用DREsSNew和DREsSStd.作为训练与验证基础，通过微调预训练语言模型（如BERT）来学习量规与作文特征之间的映射关系。数据集的标准化格式便于模型同时预测内容、组织和语言三个维度的分数，支持端到端的分析性评分任务。进一步地，DREsSCASE中的合成数据可作为补充训练资源，用于增强模型对各类错误的识别能力，特别是在数据稀缺场景下提升评分鲁棒性。实验表明，结合全部子集进行训练能使模型性能显著优化，该数据集也适用于评估现有评分系统的泛化能力，推动EFL教育中更智能、更个性化的写作辅助工具发展。

背景与挑战

背景概述

在英语作为外语（EFL）写作教育领域，自动化作文评分（AES）系统通过提供即时反馈，显著提升了教学效率与学习体验。然而，传统AES模型常受限于数据集的局限性，尤其是缺乏基于评分标准的细粒度分析数据。为此，韩国科学技术院（KAIST）的研究团队于2024年发布了DREsS数据集，旨在构建一个大规模、标准化的基于评分标准的作文评分数据集。该数据集聚焦于内容、组织和语言三大核心评分维度，汇集了由EFL本科生撰写并经英语教育专家评分的真实课堂作文，同时整合并标准化了现有相关数据集。DREsS的创建不仅填补了该领域高质量数据资源的空白，还为开发更精准、实用的AES系统奠定了坚实基础，推动了EFL写作教育的智能化发展。

当前挑战

DREsS数据集面临的挑战主要体现在两个方面：其一，在解决领域问题方面，基于评分标准的自动化作文评分需克服评分维度复杂性与一致性难题。传统AES系统多依赖整体评分，难以提供细粒度的分析反馈，而DREsS要求模型同时评估内容、组织和语言等多个独立维度，这对算法的多任务学习与评分准确性提出了更高要求。其二，在数据集构建过程中，挑战主要源于数据稀缺性与标注专业性。真实课堂作文的收集需协调大量学生与教师，且评分必须由领域专家执行以确保教育有效性；此外，现有数据集评分标准不一，需通过加权与标准化方法进行整合，这一过程涉及复杂的教育理论与技术权衡，增加了数据处理的难度与复杂性。

常用场景

经典使用场景

在英语作为外语（EFL）写作教育领域，DREsS数据集为基于评分标准的自动化作文评分（AES）研究提供了关键支持。该数据集通过整合真实课堂作文、标准化现有数据以及合成增强样本，构建了一个涵盖内容、组织和语言三个维度的标准化评估框架。其经典应用场景在于训练和验证AES模型，使模型能够依据细粒度评分标准对EFL学习者的议论文进行多维度自动化评分，从而推动教育评估技术的精准化与实用化发展。

衍生相关工作

围绕DREsS数据集，已衍生出一系列重要的相关研究工作。例如，研究者利用其标准化评分框架，开发了基于BERT等预训练语言的细粒度AES模型，显著提升了评分准确性。同时，数据集采用的CASE数据增强策略为低资源场景下的AES模型训练提供了新思路，启发了后续关于合成数据生成与模型鲁棒性的探索。这些工作共同推动了AES技术向更专业化、实用化的方向发展，并为跨语言写作评估研究提供了可借鉴的范式。

数据集最近研究