ESSAYJUDGE
收藏arXiv2025-02-17 更新2025-02-27 收录
下载链接:
http://arxiv.org/abs/2502.11916v1
下载链接
链接失效反馈官方服务:
资源简介:
ESSAYJUDGE是一个包含超过1,000篇高质量多模态英文作文的数据集,每篇作文都经过严格的多人多轮标注和验证。该数据集由香港科技大学(广州)、广西壮族自治区大数据研究院和香港科技大学共同创建,旨在为自动作文评分系统的研究提供具有多模态上下文的基准。数据集覆盖了125个独特的作文主题,并在词汇、句子和篇章三个层面上,对10个不同的作文特征进行了综合评价。
ESSAYJUDGE is a dataset comprising over 1,000 high-quality multimodal English essays, each of which has undergone rigorous multi-person, multi-round annotation and validation. Co-developed by Hong Kong University of Science and Technology (Guangzhou), Big Data Research Institute of Guangxi Zhuang Autonomous Region, and Hong Kong University of Science and Technology, this dataset aims to provide a multimodal context-based benchmark for research on automated essay scoring systems. It covers 125 distinct essay topics, and conducts comprehensive evaluations of 10 different essay characteristics across three levels: vocabulary, sentence structure, and discourse.
提供机构:
香港科技大学(广州), 广西壮族自治区大数据研究院, 香港科技大学
创建时间:
2025-02-17
搜集汇总
数据集介绍

构建方式
ESSAYJUDGE数据集的构建基于K-12教育组织提供的学生作文,这些作文由经验丰富的教师进行评分。数据集包含图像、作文问题、学生作文和总体评分等字段。为了确保数据质量,研究人员对原始数据进行了一系列的清洗和筛选,包括移除不完整或质量低下的作文,并选择符合可靠性和多样性标准的主题。最终,ESSAYJUDGE数据集由1,054篇包含125个不同主题的多模态英语作文组成。
特点
ESSAYJUDGE数据集的主要特点在于其多模态特性,以及覆盖的作文评分的三个层次:词汇、句子和语篇。数据集中的作文均经过严格的、多轮的人工标注和验证,以确保评分的准确性和一致性。此外,数据集还包含10个多粒度指标的评分框架,涵盖了从词汇准确性到论点清晰度等多个维度,为评估作文质量提供了全面而细致的参考。
使用方法
使用ESSAYJUDGE数据集时,研究者可以将其用于评估和训练自动作文评分系统,特别是多模态大型语言模型(MLLMs)。数据集提供了详细的评分标准和多粒度指标,使得研究者可以针对不同层次的作文特点进行评估。此外,数据集还提供了多种模态的输入,包括文本和图像,这有助于模型更好地理解和处理复杂的作文上下文。
背景与挑战
背景概述
ESSAYJUDGE数据集是一项旨在评估多模态大型语言模型(MLLMs)自动作文评分(AES)能力的研究成果。该数据集由香港科技大学(广州)、广西壮族自治区大数据研究院、香港科技大学和清华大学的研究人员共同创建,旨在解决传统AES系统所面临的三大挑战:依赖手工特征导致泛化能力受限、难以捕捉细粒度的特征如连贯性和论证性、无法处理多模态上下文。ESSAYJUDGE数据集的创建旨在通过利用MLLMs在特征特定评分和多模态上下文理解方面的优势,提供精确、丰富的评分,无需手动特征工程,从而解决AES的局限性。该数据集的发布对于教育评估领域具有重要意义,它推动了更准确、更稳健、更具有上下文意识的MLLMs作文评分系统的发展。
当前挑战
ESSAYJUDGE数据集的挑战主要涉及两个方面:1) 所解决的领域问题的挑战,即如何评估MLLMs在作文评分任务中的能力,特别是在细粒度特征如连贯性和论证性方面的表现;2) 构建过程中的挑战,包括数据收集、标注和质量控制等。具体而言,数据集需要确保高质量的文本和图像数据,并进行严格的标注,以便MLLMs能够准确地捕捉到作文的各个特征。此外,数据集还需要解决多模态输入的挑战,确保MLLMs能够有效地处理文本和图像信息,并进行准确的评分。
常用场景
经典使用场景
ESSAYJUDGE数据集主要用于评估多模态大型语言模型(MLLMs)在自动作文评分(AES)任务上的能力。该数据集包含了超过1000篇高质量的英语作文,每篇作文都经过严格的多轮人工标注和验证,并包含了文本和图像两种模态。数据集涵盖了125个独特的作文主题,并对作文的词汇、句子和篇章级别进行了细致的标注,使得模型能够在多个层面上进行评分。
实际应用
ESSAYJUDGE数据集的实际应用场景包括教育评估、在线学习和写作教学。在教育评估中,该数据集可以帮助教师和学生更有效地评估和改进写作技能。在线学习平台可以利用ESSAYJUDGE数据集来开发自动评分系统,为学生提供即时反馈。此外,写作教学也可以利用该数据集来开发教学工具和资源,帮助学生提高写作能力。
衍生相关工作
ESSAYJUDGE数据集衍生了许多相关工作,例如基于MLLMs的AES系统的研究、多模态作文评分的评估方法和基于多模态数据的写作教学工具的开发。这些工作有助于推动AES领域的发展,并为多模态数据处理和语言模型的研究提供了新的思路。
以上内容由遇见数据集搜集并总结生成



