RiceChem
收藏arXiv2024-04-23 更新2024-06-21 收录
下载链接:
https://github.com/luffycodes/Automated-Long-Answer-Grading
下载链接
链接失效反馈官方服务:
资源简介:
RiceChem数据集是由莱斯大学开发的一个专门用于自动长答案评分(ALAG)研究的数据集。该数据集包含1264个来自大学化学课程的学生长答案响应,每个响应都针对27个评分标准进行评分,总计形成8392个数据点。RiceChem的平均字数为120,远高于其他ASAG数据集,这使得它非常适合用于探索ALAG的复杂性。数据集的创建过程涉及多个教学助理对学生响应进行评分,使用TRUE或FALSE标签来标记每个评分标准是否被正确回答。RiceChem数据集的应用领域主要集中在教育领域,旨在通过自动化技术提高长答案评分的准确性和效率,从而为教育评估提供更可靠的工具。
The RiceChem dataset was developed by Rice University for research on Automated Long Answer Grading (ALAG). This dataset contains 1,264 long student responses from college chemistry courses, each of which is scored against 27 grading criteria, resulting in a total of 8,392 data points. The RiceChem dataset has an average word count of 120 per response, which is significantly higher than that of other ASAG datasets, making it highly suitable for exploring the complexity of ALAG. The creation of the RiceChem dataset involved multiple teaching assistants scoring student responses, with TRUE or FALSE labels used to indicate whether each grading criterion was correctly addressed. The primary application domain of the RiceChem dataset is education, where it aims to enhance the accuracy and efficiency of long answer grading via automated technologies, thus providing more reliable tools for educational assessment.
提供机构:
莱斯大学
创建时间:
2024-04-23
搜集汇总
数据集介绍

构建方式
在高等教育化学学科评估领域,RiceChem数据集的构建体现了对长答案自动评分的创新探索。该数据集源自大学化学课程的真实考试环境,共包含1264份学生针对4道试题的长文本回答,平均词数达120个,显著超越了传统短答案评分数据集的规模。构建过程中,研究团队设计了27项细粒度评分标准(评分细则),由多位助教依据每项细则对答案进行二元标注(正确/错误),最终形成8392个数据点。这种基于细则的标注框架,将复杂的评分任务分解为可验证的语义单元,为后续的自然语言推理建模奠定了结构化基础。
特点
RiceChem数据集的核心特征在于其针对长答案自动评分任务的专门化设计。与短答案评分数据集相比,该数据集中的回答内容更为丰富和复杂,平均长度是传统数据集的数倍,从而更能反映真实教育场景中学生对开放性问题的深入阐述。数据集采用了细则驱动的评估体系,每份答案均与多项细则条目关联,使得评分过程具备可解释性,并能捕捉答案中不同方面的正确性与完整性。此外,数据集的构建强调了事实性长答案的评估,区别于注重文采、连贯性的作文评分,聚焦于学科知识的准确性与逻辑表述,为教育自然语言处理领域提供了一个具有挑战性的新基准。
使用方法
RiceChem数据集的使用主要围绕将其构建为自然语言推理任务,即细则蕴含问题。具体而言,将学生答案作为前提,评分细则条目作为假设,利用预训练语言模型(如BERT、RoBERTa)判断前者是否蕴含后者,从而实现自动化逐项评分。研究实践表明,可先在大规模自然语言推理数据集(如MNLI)上对模型进行迁移学习,再在RiceChem上微调,以显著提升性能。评估时,通常按问题划分训练、验证和测试集,采用准确率、精确率、召回率和F1值等指标衡量模型预测细则条目的能力。该数据集也可用于冷启动场景测试,即评估模型对未见过试题的泛化能力,以及探索大语言模型在零样本设置下的表现,为实际教育应用中的数据效率与部署策略提供依据。
背景与挑战
背景概述
在教育自然语言处理领域,随着自动化评估技术的深入发展,莱斯大学的研究团队于2024年提出了RiceChem数据集,旨在探索自动化长答案评分这一新兴研究方向。该数据集源自大学化学课程,包含1264条学生针对长答案问题的真实回答,平均词数高达120,显著超越了传统短答案评分数据集的规模。核心研究问题聚焦于如何通过量规蕴含的框架,对基于事实的长答案进行细致、多层面的评估,从而推动教育评估方法向更精准、可解释的方向演进。RiceChem的创立不仅填补了长答案自动化评分领域的空白,也为后续研究提供了重要的基准资源。
当前挑战
RiceChem数据集所应对的领域挑战在于自动化长答案评分的复杂性,即如何准确评估包含多重事实维度、且可能同时涉及正确、部分正确及无关内容的长篇回答。传统短答案评分中使用的五分类体系在此场景下失效,因其无法捕捉答案中交织的细微差别。构建过程中的挑战则体现在数据标注的精细度要求上,需将每个学生回答与27项量规条目逐一比对,产生8392个数据点,这要求标注者具备深厚的学科知识以确保评估的一致性。此外,数据集的规模虽具代表性,但在冷启动场景下模型泛化能力仍显不足,突显了实际教育部署中数据效率与模型适应性的平衡难题。
常用场景
经典使用场景
在自然语言处理的教育应用领域,RiceChem数据集为自动化长答案评分(ALAG)研究提供了关键支撑。该数据集源自大学化学课程,包含1264条学生长答案响应,平均词数达120,显著超越传统短答案评分数据集。其经典使用场景在于通过细粒度评分标准(rubric items)将长答案分解为27个具体评估项,共计8392个数据点,从而实现对复杂、事实性长答案的结构化评估。这种基于评分标准的表述方式,使研究者能够将ALAG任务转化为自然语言推理问题,利用预训练模型验证学生答案是否蕴含评分标准中的要点,为教育NLP开辟了新的探索路径。
衍生相关工作
RiceChem数据集的推出催生了多项围绕自动化长答案评分的经典研究工作。基于该数据集,研究者探索了BERT、RoBERTa和BART等编码器模型的微调性能,并创新性地引入多类型自然语言推理数据集进行迁移学习,使模型准确率提升最高达3.2%。同时,该数据集激发了大型语言模型在ALAG任务中的基准测试,包括GPT系列及开源模型如Mistral、Qwen等的性能评估,揭示了长答案评分相较于短答案的更高复杂性。这些衍生工作共同推动了教育NLP领域向更精细、可扩展的自动化评估方向发展。
数据集最近研究
最新研究方向
在自然语言处理的教育应用领域,RiceChem数据集作为首个专为自动化长答案评分(ALAG)任务设计的资源,正引领着前沿研究方向的探索。该数据集源自大学化学课程,其学生回答的平均词数显著高于传统短答案评分数据集,凸显了长答案在事实性和复杂性方面的独特挑战。当前研究聚焦于将ALAG重构为规则蕴含问题,利用自然语言推理模型(如MNLI)进行迁移学习,以验证学生回答是否满足评分规则中的各项标准。这一方法不仅提升了模型在RiceChem上的性能,还揭示了规则化评分相较于传统分数制在捕捉答案细微差别上的优越性。同时,研究深入探讨了冷启动场景下模型的泛化能力,以及大型语言模型(如GPT系列)在ALAG任务中的表现瓶颈,强调了长答案评分相较于短答案评分的更高复杂度。这些进展为教育NLP领域提供了新的视角,推动着更精准、可解释的自动化评分系统的发展。
相关研究论文
- 1Automated Long Answer Grading with RiceChem Dataset莱斯大学 · 2024年
以上内容由遇见数据集搜集并总结生成



