ASAG2024

Name: ASAG2024
Creator: 苏黎世应用科学大学
Published: 2024-09-27 17:56:02
License: 暂无描述

arXiv2024-09-27 更新2024-10-01 收录

下载链接：

https://huggingface.co/datasets/Meyerger/ASAG2024

下载链接

链接失效反馈

官方服务：

资源简介：

ASAG2024是由苏黎世应用科学大学创建的一个综合性的简答题评分基准数据集。该数据集包含七个常用的简答题评分数据集，共计19,000个问题-答案-评分三元组，涵盖了多个学科和教育层次。数据集的评分被标准化到0到1之间，以便于比较不同数据集的结果。创建过程中，数据集整合了多个来源的数据，并进行了标准化处理。该数据集主要用于评估和比较自动评分系统的性能，旨在解决简答题评分中的自动化和通用性问题。

ASAG2024 is a comprehensive short answer scoring benchmark dataset developed by Zurich University of Applied Sciences. This dataset encompasses seven widely used short answer scoring datasets, totaling 19,000 question-answer-score triplets, covering multiple disciplines and educational levels. The scores in the dataset are normalized to the range of 0 to 1 to facilitate cross-dataset performance comparison. During its construction, data from multiple sources was integrated and standardized. This dataset is primarily intended to evaluate and compare the performance of automated scoring systems, aiming to address the automation and generalizability challenges in short answer scoring.

提供机构：

苏黎世应用科学大学

创建时间：

2024-09-27

原始信息汇总

ASAG2024 数据集概述

数据集描述

名称: ASAG2024
标签: ASAG, Grading
大小: 10K<n<100K
语言: 英语
创建者: Gérôme Meyer
许可证: 数据源许可证适用（见下文）

数据集来源

该数据集从以下来源收集：

来源: Stita
仓库地址: https://github.com/edgresearch/dataset-automaticgrading-2022/tree/master
引用:

del Gobbo, E., Guarino, A., Cafarelli, B. et al. GradeAid: a framework for automatic short answers grading in educational contexts—design, implementation and evaluation. Knowl Inf Syst 65, 4295–4334 (2023). https://doi.org/10.1007/s10115-023-01892-9
BibTex:

@Article{delGobbo2023, author={del Gobbo, Emiliano and Guarino, Alfonso and Cafarelli, Barbara and Grilli, Luca}, title={GradeAid: a framework for automatic short answers grading in educational contexts---design, implementation and evaluation}, journal={Knowledge and Information Systems}, year={2023}, month={Oct}, day={01}, volume={65}, number={10}, pages={4295-4334}, issn={0219-3116}, doi={10.1007/s10115-023-01892-9}, url={https://doi.org/10.1007/s10115-023-01892-9} }

数据集内容

该数据集包含以下内容：

问题
参考答案
提供的（学生）答案
人工评分

数据集作者

Gérôme Meyer
Philip Breuer

联系信息

邮箱: gerome.meyer@pm.me

搜集汇总

数据集介绍

构建方式

ASAG2024数据集的构建方式是通过整合七个常用的短答案评分（SAG）数据集，这些数据集涵盖了不同的学科领域、教育层次和评分尺度。每个数据集至少包含参考答案、学生提供的答案和人工评分。为了确保数据集的统一性和可比性，所有评分被标准化至0到1的范围内。这种整合方式不仅丰富了数据集的多样性，还为自动化评分系统的比较提供了坚实的基础。

特点

ASAG2024数据集的主要特点在于其综合性和标准化。该数据集包含了来自不同学科和教育层次的19,000个问题-答案-评分三元组，确保了数据的广泛覆盖和代表性。此外，所有评分被统一标准化至0到1的范围内，这不仅简化了不同数据集之间的比较，还提高了自动化评分模型的通用性和可移植性。

使用方法

ASAG2024数据集主要用于评估和比较不同的自动化评分系统。研究者可以使用该数据集来训练和测试各种评分模型，包括基于概念映射、信息提取、语料库方法以及最新的语言模型（如LLMs）。通过在ASAG2024上进行实验，研究者可以评估其模型的性能，特别是其在不同学科和评分尺度上的泛化能力。此外，该数据集还支持对不同评分模型的错误分析，从而为改进自动化评分系统提供有价值的见解。

背景与挑战

背景概述

在教育评估领域，开放式问题的使用日益增多，因其能更全面地测试学生的理解能力。然而，这类问题的评分过程繁琐且易受主观偏见影响。为解决这一问题，自动化评分系统（Short Answer Grading, SAG）应运而生。尽管SAG技术不断进步，但缺乏一个跨学科、评分标准和分布的综合基准，使得评估现有自动化评分方法的泛化能力变得困难。为此，Gérôme Meyer、Philip Breuer和Jonathan Fürst于2024年在苏黎世应用科学大学提出了ASAG2024数据集，该数据集整合了七个常用的短答案评分数据集，旨在为自动化评分系统的比较提供一个统一的基准。

当前挑战

ASAG2024数据集面临的挑战主要包括：一是构建过程中需整合不同学科、评分标准和分布的数据集，确保数据的一致性和可比性；二是评估现有自动化评分方法的泛化能力，特别是针对新问题的适应性。此外，尽管基于大型语言模型（LLMs）的方法在评分任务中表现出色，但仍远未达到人类评分水平，这为未来的研究提供了广阔的空间，特别是在人机协作评分系统的开发上。

常用场景

经典使用场景

ASAG2024数据集的经典使用场景主要集中在自动评分系统的开发与评估。该数据集整合了七个不同学科和评分标准的短答案评分数据集，为研究人员提供了一个统一的基准，用于比较和评估现有的自动评分方法。通过使用ASAG2024，研究者可以测试和优化他们的评分算法，以确保其在不同学科和评分标准下的通用性和准确性。

解决学术问题

ASAG2024数据集解决了自动评分系统在跨学科和多评分标准下通用性的学术研究问题。传统的自动评分系统往往依赖于特定领域的数据集，导致其泛化能力有限。ASAG2024通过提供一个包含多种学科和评分标准的综合基准，使得研究者能够更全面地评估和改进自动评分算法，从而推动该领域的技术进步。

衍生相关工作

ASAG2024数据集的发布激发了大量相关研究工作，特别是在大语言模型（LLMs）在自动评分中的应用。研究者们利用该数据集对不同规模的LLMs进行了深入评估，发现随着模型规模的增加，其评分能力显著提升。此外，该数据集还促进了多语言自动评分系统的研究，为未来的跨文化教育评估提供了新的方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集