mentor-eval

Hugging Face2025-09-17 更新2025-09-18 收录

下载链接：

https://huggingface.co/datasets/alvaro-francisco-gil/mentor-eval

下载链接

链接失效反馈

官方服务：

资源简介：

MentorEval是一个多语言的教育评估任务基准数据集，包含来自英语、葡萄牙语和阿拉伯语三种语言的学生回应，涵盖不同的教育水平和评估类型，用于自动论文评分和自动简短答案评分的研究。

创建时间：

2025-09-15

原始信息汇总

Mentor Evaluation Benchmark (mentor-eval) 数据集概述

数据集简介

MentorEval 是一个多语言基准数据集，专为教育评估任务中的自动化系统评估而设计。该数据集整合了多个现有数据集，采用统一标准化格式，旨在实现自动化评分模型的公平比较。

数据集规模

总样本量：55,312 个学生回答
训练集：11,062 个样本（20%）
测试集：44,250 个样本（80%）
语言数量：3 种（英语、葡萄牙语、阿拉伯语）
来源数据集：6 个

数据集结构

数据划分

采用分层划分策略，按数据集和成绩范围进行分层，确保不同教育背景下的公平评估。

数据特征

多语言支持：英语、葡萄牙语和阿拉伯语
多教育层次：涵盖 ISCED 3 级（初中）和 6 级（高等教育）
多样化评估类型：论文写作和简答题评分
质量控制：包含多评分者一致的数据（如适用）
标准化格式：所有数据集转换为统一模式

来源数据集详情

数据集	语言	ISCED 等级	评分者数量	许可证	练习题数量	样本数量	描述
ASAP	英语	3	2	GPL	8	12,977	7-10 年级学生的 8 个不同作文题目，从整体和特定属性方面评估写作质量
ASAP 2.0	英语	3	1	CC BY 4.0	7	24,728	增强的自动化作文评分数据集，包含来自不同学生群体的作文和多个作文属性
ELLIPSE	英语	3	2	CC BY 4.0	44	6,482	英语学习者作文，在六个语言和写作质量维度上进行评分（仅包含两位评分者一致的数据）
Mohler	英语	6	2	GPL	81	1,263	德克萨斯大学计算机科学学生的简答题，按 0-5 分制评分（仅包含两位评分者一致的数据）
PT-ASAG 2018	葡萄牙语	3	1	CC BY 4.0	15	9,862	来自巴西的真实学生和教师答案，用于葡萄牙语自动简答题评分研究
AR-ASAG	阿拉伯语	6	2	CC BY-NC	48	2,132	阿拉伯语自动简答题评分数据集，包含来自三次大学考试的模型答案和学生答案对

数据模式

每个样本包含以下字段：

dataset：源数据集标识符
exercise_set：练习/提示标识符
question：问题或提示文本
answer：学生的回答
grade：分配的分数
min_grade：练习的最低可能分数
max_grade：练习的最高可能分数
subject：学科领域（如英语、数学）
exercise_type：练习类型（如论文写作）
isced_level：教育水平（ISCED 分类）
language：内容语言
rubric：评分标准/指南
desired_answer：参考答案（如可用）
metadata：附加元数据

应用场景

自动化作文评分（AES）研究
自动简答题评分（ASAG）研究
评分模型的跨数据集评估
多语言教育评估研究
自动化评分系统的公平比较

许可证

GNU 通用公共许可证（GPL）

搜集汇总

数据集介绍

构建方式

MentorEval数据集通过整合六个现有教育评估数据集构建而成，涵盖英语、葡萄牙语和阿拉伯语三种语言，总计55,312条学生应答数据。构建过程中采用分层抽样策略，按照数据集来源和评分范围将数据划分为训练集（20%）与测试集（80%），并统一转换为标准化数据模式，确保多源数据的兼容性与评估公平性。

特点

该数据集具备多语言、多教育层次的特点，覆盖ISCED三级至六级的教育阶段，包含论文写作与简答题评分两类评估任务。数据质量经过严格控制，仅保留多位评分者一致性较高的样本，每条数据均包含题目、答案、评分、评分区间、学科主题及评分标准等丰富字段，为教育评估研究提供结构化支持。

使用方法

研究者可利用该数据集开展自动论文评分与简答题自动批改的模型训练与跨数据集评估。使用时需依据标准化数据模式加载样本，结合题目、学生答案及评分字段进行模型训练，并通过多语言、多教育层次的测试集验证模型泛化能力，适用于教育技术、智能辅导系统及学习分析等领域的研究。

背景与挑战

背景概述

教育评估领域的自动化评分研究近年来受到广泛关注，MentorEval数据集由Álvaro Francisco Gil等人于2025年整合构建，旨在为多语言教育评估提供标准化基准。该数据集汇聚了来自六个独立数据源的55,312条学生应答数据，涵盖英语、葡萄牙语和阿拉伯语三种语言，涉及中等教育和高等教育多个层级。通过统一数据格式和评分标准，该数据集为自动化论文评分（AES）和短答案自动评分（ASAG）研究提供了重要基础，显著推动了智能教育系统与学习分析技术的发展。

当前挑战

在教育评估自动化领域，核心挑战在于如何准确理解学生应答的语义内容并实现与人工评分一致的评价结果。具体而言，模型需要处理多语言语境下的表达差异、不同教育层级的知识深度要求以及主观性较强的开放型问题评分。数据集构建过程中，研究者面临多源数据整合的复杂性，包括原始数据格式异构、评分标准不统一、语言文化差异显著等问题。此外，确保评分者一致性验证和数据质量管控也需要精密的设计与处理流程。

常用场景

经典使用场景

在教育评估领域，MentorEval数据集为自动作文评分和短答案自动评分研究提供了标准化测试平台。该数据集整合了六个不同来源的教育评估数据，涵盖三种语言和多个教育层级，研究者可基于统一格式评估模型在不同语言环境和文化背景下的表现稳定性，特别适用于跨数据集对比分析和多语言教育评估系统的开发验证。

衍生相关工作

基于该数据集衍生的经典研究包括多模态教育评估框架和跨语言迁移学习模型。研究者开发了结合语义分析和语法检测的混合评分系统，显著提升了非母语写作评估的准确性。此外，基于注意力机制的神经网络模型在该数据集上实现了跨语种知识迁移，为低资源语言的教育评估提供了有效解决方案，推动了教育公平化技术的发展。

数据集最近研究