EduEVAL-DB
收藏arXiv2026-02-17 更新2026-02-19 收录
下载链接:
https://github.com/BiDAlab/EduEVAL-DB
下载链接
链接失效反馈官方服务:
资源简介:
EduEVAL-DB是由马德里自治大学团队构建的面向K-12教育的教学解释风险评估数据集,包含854条基于ScienceQA基准的子集生成的解释文本。数据集涵盖科学、语言艺术和社会科学三大领域,每条问题配备1个人类教师和6个LLM模拟教师角色的解释,并通过半自动专家标注流程标记五类教学风险维度。其创新性在于通过提示工程构建差异化教师角色(如‘热情跑题型教师’‘自信错误型教师’),模拟真实教学场景中的风格与缺陷。该数据集旨在支持AI教学助手和自动教学评估模型的开发,特别关注消费级硬件可部署的轻量化模型在风险检测方面的微调验证。
EduEVAL-DB is a teaching explanation risk assessment dataset for K-12 education, constructed by the team from the Autonomous University of Madrid. It contains 854 explanatory texts generated from the subset of the ScienceQA benchmark. The dataset covers three major domains: science, language arts, and social sciences. Each question is paired with explanations from one human teacher and six LLM-simulated teacher roles, and five types of teaching risk dimensions are annotated via a semi-automatic expert annotation workflow. Its innovation lies in constructing differentiated teacher roles (e.g., "enthusiastic question-racing teacher", "confident but error-prone teacher") through prompt engineering, simulating the teaching styles and flaws in real educational scenarios. This dataset aims to support the development of AI teaching assistants and automatic teaching assessment models, with a particular focus on fine-tuning and validation of lightweight models deployable on consumer-grade hardware for risk detection.
提供机构:
马德里自治大学·生物识别与人工智能实验室; 马德里自治大学·高级交互工具组; 拉斯帕尔马斯大学·数学系
创建时间:
2026-02-17
搜集汇总
数据集介绍
构建方式
在K-12教育领域,随着生成式人工智能技术的迅猛发展,构建能够评估教学解释质量的专用数据集显得尤为重要。EduEVAL-DB的构建过程始于从ScienceQA基准数据集中精心筛选出139个涵盖科学、语言艺术和社会科学的多学科问题。针对每个问题,研究团队不仅收录了人类教师提供的标准解释,还通过提示工程和少样本学习技术,模拟了六种具有不同教学风格与缺陷的教师角色,利用GPT-5生成了相应的教学解释。为确保数据质量,所有解释均依据一个包含五个维度的教学风险量规——涵盖事实准确性、解释深度与完整性、焦点与相关性、学生水平适宜性以及意识形态偏见——通过半自动流程结合专家教师评审,进行了二元风险标注,最终形成了包含854条解释及其对应4270个风险标注的数据集。
特点
该数据集的核心特征在于其以角色为基础的设计理念,系统性地模拟了真实教育实践中观察到的多样化教学风格与常见缺陷。通过实例化六种教师角色,如热情但冗长的教师、简洁但不完整的教师、自信但不准确的教师等,数据集不仅提供了丰富的教学行为变体,还确保了这些变体与明确的教学风险维度紧密关联。此外,数据集严格遵循一个植根于成熟教育标准的多维度风险量规,将教学评估从单一的事实正确性扩展到对认知负荷、发展适宜性及伦理风险的综合考量。这种结构化的风险标注框架,使得EduEVAL-DB能够支持对教学解释进行超越表面正确性的、深入且全面的教学风险评估。
使用方法
该数据集主要服务于两大核心用途:一是作为基准测试集,用于评估不同大型语言模型作为自动教学评估器的性能;二是作为训练集,用于通过监督微调来提升轻量级模型的教学风险检测能力。在使用时,模型接收问题、年级水平和待评估的教学解释作为输入,并依据定义好的风险量规,输出每个风险维度的二元判断。研究已证明,在EduEVAL-DB上对Llama 3.1 8B等模型进行微调,能显著提升其在非事实性教学标准上的评估准确性与校准度。因此,该数据集为开发和评测可在消费级硬件上部署的、更安全且教育对齐的AI导师与自动评估器,提供了宝贵的实践基础。
背景与挑战
背景概述
随着基于Transformer的生成模型在教育技术领域的快速发展,K-12教育场景中对人工智能导师及自动化教学评估器的需求日益增长。在此背景下,由西班牙马德里自治大学BiometricsAI与GHIA研究团队于2026年联合构建的EduEVAL-DB数据集应运而生。该数据集旨在为教学解释的自动教学风险评估提供基准,其核心研究问题聚焦于如何依据既定的教育标准,系统性地评估和训练基于大语言模型的教学评估器与AI导师。通过整合来自ScienceQA基准的139个跨学科问题,并引入基于教师角色的解释生成范式,EduEVAL-DB为理解不同教学风格下的教学风险提供了结构化数据基础,对推动教育人工智能的可靠性与安全性研究具有重要影响力。
当前挑战
EduEVAL-DB致力于解决的领域挑战在于自动教学风险评估的复杂性与多维度性。传统评估多侧重于事实准确性,而有效的教学解释还需考量解释深度、认知负荷、学生发展适宜性及意识形态偏见等多个互补维度,这些主观性较强的标准对模型的判别能力提出了更高要求。在数据集构建过程中,研究团队面临的主要挑战包括如何通过提示工程精准模拟六种具有代表性的教师角色,以系统化地体现特定教学风险模式;同时,为确保标注的可靠性,需设计半自动流程并依赖专家教师进行人工复核,以平衡标注效率与质量。此外,在生成内容时还需应对大语言模型的内容审核限制,例如针对讽刺性教师角色的生成采取了人工辅助方式,以负责任地处理可能存在的敏感内容。
常用场景
经典使用场景
在智能教育技术领域,EduEVAL-DB数据集最经典的应用场景是作为基准测试平台,用于评估和比较不同大型语言模型在扮演AI导师角色时的教学风险检测能力。该数据集通过模拟六种具有代表性的教师角色,生成了涵盖科学、语言艺术和社会科学等多个K-12学科的教学解释,为研究者提供了一个结构化的评估环境。研究人员可以在此数据集上系统地测试模型在事实准确性、解释深度、焦点相关性、学生水平适宜性以及意识形态偏见等五个维度的表现,从而客观衡量AI教学系统的教学安全性与有效性。
解决学术问题
该数据集有效解决了当前教育人工智能研究中教学评估维度单一、缺乏系统性风险框架的学术难题。传统评估往往侧重于事实准确性,而EduEVAL-DB引入了一个基于教学风险的多维度评估体系,将教育标准与人工智能风险治理相结合。它使得研究者能够超越简单的对错判断,深入分析教学解释在认知负荷、发展适宜性及社会伦理等层面的潜在问题,为构建更可靠、更符合教育伦理的AI导师系统提供了关键的评估工具和数据基础。
衍生相关工作
围绕EduEVAL-DB数据集,已衍生出多项探索AI教学评估边界的研究工作。其提出的多维度教学风险框架被后续研究广泛引用,用于构建更细粒度的评估指标。基于该数据集的微调方法验证了轻量级模型在特定教学风险检测任务上可以达到甚至超越大型通用模型的性能,这推动了面向边缘计算的教育AI模型开发。此外,数据集对“教师角色”的模拟思路,也启发了关于AI教学风格个性化、以及多智能体模拟教学交互等新兴研究方向。
以上内容由遇见数据集搜集并总结生成



