EduBench|教育评估数据集|基准数据集数据集

github2025-05-26 更新2025-05-27 收录

教育评估

基准数据集

下载链接：

https://github.com/ybai-nlp/EduBench

下载链接

链接失效反馈

资源简介：

EduBench是一个专门为教育场景设计的多样化基准数据集，涵盖9大教育背景和超过4000种不同的教育情境，为教育领域的模型评估提供了新的视角。我们设计了多维度的评估指标，全面覆盖了从教师和学生视角的12个关键维度，确保对场景适应性、事实和推理准确性等方面进行深入评估。

创建时间：

2025-05-21

原始信息汇总

EduBench 数据集概述

数据集简介

名称：EduBench
类型：教育场景评估基准数据集
特点：
- 覆盖9大教育场景
- 包含4,000+不同教育情境
- 专为教育领域模型评估设计

教育场景分类

I. 学生导向场景

问答(Q&A)
纠错(EC)
观点提供(IP)
个性化学习支持(PLS)
情感支持(ES)

II. 教师导向场景

问题生成(QG)
自动评分(AG)
教学材料生成(TMG)
个性化内容创作(PCC)

评估指标体系

1. 场景适应性

指令遵循与任务完成度
角色与语气一致性
内容相关性与范围控制
场景元素整合

2. 事实与推理准确性

基础事实准确性
领域知识准确性
推理过程严谨性
错误识别与纠正精度

3. 教学应用性

清晰度、简洁性与启发性
激励、引导与积极反馈
个性化、适应性与学习支持
高阶思维与技能发展

数据集构建

生成方法：通过代码脚本生成(示例：python ./code/generation/EC.py)
数据规模：4,000个样本覆盖全部9个教育场景

评估结果

模型表现

最佳表现模型：DeepSeek R1(平均分9.29)
最差表现模型：Qwen2.5-7B-Instruct(平均分8.46)
关键发现：
- 7B模型在资源受限环境下更具性价比
- DeepSeek R1在"高阶思维与技能发展"表现突出

人类评估

人类评估者对所有模型在"推理过程严谨性"上满意度显著较低
Qwen2.5-7B-Instruct在该指标仅得5.90分

模型蒸馏

方法：多源蒸馏过程
效果：
- 7B模型在12个指标中的10个有显著提升
- 在"推理过程严谨性"上超越所有其他模型

评估一致性分析

模型间一致性：Kendalls W值大多在0.6左右
人模一致性：
- DeepSeek V3与人类评估相关性最高
- GPT-4o相关性最低

相关资源

论文：https://arxiv.org/pdf/2505.16160
模型：https://huggingface.co/DirectionAI/EDU-Qwen2.5-7B
数据集：https://huggingface.co/datasets/DirectionAI/EduBench

AI搜集汇总

数据集介绍

构建方式

EduBench数据集的构建过程体现了教育场景与人工智能技术的深度融合。研究团队首先将教育场景系统划分为学生导向和教师导向两大类别，涵盖问答纠错、个性化学习支持、自动评分等9个核心场景。通过精心设计的12维评估指标体系，从情境适应性、事实推理准确性和教学应用性三个层面构建了科学的评价框架。数据生成采用模块化编程方式，针对不同教育场景开发专用脚本，确保数据生成的规范性和可复现性。在质量把控环节，创新性地采用多层次评估机制，结合专家评审和模型自评，最终形成包含4000余个教育情境的高质量数据集。

使用方法

使用EduBench进行模型评估时，建议采用分层测试策略。首先根据目标应用场景选择对应的子数据集，如教师辅助场景可重点测试自动评分和教学内容生成模块。评估过程需严格遵循数据集提供的多维指标，建议结合自动化评分与人工评估双轨验证。对于模型优化场景，可利用数据集中的对比样本进行消融实验，特别关注12个核心指标的提升情况。知识蒸馏应用时，可参考研究团队提供的多源蒸馏方案，选择各子任务表现最优的模型作为教师模型。数据集支持端到端评估和模块化测试两种模式，用户可根据实际需求灵活选择评估粒度。

背景与挑战

背景概述

EduBench是由DirectionAI团队开发的一个综合性基准数据集，专注于评估大型语言模型在多样化教育场景中的表现。该数据集涵盖了9个主要教育场景和超过4,000种不同的教育情境，旨在为教育领域的模型评估提供全新视角。EduBench设计了多维度的评估指标，全面覆盖了12个关键维度，从教师和学生双重视角深入评估模型的场景适应性、事实与推理准确性等核心能力。通过知识蒸馏技术，该数据集还成功提升了小型模型在教育场景中的表现，使其能够媲美顶尖大型语言模型的性能。

当前挑战

EduBench面临的挑战主要体现在两个方面：在领域问题方面，教育场景具有高度专业性和复杂性，如何准确评估模型在知识准确性、教学原则应用等方面的表现是一大难题；在构建过程方面，设计覆盖多维度教育场景的评估指标体系、确保数据生成的多样性和代表性、以及保持模型评估与人工评估的一致性都带来了显著挑战。特别是不同教育场景对模型能力要求的差异性，使得构建统一的评估框架变得尤为困难。

常用场景

经典使用场景

在教育技术领域，EduBench数据集为评估大型语言模型在多样化教育场景中的表现提供了标准化测试平台。该数据集覆盖9大教育场景和4000余种教学情境，特别适用于检验模型在问答纠错、个性化学习支持等细分任务中的适应性。研究者通过其设计的12维评估体系，能够系统分析模型在指令遵循、知识准确性、教学适用性等关键指标上的表现，为教育智能化研究提供了可量化的比较基准。

解决学术问题

EduBench有效解决了教育场景下模型评估标准缺失的学术难题。通过构建包含师生双视角的评估维度体系，该数据集首次实现了对教学元素整合、高阶思维培养等隐性能力的量化测量。其独创的跨场景一致性评估框架，为揭示模型在知识推理与情感支持等复杂任务中的性能差异提供了方法论支持，推动了教育大模型从通用能力向垂直领域专业化能力的转型研究。

实际应用

在实际教学环境中，EduBench支撑了智能辅导系统的精准优化。基于该数据集开发的7B小模型通过知识蒸馏技术，在个性化内容生成等场景达到与千亿参数模型相当的效能，显著降低了教育AI的部署门槛。多所教育机构已采用其评估体系对教学助手进行质量监控，特别是在自动批改和情感支持模块实现了人工替代率提升30%的突破。

数据集最近研究

最新研究方向

随着人工智能在教育领域的深入应用，EduBench数据集为评估大语言模型在多样化教育场景中的表现提供了全面基准。当前研究聚焦于模型在九大教育场景中的多维评估，涵盖从师生双视角设计的12项核心指标，包括情境适应性、事实与推理准确性及教学应用效果。前沿探索体现在通过知识蒸馏技术提升小模型性能，如Qwen2.5-7B-Instruct在有限数据下达到与DeepSeek V3等顶尖大模型相近的表现。模型与人类评估一致性分析揭示了评估体系的可靠性，而跨场景性能比较为教育资源优化分配提供了实证依据，推动了个性化教育支持系统的创新发展。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

Figshare

Figshare是一个在线数据共享平台，允许研究人员上传和共享各种类型的研究成果，包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

UAVDT

UAVDT数据集由中国科学院大学等机构创建，包含约80,000帧从10小时无人机拍摄视频中精选的图像，覆盖多种复杂城市环境。数据集主要关注车辆目标，每帧均标注了边界框及多达14种属性，如天气条件、飞行高度、相机视角等。该数据集旨在推动无人机视觉技术在不受限制场景下的研究，解决高密度、小目标、相机运动等挑战，适用于物体检测、单目标跟踪和多目标跟踪等基础视觉任务。

arXiv 收录

WideIRSTD Dataset

WideIRSTD数据集包含七个公开数据集：SIRST-V2、IRSTD-1K、IRDST、NUDT-SIRST、NUDT-SIRST-Sea、NUDT-MIRSDT、Anti-UAV，以及由国防科技大学团队开发的数据集，包括模拟陆基和太空基数据，以及真实手动标注的太空基数据。数据集包含具有各种目标形状（如点目标、斑点目标、扩展目标）、波长（如近红外、短波红外和热红外）、图像分辨率（如256、512、1024、3200等）的图像，以及不同的成像系统（如陆基、空基和太空基成像系统）。

github 收录

AISHELL/AISHELL-1

Aishell是一个开源的中文普通话语音语料库，由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音，录音在安静的室内环境中使用高保真麦克风进行，并下采样至16kHz。通过专业的语音标注和严格的质量检查，手动转录的准确率超过95%。该数据集免费供学术使用，旨在为语音识别领域的新研究人员提供适量的数据。

hugging_face 收录

Food101

Food101是一个包含101种食物类别的数据集，共有101,000张图片。每个类别提供250张手动审查的测试图像和750张训练图像。训练图像未经清理，因此仍包含一定量的噪声。所有图像都被缩放到最大边长为512像素。图像包括光照、视角和背景的变化，使其成为一个具有挑战性的数据集。

github 收录