EduBench|教育评估数据集|基准数据集数据集
收藏EduBench 数据集概述
数据集简介
- 名称:EduBench
- 类型:教育场景评估基准数据集
- 特点:
- 覆盖9大教育场景
- 包含4,000+不同教育情境
- 专为教育领域模型评估设计
教育场景分类
I. 学生导向场景
- 问答(Q&A)
- 纠错(EC)
- 观点提供(IP)
- 个性化学习支持(PLS)
- 情感支持(ES)
II. 教师导向场景
- 问题生成(QG)
- 自动评分(AG)
- 教学材料生成(TMG)
- 个性化内容创作(PCC)
评估指标体系
1. 场景适应性
- 指令遵循与任务完成度
- 角色与语气一致性
- 内容相关性与范围控制
- 场景元素整合
2. 事实与推理准确性
- 基础事实准确性
- 领域知识准确性
- 推理过程严谨性
- 错误识别与纠正精度
3. 教学应用性
- 清晰度、简洁性与启发性
- 激励、引导与积极反馈
- 个性化、适应性与学习支持
- 高阶思维与技能发展
数据集构建
- 生成方法:通过代码脚本生成(示例:
python ./code/generation/EC.py
) - 数据规模:4,000个样本覆盖全部9个教育场景
评估结果
模型表现
- 最佳表现模型:DeepSeek R1(平均分9.29)
- 最差表现模型:Qwen2.5-7B-Instruct(平均分8.46)
- 关键发现:
- 7B模型在资源受限环境下更具性价比
- DeepSeek R1在"高阶思维与技能发展"表现突出
人类评估
- 人类评估者对所有模型在"推理过程严谨性"上满意度显著较低
- Qwen2.5-7B-Instruct在该指标仅得5.90分
模型蒸馏
- 方法:多源蒸馏过程
- 效果:
- 7B模型在12个指标中的10个有显著提升
- 在"推理过程严谨性"上超越所有其他模型
评估一致性分析
- 模型间一致性:Kendalls W值大多在0.6左右
- 人模一致性:
- DeepSeek V3与人类评估相关性最高
- GPT-4o相关性最低
相关资源
- 论文:https://arxiv.org/pdf/2505.16160
- 模型:https://huggingface.co/DirectionAI/EDU-Qwen2.5-7B
- 数据集:https://huggingface.co/datasets/DirectionAI/EduBench

Figshare
Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。
figshare.com 收录
UAVDT
UAVDT数据集由中国科学院大学等机构创建,包含约80,000帧从10小时无人机拍摄视频中精选的图像,覆盖多种复杂城市环境。数据集主要关注车辆目标,每帧均标注了边界框及多达14种属性,如天气条件、飞行高度、相机视角等。该数据集旨在推动无人机视觉技术在不受限制场景下的研究,解决高密度、小目标、相机运动等挑战,适用于物体检测、单目标跟踪和多目标跟踪等基础视觉任务。
arXiv 收录
WideIRSTD Dataset
WideIRSTD数据集包含七个公开数据集:SIRST-V2、IRSTD-1K、IRDST、NUDT-SIRST、NUDT-SIRST-Sea、NUDT-MIRSDT、Anti-UAV,以及由国防科技大学团队开发的数据集,包括模拟陆基和太空基数据,以及真实手动标注的太空基数据。数据集包含具有各种目标形状(如点目标、斑点目标、扩展目标)、波长(如近红外、短波红外和热红外)、图像分辨率(如256、512、1024、3200等)的图像,以及不同的成像系统(如陆基、空基和太空基成像系统)。
github 收录
AISHELL/AISHELL-1
Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。
hugging_face 收录
Food101
Food101是一个包含101种食物类别的数据集,共有101,000张图片。每个类别提供250张手动审查的测试图像和750张训练图像。训练图像未经清理,因此仍包含一定量的噪声。所有图像都被缩放到最大边长为512像素。图像包括光照、视角和背景的变化,使其成为一个具有挑战性的数据集。
github 收录