EduBench
收藏Hugging Face2025-05-28 更新2025-05-29 收录
下载链接:
https://huggingface.co/datasets/DirectionAI/EduBench
下载链接
链接失效反馈官方服务:
资源简介:
EduBench是一个用于评估教育场景中AI系统的数据集,包含学生导向和教师导向的场景。学生导向场景包括问题回答、错误纠正、提供想法、个性化学习支持和情感支持。教师导向场景包括问题生成、自动评分、教学材料生成和个性化内容创建。数据集旨在评估AI在各种教育任务中的表现。每个JSONL文件包含场景属性描述的元数据、用于模型评估的输入文本提示和来自多个LLM的模型预测。
EduBench is a dataset for evaluating AI systems in educational scenarios, covering student-oriented and teacher-oriented scenarios. Student-oriented scenarios include question answering, error correction, providing ideas, personalized learning support and emotional support. Teacher-oriented scenarios include question generation, automatic grading, teaching material generation and personalized content creation. This dataset is intended to assess the performance of AI across a diverse range of educational tasks. Each JSONL file contains metadata describing scenario attributes, input text prompts for model evaluation, and model predictions from multiple LLMs.
创建时间:
2025-05-25
原始信息汇总
EduBench数据集概述
1. 数据集背景
- 数据集来源:EduBench(论文地址:https://arxiv.org/abs/2505.16160)
- 用途:面向教育领域的AI系统评估基准
2. 评估场景
I. 学生导向场景
- 问答(Q&A):评估AI系统解答各学科不同难度问题的能力
- 纠错(EC):评估识别和纠正学生作业/考试中错误的能力
- 想法提供(IP):
- 基础事实解释
- 分步解决方案分析
- 一般学术建议
- 个性化学习支持(PLS):基于学生档案推荐个性化学习路径
- 情感支持(ES):检测学生情绪状态并提供支持性反馈
II. 教师导向场景
- 问题生成(QG):
- 基于指定主题/难度生成问题
- 支持生成完整考试试卷
- 自动评分(AG):
- 客观题评分
- 主观任务评分
- 反馈生成
- 教学材料生成(TMG):
- 生成幻灯片/教案/讲义
- 内容结构化
- 补充外部材料
- 个性化内容创建(PCC):
- 生成差异化内容
- 分层教学设计
3. 数据统计
- 统计图表:data_statistics.png(宽1200px)
4. 数据格式
- 文件格式:JSONL
- 关键字段:
information:场景元数据(学科领域/任务难度等)prompt:评估用的输入文本提示model_predictions:包含多个LLM的系统响应(qwen2.5-7b-instruct、qwen2.5-14b-instruct、qwen-max、deepseek-v3、deepseek-r1)
搜集汇总
数据集介绍

构建方式
EduBench数据集的构建基于教育技术领域的前沿需求,采用多维度场景划分的方法系统整合了学生导向与教师导向两大应用方向。数据集通过结构化标注流程,涵盖问答、纠错、学习支持等十个具体任务场景,每个数据样本均包含详细的元信息标注,如学科领域和难度等级。数据来源融合了真实教育场景中的典型交互记录与专家人工标注,确保了教育情境的真实性与专业性。
特点
该数据集的核心特征体现在其多层次的任务设计架构上,既覆盖了学生侧的知识问答与情感支持需求,也囊括了教师侧的内容生成与自动评分功能。数据样本包含多模型预测结果,支持横向性能对比分析。其跨语言特性与细粒度场景划分,为教育大语言模型的能力评估提供了立体化的观测视角,尤其注重个性化学习与教学辅助的实用价值。
使用方法
使用EduBench时需通过JSONL格式加载数据,每个样本包含信息元数据、输入提示词及多模型预测结果三个关键字段。研究者可通过对比不同模型在相同提示下的输出质量,系统评估模型在特定教育场景中的表现。对于需要人工标注数据的深入研究,可通过指定邮箱联系获取补充标注集,以支持更精细的误差分析与模型优化。
背景与挑战
背景概述
教育智能化作为人工智能技术的重要应用领域,近年来受到学术界与工业界的广泛关注。EduBench数据集由研究团队于2025年提出,旨在系统评估大语言模型在多元教育场景下的性能表现。该数据集覆盖学生导向与教师导向两大维度,囊括问答纠错、个性化学习支持、试题生成、自动评分等八类核心任务,涉及多学科知识体系与差异化难度层级。其构建充分体现了教育场景中知识传递的复杂性,为智能教育系统的能力评估提供了标准化基准。
当前挑战
教育领域问题的核心挑战在于如何精准建模教学过程中的动态交互特性。EduBench需应对学科知识的深度异构性,如数学推理的严谨性与文学赏析的主观性并存;同时需平衡教育公平性要求,确保模型在不同文化背景与学习能力群体中的普适性。在数据构建层面,挑战主要体现在教育标注的专业壁垒——需融合教育学理论设计评估维度,并通过多轮人工校验保证反馈信息的教学有效性,避免生成内容存在认知偏差或伦理风险。
常用场景
经典使用场景
在智能教育技术蓬勃发展的背景下,EduBench数据集为评估大型语言模型在教育领域的综合能力提供了标准化平台。其最经典的使用场景涵盖学生导向的问答、纠错和个性化学习支持,以及教师导向的题目生成、自动评分和教学材料创作。通过多维度任务设计,该数据集能够系统检验模型在知识传递、错误诊断和适应性教学等方面的表现,为教育智能化研究奠定坚实基础。
实际应用
在实际教育场景中,EduBench支撑的智能系统可应用于在线教育平台的智能辅导、自适应学习系统开发等具体领域。基于该数据集训练的模型能够实现作业自动批改、个性化习题推荐等实用功能,显著减轻教师工作负担。同时,其情感支持模块有助于构建更具人文关怀的智能教育助手,为远程教育和混合式教学模式提供技术保障。
衍生相关工作
围绕EduBench数据集已衍生出多项创新研究,例如基于其多模态评估框架的教育大模型能力对比分析,以及针对特定学科领域的精细化评估方案。相关经典工作包括融合认知诊断理论的个性化学习模型优化、结合教育心理学的智能辅导系统设计等。这些研究不仅拓展了数据集的应用边界,更推动了教育人工智能理论与实践的深度融合。
以上内容由遇见数据集搜集并总结生成



