five

OmniEduBench

收藏
arXiv2025-10-30 更新2025-11-01 收录
下载链接:
http://omniedubench.com/
下载链接
链接失效反馈
官方服务:
资源简介:
OmniEduBench是一个全面的中文教育基准数据集,旨在全面评估大型语言模型在教育场景中的知识理解和技能培养能力。该数据集包含24,602个高质量的问题-答案对,分为知识维度和培养维度,分别包含18,121个和6,481个条目。知识维度涵盖41个学科领域,包括人文、历史、科学、工程和专业领域,覆盖五个难度级别:小学、中学、高中、大学和职业考试。培养维度包括20个教学相关的评论,旨在全面评估在现实世界教育环境中所需的多样化能力。

OmniEduBench is a comprehensive Chinese educational benchmark dataset developed to thoroughly evaluate the knowledge comprehension and skill cultivation capabilities of large language models (LLMs) in educational scenarios. This dataset comprises 24,602 high-quality question-answer pairs, categorized into two dimensions: the Knowledge Dimension and the Cultivation Dimension, with 18,121 and 6,481 entries respectively. The Knowledge Dimension covers 41 academic disciplines, including humanities, history, natural sciences, engineering and professional fields, spanning five difficulty tiers: primary school, secondary school, high school, university and professional qualification examinations. The Cultivation Dimension includes 20 teaching-related commentaries, aiming to comprehensively assess the diverse competencies required in real-world educational settings.
提供机构:
华东师范大学
创建时间:
2025-10-30
搜集汇总
数据集介绍
构建方式
OmniEduBench的构建过程遵循严谨的多阶段流程,涵盖数据收集、清洗、双重模型筛选与专家验证。数据来源包括公开教育资源、私有考试材料以及大模型生成内容,通过结构化转换与元数据提取实现高效管理。双重模型过滤机制采用QWQ32B和Qwen3-235B依次筛选错误回答样本,确保问题具有挑战性。最终由50名硕士生进行质量初筛,并由资深专家对15%样本进行抽样复核,保证数据集的可靠性与学术价值。
特点
该数据集以双维度架构为核心特色,涵盖知识维度与育人维度,共包含24,602对高质量问答。知识维度覆盖41门学科,涉及从基础教育到专业考试的五个难度层级;育人维度包含20类教学场景,聚焦情感支持与思维培养等能力。数据集集成11种常见考题类型,如选择题、案例分析题等,兼具学科广度与命题多样性。其双语标注体系与精细化分类结构,为全面评估语言模型的教育应用潜力提供了多维视角。
使用方法
使用OmniEduBench时需依据题目类型采用差异化评估策略:对客观题采用直接匹配标准答案的自动化评分,对开放式简答题则引入大模型辅助评分机制,通过语义等价性判断提升评估灵活性。实验设置支持零样本与少样本学习范式,可从开发集抽取示例构建上下文学习环境。为确保评估一致性,建议固定评分模型(如Gemini-2.5Pro)并明确标注数据划分规则,所有实验需严格区分训练集与评估集以避免数据泄露。
背景与挑战
背景概述
OmniEduBench作为2025年推出的综合性中文教育基准数据集,由华东师范大学、浙江大学及伦敦帝国理工学院等机构的研究团队联合创建。该数据集旨在弥补现有大语言模型在教育领域评估中的不足,特别是针对知识维度和育人能力维度的综合考量。其核心研究问题聚焦于如何全面评估模型在真实教育场景中的知识掌握与育人素养,涵盖61个学科领域和11种常见题型,总计包含24.602K高质量问答对。这一数据集的建立显著推动了中文教育评估的标准化与深度化,为教育智能化发展提供了重要支撑。
当前挑战
OmniEduBench面临的挑战主要体现在两个方面:在领域问题层面,数据集需解决大语言模型在中文教育场景中知识理解与育人能力协同评估的难题,现有模型在育人维度表现显著落后人类水平近30%;在构建过程中,团队需克服数据来源多样性不足、私有数据获取困难以及生成数据质量控制的复杂性,通过双机过滤与专家验证机制确保数据的挑战性与可靠性。
常用场景
经典使用场景
在人工智能教育评估领域,OmniEduBench作为综合性中文基准测试集,主要用于系统评估大语言模型在知识掌握与育人能力维度的表现。该数据集通过涵盖61门学科、11种试题类型的24,602道高质量题目,为研究者提供了检验模型在真实教育场景下认知理解与教学引导能力的标准化平台,尤其适用于对比分析不同模型在跨学科知识解答与情境化育人任务中的性能差异。
解决学术问题
该数据集有效解决了现有教育评估基准存在的三大局限:其一是突破了单一学科或题型的碎片化评估模式,通过多维度知识体系构建全面能力画像;其二是弥补了传统基准忽视育人能力的缺陷,首次将品格塑造、思维培养等教育核心要素纳入量化评估;其三是针对中文教育场景的特殊性,克服了翻译数据集的文化适应性障碍,为中文教育大模型的发展提供了精准的度量标尺。
衍生相关工作
基于该数据集构建的评估范式已催生多项创新研究,例如针对高难度样本构建的OmniEduBench HARD子集推动了模型推理能力的专项优化。其双维度评估框架被后续研究扩展至多模态教育场景,启发了如情境化德育评估、跨学科知识迁移等新方向。数据集提供的细粒度学科分类体系更为教育大模型的领域适应性研究奠定了方法论基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作