CogBench
收藏github2026-04-07 更新2026-04-08 收录
下载链接:
https://github.com/kg-bnu/CogBench
下载链接
链接失效反馈官方服务:
资源简介:
CogBench是一个基准测试,用于评估大型语言模型在教育问答中的认知对齐能力。它包含2,100个K-12数学问题,每个问题都有多个有效的、认知差异化的解决方案。平均每个问题有2.16个解决方案,每个问题涉及3.2个课程知识组件。年级覆盖率为:小学40%,初中35%,高中25%。
CogBench is a benchmark dataset designed to evaluate the cognitive alignment capability of large language models (LLMs) in educational question answering. It contains 2,100 K-12 mathematics problems, each of which has multiple valid, cognitively differentiated solutions. On average, each problem includes 2.16 solutions and covers 3.2 curriculum knowledge components. The grade coverage is distributed as 40% for primary school, 35% for junior high school, and 25% for senior high school.
创建时间:
2026-04-06
原始信息汇总
CogBench 数据集概述
数据集简介
CogBench 是一个用于评估大语言模型在教育问答任务中认知对齐能力的基准数据集。
数据集构成
- 数据规模:包含 2,100 道 K-12 数学题目。
- 数据来源:1.2K 奥林匹克竞赛题目(公开网站)与 0.9K CMMath 题目。
- 题目覆盖:
- 小学(1-6年级):40%
- 初中(7-9年级):35%
- 高中(10-12年级):25%
- 解决方案:每道题目平均提供 2.16 个有效且认知层面不同的解决方案。
- 知识标注:每道题目平均关联 3.2 个课程知识组件。
核心特征
- 课程感知知识图谱:构建了与年级水平和解题策略对齐的课程感知知识图谱。
- 多解决方案生成:通过多轮采样和受控解码生成多样化的正确解题路径。
- 认知对齐标注:通过专家验证,将解决方案与知识、年级水平进行映射对齐。
评估任务与指标
- 评估任务:
- 无约束问答:在没有认知提示的情况下解题。
- 年级约束问答:生成符合指定年级水平的解决方案。
- 知识约束问答:仅使用提供的课程知识解题。
- 评估指标:
- 认知准确率:答案正确且符合目标认知水平。
- 知识一致性:遵循年级相适应的课程知识。
- 知识差异度:不同年级间知识使用的区分度。
使用与获取
- 数据集地址:https://huggingface.co/datasets/realEthanTLu/CogBench
- 项目主页:https://cogbench.lutong.space/
- 生成基础模型:Qwen3-30B-A3B
- 评估脚本:代码库中提供了完整的评估程序。
主要发现
- 标准准确率与无约束问答下的认知对齐度存在较大差距。
- 年级约束提示能有效提升模型的对齐表现。
- 知识约束提示可能因激活更高层次的参数模式而降低对齐度。
- 微调能提升认知准确率和知识一致性,但可能轻微降低标准准确率和知识差异度。
- 自动评估指标与专家在一致性和多样性上的人工判断具有良好相关性。
引用信息
如需使用本数据集或构建框架,请引用相关论文。
搜集汇总
数据集介绍

构建方式
在构建教育认知对齐基准的背景下,CogBench采用多解决方案对齐评估流程进行系统构建。该数据集从公开的奥林匹克数学问题与CMMath问题中选取2100道K-12数学题目,通过多轮采样与受控解码技术生成多样化的正确解答轨迹,并利用概率衰减机制促进新颖推理路径的发现。随后,基于官方课程标准构建课程感知知识图谱,将知识组织为按年级标记的累积子图,并通过专家人工验证实现解决方案与认知层级之间的精细对齐,确保了数据在认知维度上的高质量标注。
特点
CogBench的显著特点在于其深度集成的认知对齐评估框架。数据集不仅涵盖小学至高中全学段的数学问题,更确保每道题目平均配备2.16种在不同认知层级上有效的解决方案,并关联3.2个课程知识组件。其核心在于引入课程感知知识图谱,该图谱超越传统的主题层次,编码了程序性策略与推理模式。通过设计无约束、年级约束与知识约束三种问答任务,并辅以认知准确性、知识一致性与知识差异性三项互补指标,该基准能够全面度量大语言模型在生成教育内容时与人类认知发展的对齐程度。
使用方法
为评估模型在教育问答中的认知对齐能力,研究者可通过HuggingFace平台获取CogBench数据集。使用过程主要涉及三种提示模式:无约束模式仅提供问题标题,年级约束模式额外指定目标年级,知识约束模式则限制模型仅使用提供的课程知识进行解答。评估脚本依次执行响应生成、响应评估、知识使用识别与指标计算等步骤,最终输出包括标准准确率及认知对齐相关度量在内的综合评分,从而系统量化模型在不同认知约束下的表现。
背景与挑战
背景概述
在人工智能与教育技术交叉融合的背景下,评估大型语言模型在认知层面的对齐能力成为一项前沿课题。CogBench数据集由北京师范大学的研究团队于2026年创建,旨在系统性地评测大型语言模型在教育问答任务中的认知对齐表现。该数据集聚焦于K-12数学领域,涵盖了从小学到高中的2100道题目,每道题目均标注了多种基于不同认知水平的有效解法,并与课程知识图谱紧密关联。其核心研究问题在于探索模型是否能够像人类学生一样,根据不同的年级认知阶段,运用恰当的知识和策略进行推理与解答。这一工作为理解模型的教育适用性提供了严谨的基准,对推动自适应教育智能体的发展具有重要影响力。
当前挑战
CogBench所应对的核心领域挑战,在于如何超越传统问答的答案准确性,转而评估模型在复杂教育场景下的认知适配性。这要求模型不仅给出正确答案,还需确保其推理过程所使用的知识、策略与特定年级学生的认知水平相匹配,即解决“认知对齐”这一高阶问题。在数据集构建过程中,研究团队面临多重技术挑战:首先,为每道数学题目自动生成多样且正确的、体现不同认知层次的解决方案,需要精巧的解码控制与概率衰减机制以避免重复;其次,构建与官方课程标准对齐的、细粒度到解题策略层面的课程感知知识图谱,并实现解决方案与图谱知识的精准对齐,依赖嵌入表示与专家人工校验的复杂结合,确保标注的可靠性与教育有效性。
常用场景
经典使用场景
在人工智能与教育技术交叉领域,CogBench数据集为评估大型语言模型在K-12数学教育问答中的认知对齐能力提供了标准化基准。其经典使用场景聚焦于通过多解生成与课程知识图谱的映射,系统性地测试模型在不同认知约束下的表现。研究者利用该数据集中的2100道数学题目及其多解标注,能够深入探究模型是否能够像人类学生一样,依据年级适配的知识策略进行推理,而非仅仅追求答案的正确性。
实际应用
在实际应用层面,CogBench为开发适配不同学龄段学生的智能辅导系统提供了关键评估工具。教育科技公司可利用该基准测试其问答模型的认知适配性,确保系统提供的解题策略与学生的知识储备和认知发展阶段相匹配。例如,在构建个性化学习路径时,系统能依据模型在年级约束任务中的表现,筛选出符合特定学生认知水平的解释与引导方法,从而提升学习效率与体验。
衍生相关工作
围绕CogBench数据集,已衍生出一系列关注模型认知对齐能力提升的经典研究工作。这些工作主要沿着两个方向展开:一是探索更有效的提示工程策略,如年级约束提示,以引导模型生成更符合目标认知水平的解答;二是研究基于该数据集标注的监督微调与直接偏好优化方法,旨在从参数层面调整模型的推理模式,使其更紧密地对齐人类课程知识图谱所定义的认知路径。
以上内容由遇见数据集搜集并总结生成



