five

lhpku20010120/K12-KGraph

收藏
Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/lhpku20010120/K12-KGraph
下载链接
链接失效反馈
官方服务:
资源简介:
K12-KGraph是一个基于人民教育出版社K-12教材构建的课程对齐知识图谱,专注于课程认知,即对学校知识如何组织、连接和排序的结构化理解。当前版本涵盖小学、初中和高中的数学、物理、化学和生物学科,并包含三个从同一图谱衍生的资源:核心知识图谱(K12-KGraph)、用于评估课程理解的图谱衍生基准(K12-Bench)和基于知识图谱的指令调优数据集(K12-Train)。图谱包含7种节点类型和9种关系类型,总计10,685个节点和23,278条边。基准包含23,640个多选问题,训练集包含2,267个问答对。

K12-KGraph is a curriculum-aligned knowledge graph built from official Peoples Education Press (PEP) K-12 textbooks, focusing on curriculum cognition, namely the structured understanding of how school knowledge is organized, connected, and sequenced. The current release covers mathematics, physics, chemistry, and biology across primary, middle, and high school, and includes three resources derived from the same graph: the core knowledge graph (K12-KGraph), a graph-derived benchmark for evaluating curriculum understanding (K12-Bench), and a KG-grounded instruction-tuning dataset (K12-Train). The graph contains 7 node types and 9 relation types, totaling 10,685 nodes and 23,278 edges. The benchmark includes 23,640 multi-select questions, and the training set contains 2,267 question-answer pairs.
提供机构:
lhpku20010120
搜集汇总
数据集介绍
main_image_url
构建方式
K12-KGraph基于中国官方人教版(PEP)K-12教材构建,覆盖数学、物理、化学和生物学四个学科,横跨小学、初中和高中三个阶段。其核心知识图谱包含10,685个节点与23,278条边,节点类型涵盖概念、技能、实验、练习、节、章和书籍,关系类型则包括层次、先修、关联、验证、测试、位置等九种语义。图谱数据以全局和学科子图两种形式存储,并附有课后练习的JSON文件,确保知识结构的完整性与学科特异性。
特点
该数据集的核心特色在于其课程对齐性与结构化认知导向。除了知识图谱本身,还衍生出三大资源:K12-Bench提供23,640道多选题,从衔接、先修、邻域、证据和定位五个维度评估模型对课程结构的理解;K12-Train包含2,267个问答对,用于监督微调;SFT-Baselines则从8个公开指令数据集各抽取2,300条样本,作为对比基线。数据集以CC-BY-NC-SA-4.0许可发布,强调教育领域的专用性。
使用方法
使用时,K12-KGraph及其衍生资源建议协同应用:知识图谱可作为结构化知识库进行查询与推理;K12-Bench用于评测模型在课程认知任务上的表现,每题均为多选;K12-Train则作为图基监督数据,对教育大语言模型进行指令微调。SFT-Baselines为控制实验提供相同规模的对比训练集。所有数据均以JSONL格式提供,便于加载与整合。用户需注意其范围限定于PEP课程体系。
背景与挑战
背景概述
K12-KGraph 构建于2024年,由研究团队基于人民教育出版社(PEP)官方 K-12 教材精心打造,旨在系统性地表征学段知识的组织、连接与序列化逻辑。该数据集聚焦于课程认知这一核心研究问题,即如何结构化理解学校知识的编排体系,从而为教育领域的大语言模型提供可训练与评估的资源。通过整合数学、物理、化学、生物四门学科,K12-KGraph 涵盖了从小学到高中的完整知识图谱,并衍生出基准测试与指令微调数据集。其发布不仅为教育 NLP 研究注入了知识结构化的新维度,也为课程对齐的智能教育系统奠定了基础,推动了认知图谱在真实教育场景中的应用。
当前挑战
该数据集面临的首要挑战在于领域问题的复杂性:教育知识具有严格的前驱后继关系与层级结构,现有通用语言模型往往无法准确捕捉课程认知中的依赖逻辑与概念边界,导致对知识体系的理解流于表面。构建过程中,团队需应对教材内容的多模态异构性,需从纸质文本中精准抽取概念、技能、实验等实体及其关系,同时确保图谱与教学大纲的严格对齐。此外,跨学科知识融合的规范性与习题链接的语义匹配也构成了显著难点,这些挑战共同促使 K12-KGraph 在设计上强调结构化的知识表示与课程对齐的评估基准。
常用场景
经典使用场景
K12-KGraph作为首个严格对齐中国中小学课程标准的跨学科知识图谱,为教育人工智能领域提供了结构化的课程认知基准资源。其最经典的使用场景包括:支撑构建课程知识体系的层级化推理模型、训练具备课程意识的大语言模型,以及评估模型对学科概念之间先修关系、后承关系和共现关系的理解能力。研究者可借助该图谱开展课程知识自动标注、教学路径规划、学科知识补齐等任务,从而推动教育智能系统从通用语义理解向学科认知推理的范式升级。
解决学术问题
该数据集系统性地解决了当前教育人工智能研究中长期悬置的两类学术问题:一是缺乏对齐真实课程标准的可计算知识表示,导致绝大多数问答系统无法感知知识点的年级顺序与学科边界;二是没有专为课程认知设计的评测基准,难以衡量模型对学习层级和知识关联的深层理解。K12-KGraph通过精细建模概念、技能、实验、习题与教材结构的多元关系,并配套K12-Bench多任务评估体系,使得量化分析教育模型的学科推理能力成为可能,填补了课程知识工程与机器认知交叉领域的关键空白。
衍生相关工作
围绕K12-KGraph已在学术社区衍生出一系列开创性工作:其配套的K12-Bench被广泛用作教育大语言模型课程认知能力的标准测试集,催生了基于图谱感知的课程理解模型迭代研究方向;K12-Train指令微调数据则成为验证知识图谱增强型训练范式的关键载体,与DataFlow、Infinity-Instruct等通用指令数据集形成了有力的对比基线。这些衍生工作共同勾勒出从课程知识图谱构建、到认知评测、再到结构化微调的全链条研究范式,为人机协同的教育知识服务提供了坚实的理论支撑与实验证据。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作