anonymous-K12/K12-KGraph

Name: anonymous-K12/K12-KGraph
Creator: anonymous-K12
Published: 2026-05-02 17:38:45
License: 暂无描述

Hugging Face2026-05-02 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/anonymous-K12/K12-KGraph

下载链接

链接失效反馈

官方服务：

资源简介：

K12-KGraph是一个基于人民教育出版社（PEP）K-12教材构建的课程知识图谱，专注于课程认知，即对学校知识如何组织、连接和排序的结构化理解。数据集包含三个主要部分：核心知识图谱（K12-KGraph）、基于图谱的评估基准（K12-Bench）和基于图谱的指令调优数据集（K12-Train）。知识图谱包含7种节点类型（概念、技能、实验、练习、章节、书）和9种关系类型（属于、前提条件、相关、验证、测试概念、测试技能、出现在、是部分、导致）。当前版本涵盖数学、物理、化学和生物等学科，涵盖小学、初中和高中阶段。核心知识图谱包含10,685个节点和23,278条边，评估基准包含23,640个多选题，训练数据集包含2,267个问答对。

K12-KGraph is a curriculum-aligned knowledge graph built from official Peoples Education Press (PEP) K-12 textbooks. It focuses on curriculum cognition, namely the structured understanding of how school knowledge is organized, connected, and sequenced. The dataset includes three main components: the core knowledge graph (K12-KGraph), a graph-derived benchmark for evaluation (K12-Bench), and a KG-grounded instruction-tuning dataset (K12-Train). The knowledge graph contains 7 node types (Concept, Skill, Experiment, Exercise, Section, Chapter, Book) and 9 relation types (is_a, prerequisites_for, relates_to, verifies, tests_concept, tests_skill, appears_in, is_part_of, leads_to). The current release covers mathematics, physics, chemistry, and biology across primary, middle, and high school. The core knowledge graph consists of 10,685 nodes and 23,278 edges, the benchmark includes 23,640 multi-select questions, and the training dataset contains 2,267 question-answer pairs.

提供机构：

anonymous-K12

原始信息汇总

好的，根据您提供的数据集详情页面HTML内容，以下是该数据集的总结：

数据集概述：K12-KGraph

数据集名称: K12-KGraph
发布者: anonymous-K12
许可证: cc-by-nc-sa-4.0
模态: 文本
格式: json
大小: 1K - 10K
相关库: Datasets, pandas, Polars

核心内容

K12-KGraph 是一个基于中国中小学（K-12）阶段人民教育出版社（PEP）官方教材构建的知识图谱，旨在评估和训练教育领域的大型语言模型（LLMs）的课程认知能力。该数据集包含 7 种节点类型：概念 (Concept)、技能 (Skill)、实验 (Experiment)、练习 (Exercise)、章节 (Section)、章 (Chapter) 和书本 (Book)；以及 9 种关系类型，例如 is_a 和 prerequisite（前置关系）等。

涵盖学科与学段

学科: 数学、物理、化学、生物学
学段: 小学、初中、高中

包含资源

该数据集项目包含三个主要部分：

K12-KGraph: 核心的知识图谱。
K12-Bench: 基于知识图谱构建的基准测试，用于评估模型对课程结构的理解能力。
K12-Train: 基于知识图谱生成的指令微调数据集，用于训练模型。

数据预览

页面提供了数据预览，显示数据集包含约 2.27k 行的训练集，字段包括 question 和 answer，内容涉及生物、化学、物理等多个学科的问答对。

搜集汇总

数据集介绍

构建方式

K12-KGraph的构建以人民教育出版社（PEP）官方K-12教材为蓝本，专注于课程认知的结构化表达。其生成过程严格遵循教材的章节编排、知识递进关系以及学科实践要素，通过人工标注与自动抽取相结合的方式，系统提炼出概念、技能、实验、习题等7类节点，并定义了包含上下位关系、前驱依赖、验证关系、位置映射等在内的9类关系边。最终构筑出一张涵盖数学、物理、化学、生物学四大学科、跨越小初高三个学段的统一知识图谱，其中节点数达10,685个，关系边达23,278条，并以全局图与学科分图两种粒度加以存储。

特点

该数据集最显著的特点在于其课程对齐性与多任务赋能能力。它不仅是纯结构化的知识网络，更衍生出两大应用模块：K12-Bench基准测试集涵盖5类课程理解任务，共计23,640道多选题，可系统评估模型在知识定位、前驱推导、邻域识别等维度的表现；K12-Train指令微调数据集则包含2,267对问答实例，所有训练样本均基于图节点属性或边语义合成，确保与课程逻辑高度一致。三者构成闭环——图源提供结构基础，基准测量认知深度，训练数据实现结构监督下的能力微调。

使用方法

该数据集适用于教育大语言模型的结构化理解评估与训练。使用者可从HuggingFace仓库获取三部分资源：K12-KGraph以JSON文件提供全局图与学科子图，支持基于知识图谱的推理实验；K12-Bench以JSONL格式逐行存储多选题目，可直接用于评测模型的课程结构认知能力；K12-Train同样以JSONL格式提供问答对，适合作为监督微调数据以增强大语言模型对教育知识的组织与应答能力。建议将三者联合使用，以图源为核心基础，基准测试评估能力缺口，训练数据填补结构理解短板，从而系统提升教育场景下的大模型表现。

背景与挑战

背景概述

K12-KGraph是一个面向K-12教育的课程对齐知识图谱，由研究团队基于人教版官方教材构建，专注于课程认知（curriculum cognition），即理解学校知识如何组织、连接和排序。该数据集创建于论文“K12-KGraph: A Curriculum-Aligned Knowledge Graph for Benchmarking and Training Educational LLMs”中，涵盖数学、物理、化学、生物学四门学科，横跨小学、初中、高中三个阶段。数据集不仅包含核心知识图谱（10,685个节点和23,278条边），还衍生出用于评估课程理解能力的基准K12-Bench和用于微调教育大语言模型的指令数据集K12-Train。K12-KGraph的发布填补了教育领域知识图谱的空白，为教育大模型的结构化推理和课程对齐能力提供了标准化评价基准，对智能教育系统的研究具有重要推动力。

当前挑战

K12-KGraph所解决的领域问题在于教育AI模型常缺乏对课程结构的深层理解，难以将知识按学科逻辑和认知顺序进行推理，因此需要构建一个明确编码概念层级、先修关系、实验验证等语义的知识图谱。构建过程中的主要挑战包括：一、从多学科、多学段、多版本教材（仅限人教版）中手工提取和规范化知识节点与关系，确保与课程大纲严格对齐；二、设计覆盖7种节点类型和9种关系类型的精细模式，并保证跨学科知识的一致性；三、在有限资源（2,267条问答对）下合成高质量的指令微调数据，使模型能从图谱结构中学习而非依赖通用语料，平衡数据多样性与图谱约束的严谨性。

常用场景

经典使用场景

K12-KGraph作为一款面向基础教育的课程对齐知识图谱，其经典使用场景聚焦于多学科知识的结构化建模与认知推理。该数据集以人教社K-12教材为核心，将数学、物理、化学、生物四门学科的核心概念、技能、实验及练习以图结构形式组织，并编码了包含概念层级、知识先修关系、评估关联在内的9种关系类型。研究者可基于该图谱实现知识点的精准定位与关联分析，例如利用is_a和prerequisites_for关系自动构建学科知识树，或通过leads_to关系追踪学习路径的递进逻辑。这一场景为教育领域的大语言模型提供了结构化的知识基底，使其能够超越浅层文本理解，深入把握课程编排的内在规律。

衍生相关工作

K12-KGraph的发布催生了若干方向性研究工作。最为直接的是，其配套的K12-Bench基准测试已成为评估大语言模型课程认知能力的标杆工具，启发了后续研究者在图神经网路与预训练语言模型融合方面的探索。K12-Train数据集则推动了教育适应型大语言模型的微调范式，研究者利用该数据集训练出更具学科逻辑的问答系统，其表现显著优于通用模型。此外，知识图谱中先修关系的自动抽取方法被拓展至其他学科，衍生出跨语言课程图谱构建的相关工作。该数据集的开放性质还促进了教育科技企业与学术界在个性化学习路径规划、智能出题等方向上的合作研究。

数据集最近研究