ckg-benchmark

Hugging Face2026-04-28 更新2026-04-29 收录

下载链接：

https://huggingface.co/datasets/danyarm/ckg-benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

CKG Benchmark 是一个专注于知识图谱和检索增强生成（RAG）的基准数据集，旨在评估和比较不同知识检索架构的性能。数据集包含47个教育领域和5个企业领域的结构化有向无环图（DAG）、7,928个基准查询（T1-T5类型）以及各系统的JSONL结果和摘要CSV。数据集的主要发现表明，预结构化知识图谱在F1得分上比RAG高出4倍，同时令牌成本降低11倍。此外，数据集引入了新颖的评估指标，如检索密度分数（RDS）和跳深F1，用于衡量每个令牌的智能度和多跳推理质量。数据集适用于问答、文本检索和知识表示等任务，并提供了详细的领域分类和查询类型说明。数据集采用CC BY 4.0许可，部分学习图谱采用MIT许可。

CKG Benchmark is a benchmark dataset focused on knowledge graphs and Retrieval-Augmented Generation (RAG), designed to evaluate and compare the performance of different knowledge retrieval architectures. The dataset includes structured directed acyclic graphs (DAGs) from 47 educational domains and 5 enterprise domains, 7,928 benchmark queries (T1-T5 types), as well as JSONL results and summary CSVs from various systems. Key findings from the dataset show that pre-structured knowledge graphs outperform RAG by 4 times in F1 score while reducing token costs by 11 times. Additionally, the dataset introduces novel evaluation metrics such as Retrieval Density Score (RDS) and Hop-Depth F1 to measure intelligence per token and multi-hop reasoning quality. The dataset is suitable for tasks like question answering, text retrieval, and knowledge representation, and provides detailed domain classifications and query type descriptions. The dataset is licensed under CC BY 4.0, with some learning graphs under MIT license.

创建时间：

2026-04-28

原始信息汇总

CKG Benchmark 数据集详情

数据集概述

CKG Benchmark 是一个用于评估知识检索架构的基准数据集，包含 47 个基准测试领域 和 5 个企业领域，总计超过 10,000 条数据（10K < n < 100K），覆盖教育、商业、医疗等多个领域。该数据集的核心发现是：预结构化知识图谱（CKG）在 F1 分数上比 RAG 高出 4 倍，同时 token 消耗降低 11 倍。

核心性能对比

系统	Macro F1	每查询 Token 数	RDS（检索密度分数）	运行成本
CKG	0.4709	269	0.00175	$7.81
RAG	0.1231	2,982	0.0000413	$76.23
GraphRAG	0.1200	3,450	0.0000452	$44.43

数据集内容结构

domains/{domain}/learning-graph.csv — 结构化有向无环图（包含概念ID、概念标签、依赖关系、分类ID） queries/queries_{domain}.jsonl — 7,928 条基准查询（T1–T5 类型） results/ — 各系统 JSONL 结果 + 汇总 CSV 文件

领域库（共 52 个）

基准测试教育领域（47 个）

领域	类别
algebra-1	数学
asl-book	语言
automating-instructional-design	教育技术
bioinformatics	生命科学
biology	生命科学
blockchain	计算机科学
calculus	数学
chemistry	自然科学
circuits	工程学
claude-skills	AI / 大语言模型
computer-science	计算机科学
conversational-ai	AI / 大语言模型
data-science-course	数据科学
dementia	医疗保健
digital-citizenship	社会 / 公民教育
digital-electronics	工程学
ecology	自然科学
economics-course	社会科学
ethics-course	哲学
fft-benchmarking	信号处理
functions	数学
genetics	生命科学
geometry-course	数学
glp1-obesity	医疗保健 / 制药
infographics	设计 / 传播
intro-to-graph	计算机科学
intro-to-physics-course	自然科学
it-management-graph	IT 管理
learning-linux	计算机科学
linear-algebra	数学
machine-learning-textbook	AI / 机器学习
microsims	教育技术
modeling-healthcare-data	医疗分析
moss	生物学 / 植物学
organizational-analytics	商业分析
personal-finance	金融
pre-calc	数学
prompt-class	AI / 大语言模型
quantum-computing	计算机科学
reading-for-kindergarten	教育
signal-processing	工程学
statistics-course	数据科学
systems-thinking	系统科学
theory-of-knowledge	哲学
tracking-ai-course	AI / 大语言模型
unicorns	商业 / 金融
us-geography	地理

企业领域（5 个，社区贡献，未基准测试）

领域	类别	概念数
payer-formulary	医疗支付方分析	75
drug-interactions	临床药理学	70
icd10-metabolic	医疗编码	70
cpt-em-coding	医疗计费	80
hipaa-compliance	医疗合规	75

查询类型（共 5 类，7,928 条查询）

类型	描述	示例
T1	实体查找	"什么是复合函数？"
T2	直接依赖关系	"隐式微分的前提条件是什么？"
T3	多跳路径	"从函数到泰勒级数的前提链是什么？"
T4	类别聚合	"列出所有 FOUND 概念"
T5	跨概念关系	"定义域和值域如何与反函数相关？"

双轨设计

Track 1 — McCreary 智能教科书语料库：44 个开源教育领域，人工编写的学习图谱 CSV，涵盖 STEM、专业和基础领域。
Track 2 — 流水线生成的商业领域：GLP-1/肥胖症药理学通过 ClinicalTrials.gov API 在一次会话中自动生成，无需专家策展。CKG F1 = 0.5298，超过人工策展平均水平。

关键发现：CKG 随跳数深度提升，RAG 趋于平缓

跳数深度	CKG F1	RAG F1
0	0.374	0.073
1	0.519	0.066
2	0.573	0.226
3	0.671	0.138
4	0.751	0.166
5	0.772	0.170

新增评估指标

RDS（检索密度分数） = F1 / 消耗的 token 数 — 衡量每 token 的智能程度
跳数深度 F1 — 多跳推理质量与链长的关系
CPCA（每次正确回答的成本） — 每次正确回答的成本

引用格式

bibtex @misc{yarmoluk2026ckg, title={Benchmarking Knowledge Retrieval Architectures Across Educational and Commercial Domains: RAG, GraphRAG, and Compact Knowledge Graphs}, author={Yarmoluk, Daniel and McCreary, Dan}, year={2026}, note={Pre-print in preparation. v0.6.2. Patent pending App #64/040,804.} }

许可证

数据集：CC BY 4.0
源学习图谱：MIT（McCreary 智能教科书）
企业领域：CC BY 4.0

搜集汇总

数据集介绍

构建方式

CKG Benchmark数据集致力于评估检索架构在知识密集型问答任务中的表现，其构建围绕两类知识图谱展开。第一类为McCreary智能教科书语料库，涵盖44个开源教育领域，每个领域均通过手工精心编写学习图（learning-graph）的CSV文件，呈现概念、依赖关系及分类学标识的结构化有向无环图。第二类为管道生成的商业领域图谱，例如从ClinicalTrials.gov API自动组装GLP-1/肥胖药理学知识，无需专家干预。此外，数据集包含7,928条覆盖五类查询（T1至T5）的基准问题，以及各系统运行后的结果文件，为多跳推理、实体检索与概念关系理解提供了丰富的测试场景。

特点

该数据集的核心特点在于其系统性对比了紧凑知识图谱（CKG）与RAG、GraphRAG等检索范式在47个领域上的表现，揭示出CKG在宏F1得分上以0.4709远超RAG的0.1231，同时将每个查询的令牌消耗降低至269个，成本仅为RAG的十分之一。尤为突出的是，CKG的推理质量随跳数深度而跃升，在5跳时F1高达0.772，而RAG则停滞于0.170。数据集还引入了创新指标，如检索密度得分（RDS）和每正确回答成本（CPCA），用以量化每令牌的智能产出。零幻觉特性更通过结构化的图谱构建天然实现，保障了推理的可靠性。

使用方法

使用者可依据数据集层级结构进行探索：在domains目录下，每个领域包含learning-graph.csv作为结构化知识源，queries目录则提供对应的JSONL格式基准问题。评估时，可运行自定义或现有检索系统（如CKG、RAG或GraphRAG）对这些查询进行回答，再将结果存入results目录并与CSV摘要文件比对。HuggingFace空间的在线演示提供了交互式体验，而MCP服务器支持通过pip安装后直接集成至应用程序。研究者亦可通过官方论文与GitHub仓库获取复现详情，该数据集采用CC BY 4.0许可，鼓励学术与商业用途下的广泛验证。

背景与挑战

背景概述

在大型语言模型（LLM）驱动的知识检索领域，基于检索增强生成（RAG）与图检索增强生成（GraphRAG）的架构虽被广泛采用，却长期受困于检索质量随推理深度增加而衰减的瓶颈。CKG Benchmark由Daniel Yarmoluk与Dan McCreary于2026年联合构建，旨在系统性地评估紧凑知识图谱（Compact Knowledge Graphs, CKG）相较于传统RAG方案在多跳推理任务中的表现。该基准涵盖47个经过标注的教育领域与5个企业级领域，包含7,928条结构化查询，横跨实体查找、依赖关系、多跳路径、分类聚合与跨概念关系五种查询类型。其核心发现表明，CKG在宏F1分数上达到0.4709，较RAG提升约4倍，而每查询的令牌消耗仅为其十分之一，并实现了零幻觉的构造保障。这一工作为知识表示与检索系统的评估树立了新的标杆，深刻揭示了预结构化知识图谱在推理效能与成本效率上的双重优势。

当前挑战

CKG Benchmark所应对的核心领域挑战在于：现有RAG与GraphRAG架构在多跳推理任务中表现随路径深度增加而快速衰减，当跳数达到5时，RAG的F1值仅能维持在0.170，而CKG则可攀升至0.772，凸显了检索系统在深层语义关联挖掘上的结构性不足。构建基准过程中面临的挑战包括：第一，需确保47个教育领域中每个学习图（learning-graph）的语义一致性与专家级别质量，这些图采用有向无环图（DAG）结构，须精准编码概念间的依赖关系；第二，设计并生成覆盖五种查询类型的7,928条标杆查询，要求既能反映真实教学场景下的推理复杂度，又需避免查询偏差对评估结果的影响；第三，引入新型度量指标如检索密度分数（RDS）与成本每正确答案（CPCA），以量化智能效率与经济效益，这要求构建者在计算代价与评估粒度之间反复权衡与校准。

常用场景

经典使用场景

ckg-benchmark数据集旨在评估和比较不同知识检索架构在多领域语义问答中的表现。其核心设计围绕结构化的紧凑知识图谱（CKG）展开，包含来自47个教育领域和5个企业领域的超过7900个查询，覆盖实体查找、直接依赖、多跳路径、类别聚合和跨概念关系五种查询类型。该数据集特别适合用于测试检索系统在多层次、跨领域知识推理任务中的精度与效率，是衡量RAG、GraphRAG与CKG架构在多跳推理、token消耗与检索密度等指标上优劣的标杆平台。

衍生相关工作

基于ckg-benchmark，衍生出了多项开创性工作与工具。核心论文《Benchmarking Knowledge Retrieval Architectures Across Educational and Commercial Domains》系统对比了CKG与现有主流检索架构。配套的MCP服务器（ckg-mcp）允许开发者通过pip快速集成，构建低成本的RAG替代方案。此外，该数据集推动了新型评估指标如检索密度得分（RDS）和逐跳F1曲线的提出，并催生了将流水线自动生成知识图谱（如Track 2商业领域）引入基准测试的研究方向，为未来知识图谱与LLM系统的深度融合铺平了道路。

数据集最近研究