ckg-benchmark
收藏Hugging Face2026-04-28 更新2026-04-29 收录
下载链接:
https://huggingface.co/datasets/danyarm/ckg-benchmark
下载链接
链接失效反馈官方服务:
资源简介:
CKG Benchmark 是一个专注于知识图谱和检索增强生成(RAG)的基准数据集,旨在评估和比较不同知识检索架构的性能。数据集包含47个教育领域和5个企业领域的结构化有向无环图(DAG)、7,928个基准查询(T1-T5类型)以及各系统的JSONL结果和摘要CSV。数据集的主要发现表明,预结构化知识图谱在F1得分上比RAG高出4倍,同时令牌成本降低11倍。此外,数据集引入了新颖的评估指标,如检索密度分数(RDS)和跳深F1,用于衡量每个令牌的智能度和多跳推理质量。数据集适用于问答、文本检索和知识表示等任务,并提供了详细的领域分类和查询类型说明。数据集采用CC BY 4.0许可,部分学习图谱采用MIT许可。
CKG Benchmark is a benchmark dataset focused on knowledge graphs and Retrieval-Augmented Generation (RAG), designed to evaluate and compare the performance of different knowledge retrieval architectures. The dataset includes structured directed acyclic graphs (DAGs) from 47 educational domains and 5 enterprise domains, 7,928 benchmark queries (T1-T5 types), as well as JSONL results and summary CSVs from various systems. Key findings from the dataset show that pre-structured knowledge graphs outperform RAG by 4 times in F1 score while reducing token costs by 11 times. Additionally, the dataset introduces novel evaluation metrics such as Retrieval Density Score (RDS) and Hop-Depth F1 to measure intelligence per token and multi-hop reasoning quality. The dataset is suitable for tasks like question answering, text retrieval, and knowledge representation, and provides detailed domain classifications and query type descriptions. The dataset is licensed under CC BY 4.0, with some learning graphs under MIT license.
创建时间:
2026-04-28
原始信息汇总
CKG Benchmark 数据集详情
数据集概述
CKG Benchmark 是一个用于评估知识检索架构的基准数据集,包含 47 个基准测试领域 和 5 个企业领域,总计超过 10,000 条数据(10K < n < 100K),覆盖教育、商业、医疗等多个领域。该数据集的核心发现是:预结构化知识图谱(CKG)在 F1 分数上比 RAG 高出 4 倍,同时 token 消耗降低 11 倍。
核心性能对比
| 系统 | Macro F1 | 每查询 Token 数 | RDS(检索密度分数) | 运行成本 |
|---|---|---|---|---|
| CKG | 0.4709 | 269 | 0.00175 | $7.81 |
| RAG | 0.1231 | 2,982 | 0.0000413 | $76.23 |
| GraphRAG | 0.1200 | 3,450 | 0.0000452 | $44.43 |
数据集内容结构
domains/{domain}/learning-graph.csv — 结构化有向无环图(包含概念ID、概念标签、依赖关系、分类ID) queries/queries_{domain}.jsonl — 7,928 条基准查询(T1–T5 类型) results/ — 各系统 JSONL 结果 + 汇总 CSV 文件
领域库(共 52 个)
基准测试教育领域(47 个)
| 领域 | 类别 |
|---|---|
| algebra-1 | 数学 |
| asl-book | 语言 |
| automating-instructional-design | 教育技术 |
| bioinformatics | 生命科学 |
| biology | 生命科学 |
| blockchain | 计算机科学 |
| calculus | 数学 |
| chemistry | 自然科学 |
| circuits | 工程学 |
| claude-skills | AI / 大语言模型 |
| computer-science | 计算机科学 |
| conversational-ai | AI / 大语言模型 |
| data-science-course | 数据科学 |
| dementia | 医疗保健 |
| digital-citizenship | 社会 / 公民教育 |
| digital-electronics | 工程学 |
| ecology | 自然科学 |
| economics-course | 社会科学 |
| ethics-course | 哲学 |
| fft-benchmarking | 信号处理 |
| functions | 数学 |
| genetics | 生命科学 |
| geometry-course | 数学 |
| glp1-obesity | 医疗保健 / 制药 |
| infographics | 设计 / 传播 |
| intro-to-graph | 计算机科学 |
| intro-to-physics-course | 自然科学 |
| it-management-graph | IT 管理 |
| learning-linux | 计算机科学 |
| linear-algebra | 数学 |
| machine-learning-textbook | AI / 机器学习 |
| microsims | 教育技术 |
| modeling-healthcare-data | 医疗分析 |
| moss | 生物学 / 植物学 |
| organizational-analytics | 商业分析 |
| personal-finance | 金融 |
| pre-calc | 数学 |
| prompt-class | AI / 大语言模型 |
| quantum-computing | 计算机科学 |
| reading-for-kindergarten | 教育 |
| signal-processing | 工程学 |
| statistics-course | 数据科学 |
| systems-thinking | 系统科学 |
| theory-of-knowledge | 哲学 |
| tracking-ai-course | AI / 大语言模型 |
| unicorns | 商业 / 金融 |
| us-geography | 地理 |
企业领域(5 个,社区贡献,未基准测试)
| 领域 | 类别 | 概念数 |
|---|---|---|
| payer-formulary | 医疗支付方分析 | 75 |
| drug-interactions | 临床药理学 | 70 |
| icd10-metabolic | 医疗编码 | 70 |
| cpt-em-coding | 医疗计费 | 80 |
| hipaa-compliance | 医疗合规 | 75 |
查询类型(共 5 类,7,928 条查询)
| 类型 | 描述 | 示例 |
|---|---|---|
| T1 | 实体查找 | "什么是复合函数?" |
| T2 | 直接依赖关系 | "隐式微分的前提条件是什么?" |
| T3 | 多跳路径 | "从函数到泰勒级数的前提链是什么?" |
| T4 | 类别聚合 | "列出所有 FOUND 概念" |
| T5 | 跨概念关系 | "定义域和值域如何与反函数相关?" |
双轨设计
- Track 1 — McCreary 智能教科书语料库:44 个开源教育领域,人工编写的学习图谱 CSV,涵盖 STEM、专业和基础领域。
- Track 2 — 流水线生成的商业领域:GLP-1/肥胖症药理学通过 ClinicalTrials.gov API 在一次会话中自动生成,无需专家策展。CKG F1 = 0.5298,超过人工策展平均水平。
关键发现:CKG 随跳数深度提升,RAG 趋于平缓
| 跳数深度 | CKG F1 | RAG F1 |
|---|---|---|
| 0 | 0.374 | 0.073 |
| 1 | 0.519 | 0.066 |
| 2 | 0.573 | 0.226 |
| 3 | 0.671 | 0.138 |
| 4 | 0.751 | 0.166 |
| 5 | 0.772 | 0.170 |
新增评估指标
- RDS(检索密度分数) = F1 / 消耗的 token 数 — 衡量每 token 的智能程度
- 跳数深度 F1 — 多跳推理质量与链长的关系
- CPCA(每次正确回答的成本) — 每次正确回答的成本
引用格式
bibtex @misc{yarmoluk2026ckg, title={Benchmarking Knowledge Retrieval Architectures Across Educational and Commercial Domains: RAG, GraphRAG, and Compact Knowledge Graphs}, author={Yarmoluk, Daniel and McCreary, Dan}, year={2026}, note={Pre-print in preparation. v0.6.2. Patent pending App #64/040,804.} }
相关链接
- 论文:https://graphifymd.com/paper.html
- 基准测试仓库:https://github.com/Yarmoluk/ckg-benchmark
- MCP 服务器:https://github.com/Yarmoluk/ckg-mcp —
pip install ckg-mcp - 在线演示:https://huggingface.co/spaces/danyarm/ckg-demo
- 商业部署:https://graphifymd.com
许可证
- 数据集:CC BY 4.0
- 源学习图谱:MIT(McCreary 智能教科书)
- 企业领域:CC BY 4.0
搜集汇总
数据集介绍

构建方式
CKG Benchmark数据集致力于评估检索架构在知识密集型问答任务中的表现,其构建围绕两类知识图谱展开。第一类为McCreary智能教科书语料库,涵盖44个开源教育领域,每个领域均通过手工精心编写学习图(learning-graph)的CSV文件,呈现概念、依赖关系及分类学标识的结构化有向无环图。第二类为管道生成的商业领域图谱,例如从ClinicalTrials.gov API自动组装GLP-1/肥胖药理学知识,无需专家干预。此外,数据集包含7,928条覆盖五类查询(T1至T5)的基准问题,以及各系统运行后的结果文件,为多跳推理、实体检索与概念关系理解提供了丰富的测试场景。
特点
该数据集的核心特点在于其系统性对比了紧凑知识图谱(CKG)与RAG、GraphRAG等检索范式在47个领域上的表现,揭示出CKG在宏F1得分上以0.4709远超RAG的0.1231,同时将每个查询的令牌消耗降低至269个,成本仅为RAG的十分之一。尤为突出的是,CKG的推理质量随跳数深度而跃升,在5跳时F1高达0.772,而RAG则停滞于0.170。数据集还引入了创新指标,如检索密度得分(RDS)和每正确回答成本(CPCA),用以量化每令牌的智能产出。零幻觉特性更通过结构化的图谱构建天然实现,保障了推理的可靠性。
使用方法
使用者可依据数据集层级结构进行探索:在domains目录下,每个领域包含learning-graph.csv作为结构化知识源,queries目录则提供对应的JSONL格式基准问题。评估时,可运行自定义或现有检索系统(如CKG、RAG或GraphRAG)对这些查询进行回答,再将结果存入results目录并与CSV摘要文件比对。HuggingFace空间的在线演示提供了交互式体验,而MCP服务器支持通过pip安装后直接集成至应用程序。研究者亦可通过官方论文与GitHub仓库获取复现详情,该数据集采用CC BY 4.0许可,鼓励学术与商业用途下的广泛验证。
背景与挑战
背景概述
在大型语言模型(LLM)驱动的知识检索领域,基于检索增强生成(RAG)与图检索增强生成(GraphRAG)的架构虽被广泛采用,却长期受困于检索质量随推理深度增加而衰减的瓶颈。CKG Benchmark由Daniel Yarmoluk与Dan McCreary于2026年联合构建,旨在系统性地评估紧凑知识图谱(Compact Knowledge Graphs, CKG)相较于传统RAG方案在多跳推理任务中的表现。该基准涵盖47个经过标注的教育领域与5个企业级领域,包含7,928条结构化查询,横跨实体查找、依赖关系、多跳路径、分类聚合与跨概念关系五种查询类型。其核心发现表明,CKG在宏F1分数上达到0.4709,较RAG提升约4倍,而每查询的令牌消耗仅为其十分之一,并实现了零幻觉的构造保障。这一工作为知识表示与检索系统的评估树立了新的标杆,深刻揭示了预结构化知识图谱在推理效能与成本效率上的双重优势。
当前挑战
CKG Benchmark所应对的核心领域挑战在于:现有RAG与GraphRAG架构在多跳推理任务中表现随路径深度增加而快速衰减,当跳数达到5时,RAG的F1值仅能维持在0.170,而CKG则可攀升至0.772,凸显了检索系统在深层语义关联挖掘上的结构性不足。构建基准过程中面临的挑战包括:第一,需确保47个教育领域中每个学习图(learning-graph)的语义一致性与专家级别质量,这些图采用有向无环图(DAG)结构,须精准编码概念间的依赖关系;第二,设计并生成覆盖五种查询类型的7,928条标杆查询,要求既能反映真实教学场景下的推理复杂度,又需避免查询偏差对评估结果的影响;第三,引入新型度量指标如检索密度分数(RDS)与成本每正确答案(CPCA),以量化智能效率与经济效益,这要求构建者在计算代价与评估粒度之间反复权衡与校准。
常用场景
经典使用场景
ckg-benchmark数据集旨在评估和比较不同知识检索架构在多领域语义问答中的表现。其核心设计围绕结构化的紧凑知识图谱(CKG)展开,包含来自47个教育领域和5个企业领域的超过7900个查询,覆盖实体查找、直接依赖、多跳路径、类别聚合和跨概念关系五种查询类型。该数据集特别适合用于测试检索系统在多层次、跨领域知识推理任务中的精度与效率,是衡量RAG、GraphRAG与CKG架构在多跳推理、token消耗与检索密度等指标上优劣的标杆平台。
衍生相关工作
基于ckg-benchmark,衍生出了多项开创性工作与工具。核心论文《Benchmarking Knowledge Retrieval Architectures Across Educational and Commercial Domains》系统对比了CKG与现有主流检索架构。配套的MCP服务器(ckg-mcp)允许开发者通过pip快速集成,构建低成本的RAG替代方案。此外,该数据集推动了新型评估指标如检索密度得分(RDS)和逐跳F1曲线的提出,并催生了将流水线自动生成知识图谱(如Track 2商业领域)引入基准测试的研究方向,为未来知识图谱与LLM系统的深度融合铺平了道路。
数据集最近研究
最新研究方向
当前,CKG Benchmark的发布标志着知识检索架构领域的一项里程碑式进展。该基准通过横跨47个领域的系统评测,揭示了预结构化的紧凑知识图(CKG)在复杂多跳推理任务中相较于传统检索增强生成(RAG)与GraphRAG的显著优势——在降低约11倍令牌成本的同时,实现了F1分数逾4倍的跃升,尤其在高跳数深度场景下性能持续攀升,而RAG则陷入性能瓶颈。这一突破性发现直击大语言模型在事实性问答与知识密集型应用中面临的幻觉与成本困境,为推动下一代高效、可信的知识表示与检索系统提供了坚实的数据支撑与评估范式。
以上内容由遇见数据集搜集并总结生成



