ChronoMedKG
收藏数据集概述
数据集名称:ChronoMedKG: A Temporally-Grounded, Evidence-Graded Biomedical Knowledge Graph and Benchmark for Temporal Clinical Reasoning
版本:0.0.1
DOI:10.5281/zenodo.19697542(所有版本的DOI)
发布者:Zenodo
语言:英语
资源类型:Dataset
许可证:Creative Commons Attribution 4.0 International
核心内容
ChronoMedKG是一个基于时间维度、经过证据分级的生物医学知识图谱,旨在支持时间性临床推理。其构建过程如下:
- 采用一个四智能体疾病自主流水线(Disease Profiler, Evidence Harvester, Knowledge Extractor, Quality Controller),覆盖了PrimeKG 17,080种疾病中的13,431种(约78.6%)。
- 从约1300万个提取的三元组中,经过多LLM共识和质量控制过滤,最终得到460,497个经过验证的共识三元组,涉及10,852种疾病。
- 每条边(关系)均附带时间元数据(每个表型的发病窗口、进展阶段、临床里程碑)、可追溯到PMID的证据文本,以及一个六信号可信度评分。
关键特性
- 时间维度:区别于PrimeKG、iKraph、Hetionet等静态知识图谱,ChronoMedKG记录了每个事实在疾病病程中适用的时间点。
- 新增数据:为6,250种疾病添加了发病数据,这些数据在现有参考资源(HPOA, Orphadata, Phenopackets)中不存在;其中1,657种是Orphanet编码的罕见病,首次获得结构化发病表示。
- 验证结果:与Orphadata的验证一致性达92.7%;对100种新增覆盖疾病的三LLM评判小组审计一致性达87.9%。
配套基准测试
数据集同时包含ChronoTQA,这是第一个时间性生物医学QA基准测试:
- 共有3,341个问题,涵盖8种报告任务类型及一个12题的HPOA负向时间性MCQ补充测试。
- 前沿LLMs在时间性项目上的准确率比静态问题低约30个百分点。
- 利用ChronoMedKG进行选择性检索,可以挽救47-65%的长尾失败查询(相比之下,HPOA-RAG仅能挽救17-29%)。
文件清单
| 文件名 | 描述 | 大小 |
|---|---|---|
| validated_triples.jsonl | 黄金标准,经质量控制的主产品 | 527 MB |
| consensus_triples.jsonl.gz | 银标准,质量控制前的共识三元组 | 29.6 MB |
| raw_triples.jsonl.gz | 青铜标准,完整提取日志(1300万行) | 644 MB |
| tqa_benchmark.json | ChronoTQA基准测试 | 3.2 MB |
| pmc_clinical_cases.json | 31个诊断难题病例报告 | 63.5 kB |
| novelty_multi_judge_v2.json | 三LLM评判结果 | 168 kB |
| croissant.json | Croissant 1.0机器学习元数据 | 14.0 kB |
| README.md | 说明文档 | 10.7 kB |
| LICENSE-DATA | 数据许可证 | 3.3 kB |
| NOTICE | 通知文件 | 1.1 kB |
构建成本
在13,431种疾病上的总构建成本(LLM API开销)约为2,400美元。
关键词
temporal knowledge graph, benchmark, temporal reasoning, biomedical knowledge graph, agentic pipeline, LLM extraction, ChronoMedKG, ChronoTQA, knowledge graph completion, retrieval-augmented generation
MeSH主题
Rare Diseases
引用格式
Ahmed, M. S., Firoozbakht, F., Galke Poech, L., Baumbach, J., & Röttger, R. (2026). ChronoMedKG: A Temporally-Grounded, Evidence-Graded Biomedical Knowledge Graph and Benchmark for Temporal Clinical Reasoning (0.0.1) [Data set]. Zenodo. https://doi.org/10.5281/zenodo.19697543




