WildGraphBench
收藏WildGraphBench 数据集概述
数据集简介
WildGraphBench 是一个用于在现实、具有挑战性的场景中评估基于图的检索增强生成(GraphRAG)系统的基准测试。它利用维基百科的独特结构——简洁的摘要基于长且异构的外部参考文献——来创建一个“野生”的评估环境。
关键特性
- 野生证据:来自维基百科的外部参考页面,包括新闻网站、博客、PDF和公开报告。
- 12个多样主题:文化、地理、健康、历史、人类活动、数学、自然、人物、哲学、宗教、社会和技术。
- 1,197个问题,涵盖三个复杂度级别:
- 单事实问答(667个问题):基于单个参考文献的查找式问题。
- 多事实问答(191个问题):需要聚合多个参考文献证据的问题。
- 摘要(339个问题):在陈述级别评估的章节级摘要任务。
数据集统计
问题按领域分布
| 领域 | 单事实 | 多事实 | 摘要 | 总计 |
|---|---|---|---|---|
| 文化 | 86 | 37 | 32 | 155 |
| 地理 | 41 | 24 | 33 | 98 |
| 健康 | 76 | 19 | 55 | 150 |
| 历史 | 25 | 1 | 10 | 36 |
| 人类活动 | 83 | 13 | 44 | 140 |
| 数学 | 21 | 1 | 11 | 33 |
| 自然 | 18 | 0 | 10 | 28 |
| 人物 | 77 | 32 | 45 | 154 |
| 哲学 | 46 | 6 | 18 | 70 |
| 宗教 | 72 | 4 | 30 | 106 |
| 社会 | 66 | 21 | 27 | 114 |
| 技术 | 56 | 33 | 24 | 113 |
| 总计 | 667 | 191 | 339 | 1,197 |
数据集结构与内容
存储库结构
WildGraphBench/ ├── corpus/ # 用于图构建的语料库 │ └── {domain}/{topic}/ │ ├── {topic}.txt # 维基百科文章(仅作参考) │ ├── reference_pages/ # 📌 用于图构建的参考文献! │ └── references.jsonl # 参考文献元数据 ├── QA/ # 用于评估的问题 │ └── {domain}/ │ └── questions.jsonl ├── statements/ # 黄金陈述(用于摘要任务) │ └── {domain}/{topic}/ │ └── statements.jsonl └── LICENSE
可用领域与主题
| 领域 | 主题 | 参考文献数量 | 问题数量 |
|---|---|---|---|
culture |
漫威电影宇宙 | 452 | 155 |
geography |
美国 | 470 | 98 |
health |
COVID-19 大流行 | 510 | 150 |
history |
第二次世界大战 | 74 | 36 |
human_activities |
2022年国际足联世界杯 | 367 | 140 |
mathematics |
质数 | 50 | 33 |
nature |
2012年太平洋台风季 | 72 | 28 |
people |
唐纳德·特朗普 | 547 | 154 |
philosophy |
威权社会主义 | 257 | 70 |
religion |
对穆斯林的迫害 | 346 | 106 |
society |
人类 | 319 | 114 |
technology |
Steam(服务) | 442 | 113 |
问题格式
-
单事实/多事实问题: json {"question": "...", "question_type": ["single-fact"], "answer": "...", "ref_urls": ["..."]}
-
摘要问题: json {"question": "...", "question_type": ["summary"], "gold_statements": ["...", "..."], "ref_urls": ["..."]}
评估方法
使用 tools/eval.py 进行评估:
bash
python tools/eval.py --gold QA/{domain}/questions.jsonl --pred your_predictions.jsonl --outdir results/
主要评估结果
评估了代表性的 flat-RAG 和 GraphRAG 基线方法,所有方法均使用 gpt-4o-mini 进行图构建和回答。
整体性能
| 方法 | 平均准确率 | 单事实准确率 | 多事实准确率 | 召回率 | 精确率 | F1 |
|---|---|---|---|---|---|---|
| NaiveRAG | 59.79 | 66.87 | 35.08 | 13.54 | 19.07 | 15.84 |
| BM25 | 36.83 | 41.38 | 20.94 | 9.38 | 19.46 | 12.66 |
| Fast-GraphRAG | 33.56 | 35.83 | 25.65 | 6.81 | 23.48 | 10.56 |
| HippoRAG2 | 64.33 | 71.51 | 39.27 | 11.15 | 16.76 | 13.39 |
| MS GraphRAG (local) | 38.23 | 39.43 | 34.03 | 9.82 | 12.64 | 11.05 |
| MS GraphRAG (global) | 54.54 | 56.52 | 47.64 | 12.66 | 15.13 | 13.78 |
| LightRAG (hybrid) | 56.76 | 61.32 | 40.84 | 12.44 | 17.70 | 14.61 |
| LinearRAG | 44.87 | 47.53 | 35.60 | 5.81 | 29.20 | 9.69 |
人物子集(含人类表现)
| 方法 | 平均准确率 | 单事实准确率 | 多事实准确率 | 召回率 | 精确率 | F1 |
|---|---|---|---|---|---|---|
| NaiveRAG | 65.82 | 76.62 | 28.12 | 10.48 | 15.29 | 8.03 |
| BM25 | 65.20 | 74.03 | 34.38 | 5.74 | 16.98 | 5.03 |
| Fast-GraphRAG | 30.43 | 33.77 | 18.75 | 1.48 | 22.83 | 1.62 |
| HippoRAG2 | 64.89 | 72.73 | 37.50 | 7.63 | 15.69 | 6.14 |
| MS GraphRAG (local) | 35.16 | 38.96 | 21.88 | 4.59 | 9.17 | 2.98 |
| MS GraphRAG (global) | 56.81 | 62.34 | 37.50 | 5.52 | 14.13 | 5.41 |
| LightRAG (hybrid) | 74.42 | 80.52 | 53.12 | 5.56 | 15.69 | 4.73 |
| LinearRAG | 45.26 | 51.95 | 21.88 | 1.52 | 22.51 | 1.69 |
| 👤 人类 | 85.66 | 89.61 | 71.88 | 38.59 | 12.62 | 15.30 |
关键发现
- 单事实问答:扁平检索基线(NaiveRAG)仍然具有竞争力;图结构不会自动为简单查找带来增益。
- 多事实问答:当证据必须从多个文档聚合时,GraphRAG 方法(尤其是 MS GraphRAG global)显示出明显优势。
- 摘要任务:所有方法在陈述级别得分较低;NaiveRAG 由于覆盖更广泛的上下文而获得最高召回率,而 GraphRAG 的瓶颈可能限制了证据收集。
引用
如果 WildGraphBench 对您的研究有帮助,请引用论文: bibtex @misc{wang2026wildgraphbenchbenchmarkinggraphragwildsource, title={WildGraphBench: Benchmarking GraphRAG with Wild-Source Corpora}, author={Pengyu Wang and Benfeng Xu and Licheng Zhang and Shaohan Wang and Mingxuan Du and Chiwei Zhu and Zhendong Mao}, year={2026}, eprint={2602.02053}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2602.02053}, }
许可证
本项目采用 Apache License 2.0 许可证 - 详见 LICENSE 文件。




