WildGraphBench

github2026-02-03 更新2026-02-05 收录

下载链接：

https://github.com/BstWPY/WildGraphBench

下载链接

链接失效反馈

官方服务：

资源简介：

WildGraphBench是一个基准数据集，旨在评估基于图的检索增强生成（GraphRAG）系统在现实和挑战性场景中的表现。它利用Wikipedia的结构，使用简洁的摘要和长而多样的外部参考文档，创建了一个“野生”评估环境。数据集包含12个不同主题的1,197个问题，分为三个复杂度级别：单事实问答、多事实问答和摘要任务。

WildGraphBench is a benchmark dataset designed to evaluate the performance of graph-based retrieval-augmented generation (GraphRAG) systems in realistic and challenging scenarios. It leverages the structure of Wikipedia, using concise summaries and long, diverse external reference documents to create a "wild" evaluation environment. The dataset contains 1,197 questions across 12 distinct topics, which are categorized into three complexity levels: single-fact question answering, multi-fact question answering, and summarization tasks.

创建时间：

2026-02-02

原始信息汇总

WildGraphBench 数据集概述

数据集简介

WildGraphBench 是一个用于在现实、具有挑战性的场景中评估基于图的检索增强生成（GraphRAG）系统的基准测试。它利用维基百科的独特结构——简洁的摘要基于长且异构的外部参考文献——来创建一个“野生”的评估环境。

关键特性

野生证据：来自维基百科的外部参考页面，包括新闻网站、博客、PDF和公开报告。
12个多样主题：文化、地理、健康、历史、人类活动、数学、自然、人物、哲学、宗教、社会和技术。
1,197个问题，涵盖三个复杂度级别：
- 单事实问答（667个问题）：基于单个参考文献的查找式问题。
- 多事实问答（191个问题）：需要聚合多个参考文献证据的问题。
- 摘要（339个问题）：在陈述级别评估的章节级摘要任务。

数据集统计

问题按领域分布

领域	单事实	多事实	摘要	总计
文化	86	37	32	155
地理	41	24	33	98
健康	76	19	55	150
历史	25	1	10	36
人类活动	83	13	44	140
数学	21	1	11	33
自然	18	0	10	28
人物	77	32	45	154
哲学	46	6	18	70
宗教	72	4	30	106
社会	66	21	27	114
技术	56	33	24	113
总计	667	191	339	1,197

数据集结构与内容

存储库结构

WildGraphBench/ ├── corpus/ # 用于图构建的语料库 │ └── {domain}/{topic}/ │ ├── {topic}.txt # 维基百科文章（仅作参考） │ ├── reference_pages/ # 📌 用于图构建的参考文献！ │ └── references.jsonl # 参考文献元数据 ├── QA/ # 用于评估的问题 │ └── {domain}/ │ └── questions.jsonl ├── statements/ # 黄金陈述（用于摘要任务） │ └── {domain}/{topic}/ │ └── statements.jsonl └── LICENSE

可用领域与主题

领域	主题	参考文献数量	问题数量
`culture`	漫威电影宇宙	452	155
`geography`	美国	470	98
`health`	COVID-19 大流行	510	150
`history`	第二次世界大战	74	36
`human_activities`	2022年国际足联世界杯	367	140
`mathematics`	质数	50	33
`nature`	2012年太平洋台风季	72	28
`people`	唐纳德·特朗普	547	154
`philosophy`	威权社会主义	257	70
`religion`	对穆斯林的迫害	346	106
`society`	人类	319	114
`technology`	Steam（服务）	442	113

问题格式

单事实/多事实问题： json {"question": "...", "question_type": ["single-fact"], "answer": "...", "ref_urls": ["..."]}
摘要问题： json {"question": "...", "question_type": ["summary"], "gold_statements": ["...", "..."], "ref_urls": ["..."]}

评估方法

使用 tools/eval.py 进行评估： bash python tools/eval.py --gold QA/{domain}/questions.jsonl --pred your_predictions.jsonl --outdir results/

主要评估结果

评估了代表性的 flat-RAG 和 GraphRAG 基线方法，所有方法均使用 gpt-4o-mini 进行图构建和回答。

整体性能

方法	平均准确率	单事实准确率	多事实准确率	召回率	精确率	F1
NaiveRAG	59.79	66.87	35.08	13.54	19.07	15.84
BM25	36.83	41.38	20.94	9.38	19.46	12.66
Fast-GraphRAG	33.56	35.83	25.65	6.81	23.48	10.56
HippoRAG2	64.33	71.51	39.27	11.15	16.76	13.39
MS GraphRAG (local)	38.23	39.43	34.03	9.82	12.64	11.05
MS GraphRAG (global)	54.54	56.52	47.64	12.66	15.13	13.78
LightRAG (hybrid)	56.76	61.32	40.84	12.44	17.70	14.61
LinearRAG	44.87	47.53	35.60	5.81	29.20	9.69

人物子集（含人类表现）

方法	平均准确率	单事实准确率	多事实准确率	召回率	精确率	F1
NaiveRAG	65.82	76.62	28.12	10.48	15.29	8.03
BM25	65.20	74.03	34.38	5.74	16.98	5.03
Fast-GraphRAG	30.43	33.77	18.75	1.48	22.83	1.62
HippoRAG2	64.89	72.73	37.50	7.63	15.69	6.14
MS GraphRAG (local)	35.16	38.96	21.88	4.59	9.17	2.98
MS GraphRAG (global)	56.81	62.34	37.50	5.52	14.13	5.41
LightRAG (hybrid)	74.42	80.52	53.12	5.56	15.69	4.73
LinearRAG	45.26	51.95	21.88	1.52	22.51	1.69
👤 人类	85.66	89.61	71.88	38.59	12.62	15.30

关键发现

单事实问答：扁平检索基线（NaiveRAG）仍然具有竞争力；图结构不会自动为简单查找带来增益。
多事实问答：当证据必须从多个文档聚合时，GraphRAG 方法（尤其是 MS GraphRAG global）显示出明显优势。
摘要任务：所有方法在陈述级别得分较低；NaiveRAG 由于覆盖更广泛的上下文而获得最高召回率，而 GraphRAG 的瓶颈可能限制了证据收集。

引用

如果 WildGraphBench 对您的研究有帮助，请引用论文： bibtex @misc{wang2026wildgraphbenchbenchmarkinggraphragwildsource, title={WildGraphBench: Benchmarking GraphRAG with Wild-Source Corpora}, author={Pengyu Wang and Benfeng Xu and Licheng Zhang and Shaohan Wang and Mingxuan Du and Chiwei Zhu and Zhendong Mao}, year={2026}, eprint={2602.02053}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2602.02053}, }

许可证

本项目采用 Apache License 2.0 许可证 - 详见 LICENSE 文件。

搜集汇总

数据集介绍

构建方式

在信息检索与知识图谱交叉领域，WildGraphBench的构建策略体现了对现实世界复杂性的深刻把握。该数据集巧妙利用维基百科独特的结构，其核心并非直接采用维基百科条目的简洁摘要，而是深入挖掘并整合了条目标注的、来源广泛的外部参考文献。这些参考文献构成了所谓的“野生”证据，涵盖了新闻网站、博客、PDF文档及公开报告等多种异构格式，从而模拟了真实应用中信息分散且形式多样的挑战性环境。数据收集过程围绕十二个主题领域展开，最终形成了包含1,197个问题的语料库，问题依据证据整合的复杂度被精心划分为单事实、多事实及摘要三类任务。

特点

WildGraphBench的显著特征在于其评估场景的高度真实性与任务的层次化设计。数据集的核心价值在于引入了“野生证据”的概念，这些证据直接来源于维基百科条目所引用的原始外部文档，而非经过人工整理或截短的段落，这为评估检索增强生成系统在非结构化、多源信息环境下的鲁棒性提供了绝佳的试验场。此外，数据集覆盖文化、地理、健康、历史等十二个多样化领域，确保了评估的广度。其问题设计呈现出清晰的复杂度梯度，从仅需定位单一证据的单事实问答，到需要跨多个文档进行证据聚合的多事实问答，再到对章节级内容进行陈述级别评估的摘要任务，系统性地考察了模型在不同认知需求下的表现。

使用方法

使用WildGraphBench进行基准测试遵循一个清晰的两阶段流程，旨在系统评估图检索增强生成系统的效能。第一阶段为图构建，研究者需依据数据集提供的结构化目录，从指定领域的`reference_pages`文件夹中读取原始文本文档，以此为基础构建知识图谱，这一步骤明确要求避免使用维基百科文章本身，以确保评估基于原始的“野生”语料。第二阶段为问答与评估，研究者需要针对`QA`目录下按领域组织的JSONL格式问题文件生成答案。对于单事实与多事实问题，需预测具体答案；对于摘要任务，则需生成与黄金陈述相对应的摘要。最终，可利用项目提供的评估脚本，通过配置大型语言模型作为评判员，对预测结果进行自动化、多指标的精确评估，包括准确率、召回率与F1分数等。

背景与挑战

背景概述

随着检索增强生成（RAG）技术在自然语言处理领域的广泛应用，现有基准测试多依赖于简短、结构化的文本片段，难以全面评估系统在真实、复杂场景下的性能。WildGraphBench数据集于2026年由Pengyu Wang等研究人员提出，旨在填补这一空白。该数据集以维基百科的独特结构为基础，利用其简洁摘要与外部异构参考文档之间的关联，构建了一个包含12个多样主题、共计1,197个问题的基准测试。其核心研究问题聚焦于评估基于图的检索增强生成（GraphRAG）系统在“野生”数据源下的表现，推动了复杂知识推理与多文档信息聚合方法的发展，对提升RAG系统在开放域问答与摘要任务中的鲁棒性具有重要影响力。

当前挑战

WildGraphBench所针对的领域问题在于如何有效处理来自真实世界、结构松散且内容冗长的多源文档，以完成复杂问答与摘要任务。这一过程面临多重挑战：在问题层面，系统需精准区分单事实检索、多事实聚合与摘要生成等不同复杂度任务，其中多事实问答要求跨文档证据的融合与推理，对图结构的构建与遍历效率提出了较高要求。在数据集构建过程中，挑战主要源于维基百科外部参考文档的异构性，这些文档涵盖新闻、博客、PDF报告等多种格式，内容质量与结构差异显著，需进行细致的清洗、对齐与标注，以确保评估基准的可靠性与一致性。此外，摘要任务中基于语句级别的评估也增加了标注复杂度与评估难度。

常用场景

经典使用场景

在信息检索与自然语言处理领域，WildGraphBench数据集为图增强检索生成（GraphRAG）系统提供了一个高度逼真的评估环境。该数据集基于维基百科的结构，利用其外部参考文档（如新闻、博客、PDF等）构建了涵盖文化、地理、健康等12个主题的多样化语料库。经典使用场景包括对单事实问答、多事实问答及摘要任务进行系统性评测，尤其适用于检验模型在复杂、异构文档中整合与推理信息的能力，从而推动图结构在检索增强生成中的前沿探索。

解决学术问题

WildGraphBench致力于解决当前图增强检索生成研究中的关键学术问题，即如何评估模型在真实、非结构化数据源上的性能。传统基准多依赖简短、精选的文本，难以反映实际应用中长文档、多源证据的挑战。该数据集通过引入维基百科的外部参考页面，模拟了“野生”数据环境，有效考察了模型在证据聚合、跨文档推理及复杂问答任务中的表现。其意义在于为GraphRAG方法提供了标准化、多维度的评测框架，促进了检索与生成技术的理论深化与实用化进展。

衍生相关工作

围绕WildGraphBench数据集，已衍生出一系列经典的图增强检索生成研究工作。例如，HippoRAG2和MS GraphRAG等方法在该基准上进行了系统评估，揭示了图结构在多事实问答任务中的显著优势；LightRAG（混合版）则在人物主题子集上展现了接近人类水平的性能。这些工作不仅推动了GraphRAG算法的优化与创新，如局部与全局图构建策略的对比，还促进了跨模型比较研究，为后续在复杂检索、证据融合及可解释性人工智能方向的探索奠定了实证基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集