GraphRAG-Bench

github2025-06-10 更新2025-06-13 收录

下载链接：

https://github.com/jeremycp3/GraphRAG-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含5种问题类型，涵盖16个学科，并包含来自20本计算机科学教科书的700万字语料库。数据集的结构包括问题类型和语料库。问题类型包括填空、多项选择、多项选择、判断正误和开放式问题。语料库包含教科书的图像和内容，支持多模态RAG方法。

This dataset includes 5 types of questions, covers 16 academic disciplines, and contains a 7-million-word corpus sourced from 20 computer science textbooks. The dataset structure consists of two parts: question types and the corpus. The five question types are fill-in-the-blank, multiple-choice, multiple-choice, true/false, and open-ended questions. The corpus includes images and textual content from the textbooks, which supports multimodal retrieval-augmented generation (RAG) methods.

创建时间：

2025-06-10

原始信息汇总

GraphRAG-Bench 数据集概述

数据集基本信息

名称: GraphRAG-Bench
用途: 评估图检索增强生成（Graph Retrieval-Augmented Generation）的领域特定推理能力
发布状态: 已发布
相关链接:
- 项目页面: https://deep-polyu.github.io/RAG/
- 论文: https://arxiv.org/abs/2506.02404
- Hugging Face数据集: https://huggingface.co/datasets/jeremycp3/GraphRAG-Bench

数据集内容

问题部分

问题类型: 5种
- 填空题 (Fill-in-blank)
- 多选题 (Multi-choice)
- 多选多选题 (Multi-select)
- 判断题 (True-or-false)
- 开放式问题 (Open-ended)
覆盖学科: 16个学科
问题结构:
- 每个问题包含:
  - 问题文本 (Question)
  - 一级主题 (Level-1 Topic)
  - 二级主题 (Level-2 Topic)
  - 推理依据 (Rationale)
  - 答案 (Answer)

语料库部分

来源: 20本计算机科学教科书
内容:
- 文本内容: .md文件
- 元数据: .json文件
- 图像: 支持多模态RAG方法
总规模: 700万单词

评估方法

评估指标:
- 推理分数 (Reasoning score R): 评估语义对应和推理一致性
- 准确率 (Accuracy): 评估生成结果与真实答案的一致性
评估工具: 提供evaluator.py脚本

数据集结构

Question/ ├── FB.jsonl #填空题 ├── MC.jsonl #多选题 ├── MS.jsonl #多选多选题 ├── OE.jsonl #开放式问题 ├── TF.jsonl #判断题

Corpus/ ├── Textbook_Name/ │ ├── image/ │ ├── Textbook_Name.md │ └── Textbook_Name_content_list.json

引用信息

bibtex @article{xiao2025graphrag, title={GraphRAG-Bench: Challenging Domain-Specific Reasoning for Evaluating Graph Retrieval-Augmented Generation}, author={Xiao, Yilin and Dong, Junnan and Zhou, Chuang and Dong, Su and Zhang, Qianwen and Yin, Di and Sun, Xing and Huang, Xiao}, journal={arXiv preprint arXiv:2506.02404}, year={2025} }

搜集汇总

数据集介绍

构建方式

GraphRAG-Bench数据集构建于计算机科学领域的专业知识基础之上，通过系统化地整合20本计算机科学教材的内容，构建了一个包含700万单词的语料库。该数据集涵盖了16个学科的5种问题类型，包括填空题、多项选择题、多项选择题、判断题和开放式问题。数据集的构建过程包括从教材中提取文本和图像内容，并生成相应的元数据文件，以支持多模态检索增强生成方法。

使用方法

使用GraphRAG-Bench数据集时，研究人员可以将问题文件和输出文件按照预定的目录结构组织。数据集提供的evaluator.py脚本可用于自动评估模型的性能，生成包括推理得分和准确性在内的详细结果。用户还可以通过官方排行榜比较不同模型的性能，进一步推动检索增强生成技术的发展。数据集支持多种问题类型的独立或联合评估，为研究提供了灵活的实验设计空间。

背景与挑战

背景概述

GraphRAG-Bench数据集由香港理工大学Deep-Polyu研究团队于2025年发布，旨在推动图检索增强生成技术在领域特定推理任务中的评估研究。该数据集聚焦计算机科学领域，收录了来自20本权威教材的700万词汇语料库，涵盖16个学科分支的5类问题形式。作为首个面向图结构知识检索与生成联合优化的基准测试平台，其创新性地将教材知识图谱与多模态内容相结合，为评估大语言模型在专业领域的深度推理能力提供了标准化框架。该数据集的建立显著填补了复杂领域知识问答系统评估工具的空白，对促进教育智能化、专业问答系统发展具有里程碑意义。

当前挑战

该数据集主要应对两大核心挑战：在领域问题层面，传统检索增强生成技术难以处理专业教材中隐含的复杂逻辑关系和层级化知识结构，尤其当面对需要多跳推理的开放性问题时，现有方法在语义连贯性和知识准确性方面表现欠佳；在构建过程中，研究团队需克服跨学科知识体系的结构化表示难题，包括教材非结构化内容的语义解析、图像与文本的关联对齐，以及确保16个学科间评估指标的公平性。此外，设计能同时评估生成结果准确性和推理过程合理性的双维度度量标准，也构成了重要的技术挑战。

常用场景

经典使用场景

GraphRAG-Bench数据集在评估图检索增强生成（Graph Retrieval-Augmented Generation, GraphRAG）模型的领域特定推理能力方面具有重要价值。该数据集通过涵盖16个学科的5种问题类型，以及来自20本计算机科学教材的700万词汇语料库，为研究者提供了一个全面且多样化的测试平台。其典型应用场景包括评估模型在复杂推理任务中的表现，如填空、多项选择、多项选择、判断对错和开放式问题等。

解决学术问题

GraphRAG-Bench数据集解决了当前图检索增强生成模型在领域特定推理任务中评估不足的问题。通过提供多样化的学科背景和问题类型，该数据集能够帮助研究者更全面地评估模型在复杂推理、语义对应和一致性方面的表现。其意义在于填补了现有评估数据集的空白，推动了图检索增强生成技术的发展，并为相关研究提供了可靠的基准。

实际应用

在实际应用中，GraphRAG-Bench数据集可用于开发和优化教育辅助工具、智能问答系统以及知识图谱构建。例如，在教育领域，该数据集可以帮助开发能够自动生成高质量问题答案的系统，提升学习效率。在智能客服领域，该数据集可用于训练模型，使其能够更准确地理解和回答专业问题。

数据集最近研究