topographrag-bench

Hugging Face2026-05-12 更新2026-05-15 收录

下载链接：

https://huggingface.co/datasets/diandianone123/topographrag-bench

下载链接

链接失效反馈

官方服务：

资源简介：

TopoGraphRAG-Bench数据包是一个用于基准测试的严格标注数据集，包含基于201个MMDocIR文档构建的基准注释和源文档工件。核心文件`annotations/benchmark.json`提供了2,024个带有拓扑和证据标注的基准问题。数据集还提供完整的文档源材料，包括原始PDF文件、MMDocIR格式的布局级和页面级JSONL结构化内容、页面图像，以及裁剪后的图表/表格和文本布局图像，以支持多模态检索与生成任务。`manifest.json`文件提供了基准文档ID到文件名的映射。数据以压缩存档形式分发，解压后即可获得完整布局。该数据集适用于评估涉及复杂文档理解、多模态信息检索和基于拓扑结构的问答系统。

The TopoGraphRAG-Bench dataset is a rigorously annotated benchmark dataset designed for performance evaluation. It contains benchmark annotations and source document artifacts constructed from 201 MMDocIR documents. Its core file `annotations/benchmark.json` includes 2,024 benchmark questions annotated with topology and evidence information. The dataset also provides complete source document materials, including original PDF files, layout-level and page-level JSONL structured content in MMDocIR format, page images, as well as cropped chart/table and text layout images to support multimodal retrieval and generation tasks. The `manifest.json` file provides the mapping from benchmark document IDs to their corresponding filenames. The dataset is distributed as a compressed archive, and the full dataset can be accessed after extraction. This dataset is suitable for evaluating systems involving complex document understanding, multimodal information retrieval, and topology-based question answering.

创建时间：

2026-05-07

搜集汇总

数据集介绍

构建方式

TopoGraphRAG-Bench 数据集的构建以 MMDocIR 语料库中的 201 份文档为基础，系统性地衍生出严格的基准标注。其核心流程涵盖文档的精细解析与注释生成：首先，通过预构建的 `loaded_info.json` 文件承载实体、事实及问答生成所需的中间数据；其次，将原始 PDF 文件、布局级与页面级的 JSONL 文件、页面图像以及裁剪后的图/表与文本布局图像分别压缩为 `.tar.zst` 归档，以确保数据存储的紧凑性与传输的便捷性。最终，依据文档标识符与文件路径的映射清单 `manifest.json`，将所有人工与自动标注的 2,024 道基准问题及其拓扑与证据注释聚合于 `annotations/benchmark.json` 中，形成结构化的评测资源。

特点

该数据集的核心特色在于其兼顾广度与深度的评测设计。一方面，它覆盖了 201 篇真实文档的多模态内容，包括页面图像、布局层级信息及裁剪后的图、表、文本布局，为评估检索增强生成系统提供了丰富的上下文素材。另一方面，其标注体系独具匠心——2000 余道问题不仅要求答案的准确性，更强调对文档拓扑结构（如文档内实体间的关系路径）与证据链的追踪能力，从而能够严格衡量模型在复杂信息空间中的理解与推理水平。此外，所有图像路径均以数据集根目录为基准存储，确保了数据在使用时的直接可解析性。

使用方法

使用此数据集时，首先需通过解压命令 `for archive in archives/*.tar.zst; do tar --use-compress-program=unzstd -xf "$archive"; done` 将全部归档还原至本地目录，从而激活文档 PDF、布局与页面内容、各类型图像等资源。随后，可引用 `manifest.json` 解析文档标识符与对应文件的映射关系，并加载 `annotations/benchmark.json` 获取带有拓扑与证据标注的问题。开发者可据此构建检索增强生成管道的评测流程，将待评估模型对问题的回答与基准中记录的拓扑路径及证据片段进行自动化比对，以检验其从多模态文档中提取并综合信息的能力。

背景与挑战

背景概述

TopoGraphRAG-Bench是一个于2024年发布的基准测试数据集，由多模态文档智能与知识图谱交叉领域的研究者构建，旨在评估基于拓扑结构的图检索增强生成（GraphRAG）系统在多模态文档推理任务中的表现。该数据集以MMDocIR语料库中的201篇学术文档为基础，精心设计了2024道问答题目，每道题均附有拓扑结构与证据标注，从而系统性地检验模型对文档中实体、事实及逻辑关系的理解能力。在检索增强生成（RAG）技术日益成为大语言模型核心应用范式的背景下，TopoGraphRAG-Bench填补了现有基准缺乏对多模态文档拓扑结构关注的问题，为研究如何将图结构信息融入检索与生成过程提供了标准化的评估平台，对推动可信、可解释的文档智能系统发展具有重要价值。

当前挑战

该数据集面临的挑战主要集中在两方面。领域问题层面，现有检索增强生成方法多基于平面文本或简单表格，难以有效建模多模态文档中丰富的空间布局、层级标题、图表引用等拓扑结构，导致模型在理解文档内在逻辑关系时出现知识碎片化与推理错误。构建过程层面，数据集创建需将MMDocIR的布局级、页面级JSONL文件与原始PDF、裁剪图像等多模态数据对齐，并确保每道问题标注的拓扑结构一致，这一过程涉及复杂的跨模态数据整合与语义标注，对数据质量控制与标注成本构成严峻考验。

常用场景

经典使用场景

在人工智能与信息检索的交叉领域中，TopoGraphRAG-Bench 作为一项标杆性数据集，其经典使用场景聚焦于评估与推动基于拓扑结构的图检索增强生成（GraphRAG）系统的性能。该数据集涵盖了2024道精心标注的基准问题，每一道问题都附有严谨的拓扑结构与证据注释，使得研究者能够系统性地验证模型在处理多模态、多层级文档（如PDF、布局图像与文本片段）时的检索与生成能力。通过将原始PDF页面、布局图像及文本布局切片等多元异构信息整合于统一框架中，该数据集为衡量模型在复杂文档理解任务中的鲁棒性与准确性提供了标准化测试平台。

解决学术问题

学术研究领域长期面临的一个核心挑战在于如何高效融合文档的视觉布局信息与文本语义内容，以实现精准的知识检索与事实回答。TopoGraphRAG-Bench 的推出正是在这一背景下应运而生，它有效解决了现有基准中普遍存在的拓扑信息缺失与多模态对齐不足的问题。该数据集通过精细化的拓扑与证据注释，为研究者提供了探索图结构在增强生成过程中作用机理的新途径，从而推动了对文档结构信息（如版面布局、图表关系与文本顺序）的深层利用。其意义在于不仅填补了评估GraphRAG系统在真实文档场景下性能的空白，更为构建更具解释性与上下文感知能力的人工智能系统奠定了坚实基础。

衍生相关工作

围绕TopoGraphRAG-Bench，一系列衍生研究工作已悄然展开，其中最为突出的是对图检索增强生成技术范式的深入拓展。一方面，研究者基于该数据集的拓扑标注，开发出新型的图神经网络架构以编码文档的空间关系，从而优化检索步骤中的候选排序质量；另一方面，其多元化的档案格式催生了诸如跨模态证据融合、自适应布局感知生成等前沿方向。此外，该数据集与上游MMDocIR语料库的天然关联，也促使学界重新审视文档理解任务中的基准设计标准，推动了统一评估框架的共识形成。这些成果共同构筑了一个良性循环，使得TopoGraphRAG-Bench不仅是一个测评工具，更成为了激发创新思想与方法演进的催化剂。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集