KG-RAG Datasets

github2024-03-29 更新2024-05-31 收录

下载链接：

https://github.com/docugami/KG-RAG-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集旨在通过包含多文档问答、使用更真实的较长文档以及包含不同难度的问答，反映真实客户的使用情况。数据集包括单文档单块RAG、单文档多块RAG和多文档RAG等多种类型的问题。

This dataset is designed to reflect real-world customer usage by incorporating multi-document question answering, utilizing more realistic longer documents, and including questions of varying difficulty levels. The dataset encompasses various types of questions, such as single-document single-chunk RAG, single-document multi-chunk RAG, and multi-document RAG.

创建时间：

2023-12-12

原始信息汇总

Docugami Knowledge Graph Retrieval Augmented Generation (KG-RAG) Datasets 概述

数据集目标

反映真实客户使用情况，包括：
1. 跨多个文档的问答，不仅仅是少数几个文档。
2. 使用更真实的长期文档，类似于客户使用的文档，不仅仅是标准的学术示例。
3. 包含不同难度的问答，具体包括：
  - 单文档单块RAG：答案可在单个文档的连续区域（文本或表格块）中找到。
  - 单文档多块RAG：答案可在单个文档的多个非连续区域（文本或表格块）中找到。
  - 多文档RAG：答案可在多个文档的多个非连续区域（文本或表格块）中找到。

数据集状态

数据集名称	状态	文档数量	问答对数量
SEC 10-Q	v1	20	195
NTSB Aviation Incident Accident Reports	Draft	20	进行中
NIH Clinical Trial Protocols	Draft	20	进行中
US Federal Agency Reports	Draft	20	进行中

搜集汇总

数据集介绍

构建方式

KG-RAG数据集旨在反映实际客户使用场景，通过构建多文档问答任务来弥补现有评估数据集的不足。数据集的构建基于真实的长文档，涵盖了多种文档类型，如SEC 10-Q报告、NTSB航空事故报告、NIH临床试验协议以及美国联邦机构报告。每个数据集包含多个文档和问答对，问题设计分为单文档单块、单文档多块以及多文档多块三种类型，以模拟不同复杂度的检索增强生成任务。

特点

KG-RAG数据集的特点在于其多样性和实用性。数据集不仅包含大量文档，还设计了不同难度的问题，涵盖了从简单到复杂的多种检索场景。特别是，数据集中的文档均为真实的长文档，而非标准化的学术示例，这使得其更贴近实际应用。此外，数据集还提供了详细的文档和问答对统计信息，便于用户了解数据集的规模和结构。

使用方法

使用KG-RAG数据集时，用户可以通过加载特定数据集目录下的文档和问答对文件进行实验。数据集支持多种检索增强生成任务，用户可以根据问题类型选择合适的检索策略。例如，对于单文档单块问题，用户只需检索单个文档中的特定块；而对于多文档多块问题，则需要跨多个文档进行检索。数据集还提供了详细的README文件，指导用户如何加载和使用数据，确保实验的顺利进行。

背景与挑战

背景概述

KG-RAG数据集由Docugami团队创建，旨在解决现有评估数据集在反映实际生产环境中检索增强生成（RAG）用例方面的不足。该数据集于近期发布，专注于多文档的复杂问答场景，涵盖了从单一文档到多文档的多样化问题类型。其核心研究问题在于如何通过RAG技术从大量文档中高效检索相关信息，并生成准确的答案。KG-RAG数据集的构建基于真实客户需求，采用了长文档和多样化问题设计，显著提升了RAG系统在实际应用中的表现，对自然语言处理和信息检索领域具有重要影响力。

当前挑战

KG-RAG数据集面临的挑战主要体现在两个方面。首先，在解决领域问题上，RAG系统需要处理多文档、多片段的复杂检索任务，这对系统的检索精度和上下文理解能力提出了极高要求。例如，多文档RAG问题要求系统能够跨文档整合信息，而单文档多片段问题则要求系统在单一文档内精准定位多个相关片段。其次，在数据集构建过程中，如何确保文档的多样性和问题的复杂性，同时保持数据的高质量和一致性，是构建团队面临的主要挑战。此外，长文档的处理和多样化问题的设计也增加了数据集的构建难度。

常用场景

经典使用场景

KG-RAG数据集在知识图谱检索增强生成（RAG）领域中具有重要应用，特别是在处理多文档问答任务时。该数据集通过模拟真实客户使用场景，提供了多文档、长文本的问答对，涵盖了从单一文档到多文档的复杂检索需求。研究人员可以利用该数据集评估和改进RAG系统在处理多文档信息时的性能，尤其是在金融、航空和医疗等领域的文档分析中。

衍生相关工作

KG-RAG数据集的发布催生了一系列相关研究工作，特别是在多文档RAG系统的优化和应用方面。例如，基于该数据集的研究提出了改进的检索算法和生成模型，以更好地处理跨文档信息整合任务。此外，该数据集还激发了在金融、航空和医疗等领域的特定应用研究，推动了RAG技术在实际场景中的落地和推广。这些工作进一步验证了KG-RAG数据集在推动学术研究和实际应用中的重要作用。

数据集最近研究