LongRAG

Hugging Face2024-06-21 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/TIGER-Lab/LongRAG

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含四个配置，分别是hotpot_qa, hotpot_qa_corpus, nq, nq_corpus。每个配置都详细描述了其特征和分割信息，适用于不同的自然语言处理任务。

创建时间：

2024-06-21

原始信息汇总

数据集概述

数据集配置

answer_extract_example
- 特征:
  - question: 字符串类型
  - answers: 字符串序列
  - short_answer: 字符串类型
  - long_answer: 字符串类型
- 分割:
  - train: 2239字节, 8个样本
- 下载大小: 5937字节
- 数据集大小: 2239字节
hotpot_qa
- 特征:
  - query_id: 64位整数
  - query: 字符串类型
  - answer: 字符串序列
  - sp: 字符串序列
  - type: 字符串类型
  - context_titles: 字符串序列
  - context: 字符串类型
- 分割:
  - full: 1118201401字节, 7405个样本
  - subset_1000: 151675133字节, 1000个样本
  - subset_100: 15173459字节, 100个样本
- 下载大小: 683309128字节
- 数据集大小: 1285049993字节
hotpot_qa_corpus
- 特征:
  - corpus_id: 64位整数
  - titles: 字符串序列
  - text: 字符串类型
- 分割:
  - train: 1671047802字节, 509493个样本
- 下载大小: 880955518字节
- 数据集大小: 1671047802字节
hotpot_qa_wiki
- 特征:
  - title: 字符串类型
  - degree: 64位整数
  - abs_adj: 字符串序列
  - full_adj: 字符串序列
  - doc_size: 64位整数
  - doc_dict: 字符串类型
- 分割:
  - train: 5159902768字节, 5233235个样本
- 下载大小: 3632892661字节
- 数据集大小: 5159902768字节
nq
- 特征:
  - query_id: 字符串类型
  - query: 字符串类型
  - answer: 字符串序列
  - context_titles: 字符串序列
  - context: 字符串类型
- 分割:
  - full: 379137147字节, 3610个样本
  - subset_1000: 106478843字节, 1000个样本
  - subset_100: 9986104字节, 100个样本
- 下载大小: 283296797字节
- 数据集大小: 495602094字节
nq_corpus
- 特征:
  - corpus_id: 64位整数
  - titles: 字符串序列
  - text: 字符串类型
- 分割:
  - train: 12054791599字节, 604351个样本
- 下载大小: 6942402166字节
- 数据集大小: 12054791599字节
nq_wiki
- 特征:
  - title: 字符串类型
  - degree: 64位整数
  - abs_adj: 字符串序列
  - full_adj: 字符串序列
  - doc_size: 64位整数
  - doc_dict: 字符串类型
- 分割:
  - train: 14924056421字节, 3232908个样本
- 下载大小: 9347635600字节
- 数据集大小: 14924056421字节

数据文件配置

answer_extract_example
- train: answer_extract_example/train-*
hotpot_qa
- full: hotpot_qa/full-*
- subset_1000: hotpot_qa/subset_1000-*
- subset_100: hotpot_qa/subset_100-*
hotpot_qa_corpus
- train: hotpot_qa_corpus/train-*
hotpot_qa_wiki
- train: hotpot_qa_wiki/train-*
nq
- full: nq/full-*
- subset_1000: nq/subset_1000-*
- subset_100: nq/subset_100-*
nq_corpus
- train: nq_corpus/train-*
nq_wiki
- train: nq_wiki/train-*

搜集汇总

数据集介绍

构建方式

LongRAG数据集的构建基于传统RAG框架的改进，采用了长检索单元的设计。具体而言，数据集的构建过程包括从Wikipedia的特定时间点（如2018年12月20日和2017年10月1日）的文档中提取信息，并通过超链接将相关文档组织成检索单元。每个检索单元包含多个文档的标题和文本内容，形成4K-token的长检索单元，显著减少了检索单元的总数。此外，数据集还包含了从NQ和HotpotQA数据集中提取的检索输出和读者输入，以及用于答案提取的上下文示例。

特点

LongRAG数据集的特点在于其长检索单元的设计，每个检索单元包含多达4K-token的文本内容，显著降低了检索器的负担。数据集涵盖了NQ和HotpotQA两个主要子集，每个子集都包含了丰富的上下文信息，如问题、答案、支持文档的标题以及长文本上下文。此外，数据集还提供了不同规模的子集（如full、subset_1000、subset_100），便于用户根据需求进行快速调试或全面测试。

使用方法

LongRAG数据集的使用方法主要围绕其长检索单元和长阅读器的设计展开。用户可以通过加载数据集的不同子集（如nq、hotpot_qa等）来获取检索输出和读者输入。对于快速调试，建议从subset_100子集开始，逐步扩展到subset_1000和full子集以获得更稳定的结果。数据集的使用还包括从长答案中提取短答案的示例，用户可以参考论文中的相关章节进行详细操作。此外，数据集提供了丰富的上下文信息，用户可以通过拼接多个检索单元来生成长文本输入，进一步优化模型的性能。

背景与挑战

背景概述

LongRAG数据集由TIGER-AI-Lab于2024年提出，旨在改进传统的检索增强生成（RAG）框架。传统RAG框架的检索单元通常较短，导致检索器负担过重，而读者仅需从短单元中提取答案，这种设计可能导致性能不佳。LongRAG通过引入“长检索器”和“长读者”，将检索单元扩展至4K个token，显著减少了检索单元数量，从而降低了检索器的负担，并提升了检索效果。该数据集在NQ和HotpotQA数据集上取得了与当前最先进模型相媲美的成绩，为RAG与长上下文语言模型的结合提供了新的研究方向。

当前挑战

LongRAG数据集在构建过程中面临的主要挑战包括：1) 如何有效处理长文本单元的检索与生成，确保检索器能够高效地从大规模语料库中找到相关单元；2) 如何在长上下文中精确提取答案，避免信息冗余或遗漏。此外，数据集的构建依赖于大规模维基百科数据的处理，如何确保数据的完整性与一致性也是一个重要挑战。这些挑战不仅影响了数据集的构建效率，也对模型的性能提出了更高的要求。

常用场景

经典使用场景

LongRAG数据集在问答系统领域具有广泛的应用，尤其是在需要处理长文本上下文的场景中。通过将检索单元扩展至4K个token，LongRAG显著减少了检索单元的数量，从而降低了检索器的负担。这一设计使得模型能够更高效地从大规模文档中提取相关信息，特别适用于需要从复杂文档中获取精确答案的任务，如自然语言问答（NQ）和多跳问答（HotpotQA）。

衍生相关工作

LongRAG数据集的推出催生了一系列相关研究工作，尤其是在长上下文语言模型与RAG框架的结合方面。许多研究者基于LongRAG的设计思路，进一步优化了长文本检索和阅读的效率，提出了多种改进模型。这些工作不仅在学术界引起了广泛关注，也为工业界的实际应用提供了新的技术路径，推动了问答系统技术的进一步发展。

数据集最近研究