five

LongRAG

收藏
Hugging Face2024-06-21 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/TIGER-Lab/LongRAG
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含四个配置,分别是hotpot_qa, hotpot_qa_corpus, nq, nq_corpus。每个配置都详细描述了其特征和分割信息,适用于不同的自然语言处理任务。
创建时间:
2024-06-21
原始信息汇总

数据集概述

数据集配置

  • answer_extract_example

    • 特征:
      • question: 字符串类型
      • answers: 字符串序列
      • short_answer: 字符串类型
      • long_answer: 字符串类型
    • 分割:
      • train: 2239字节, 8个样本
    • 下载大小: 5937字节
    • 数据集大小: 2239字节
  • hotpot_qa

    • 特征:
      • query_id: 64位整数
      • query: 字符串类型
      • answer: 字符串序列
      • sp: 字符串序列
      • type: 字符串类型
      • context_titles: 字符串序列
      • context: 字符串类型
    • 分割:
      • full: 1118201401字节, 7405个样本
      • subset_1000: 151675133字节, 1000个样本
      • subset_100: 15173459字节, 100个样本
    • 下载大小: 683309128字节
    • 数据集大小: 1285049993字节
  • hotpot_qa_corpus

    • 特征:
      • corpus_id: 64位整数
      • titles: 字符串序列
      • text: 字符串类型
    • 分割:
      • train: 1671047802字节, 509493个样本
    • 下载大小: 880955518字节
    • 数据集大小: 1671047802字节
  • hotpot_qa_wiki

    • 特征:
      • title: 字符串类型
      • degree: 64位整数
      • abs_adj: 字符串序列
      • full_adj: 字符串序列
      • doc_size: 64位整数
      • doc_dict: 字符串类型
    • 分割:
      • train: 5159902768字节, 5233235个样本
    • 下载大小: 3632892661字节
    • 数据集大小: 5159902768字节
  • nq

    • 特征:
      • query_id: 字符串类型
      • query: 字符串类型
      • answer: 字符串序列
      • context_titles: 字符串序列
      • context: 字符串类型
    • 分割:
      • full: 379137147字节, 3610个样本
      • subset_1000: 106478843字节, 1000个样本
      • subset_100: 9986104字节, 100个样本
    • 下载大小: 283296797字节
    • 数据集大小: 495602094字节
  • nq_corpus

    • 特征:
      • corpus_id: 64位整数
      • titles: 字符串序列
      • text: 字符串类型
    • 分割:
      • train: 12054791599字节, 604351个样本
    • 下载大小: 6942402166字节
    • 数据集大小: 12054791599字节
  • nq_wiki

    • 特征:
      • title: 字符串类型
      • degree: 64位整数
      • abs_adj: 字符串序列
      • full_adj: 字符串序列
      • doc_size: 64位整数
      • doc_dict: 字符串类型
    • 分割:
      • train: 14924056421字节, 3232908个样本
    • 下载大小: 9347635600字节
    • 数据集大小: 14924056421字节

数据文件配置

  • answer_extract_example

    • train: answer_extract_example/train-*
  • hotpot_qa

    • full: hotpot_qa/full-*
    • subset_1000: hotpot_qa/subset_1000-*
    • subset_100: hotpot_qa/subset_100-*
  • hotpot_qa_corpus

    • train: hotpot_qa_corpus/train-*
  • hotpot_qa_wiki

    • train: hotpot_qa_wiki/train-*
  • nq

    • full: nq/full-*
    • subset_1000: nq/subset_1000-*
    • subset_100: nq/subset_100-*
  • nq_corpus

    • train: nq_corpus/train-*
  • nq_wiki

    • train: nq_wiki/train-*
搜集汇总
数据集介绍
main_image_url
构建方式
LongRAG数据集的构建基于传统RAG框架的改进,采用了长检索单元的设计。具体而言,数据集的构建过程包括从Wikipedia的特定时间点(如2018年12月20日和2017年10月1日)的文档中提取信息,并通过超链接将相关文档组织成检索单元。每个检索单元包含多个文档的标题和文本内容,形成4K-token的长检索单元,显著减少了检索单元的总数。此外,数据集还包含了从NQ和HotpotQA数据集中提取的检索输出和读者输入,以及用于答案提取的上下文示例。
特点
LongRAG数据集的特点在于其长检索单元的设计,每个检索单元包含多达4K-token的文本内容,显著降低了检索器的负担。数据集涵盖了NQ和HotpotQA两个主要子集,每个子集都包含了丰富的上下文信息,如问题、答案、支持文档的标题以及长文本上下文。此外,数据集还提供了不同规模的子集(如full、subset_1000、subset_100),便于用户根据需求进行快速调试或全面测试。
使用方法
LongRAG数据集的使用方法主要围绕其长检索单元和长阅读器的设计展开。用户可以通过加载数据集的不同子集(如nq、hotpot_qa等)来获取检索输出和读者输入。对于快速调试,建议从subset_100子集开始,逐步扩展到subset_1000和full子集以获得更稳定的结果。数据集的使用还包括从长答案中提取短答案的示例,用户可以参考论文中的相关章节进行详细操作。此外,数据集提供了丰富的上下文信息,用户可以通过拼接多个检索单元来生成长文本输入,进一步优化模型的性能。
背景与挑战
背景概述
LongRAG数据集由TIGER-AI-Lab于2024年提出,旨在改进传统的检索增强生成(RAG)框架。传统RAG框架的检索单元通常较短,导致检索器负担过重,而读者仅需从短单元中提取答案,这种设计可能导致性能不佳。LongRAG通过引入“长检索器”和“长读者”,将检索单元扩展至4K个token,显著减少了检索单元数量,从而降低了检索器的负担,并提升了检索效果。该数据集在NQ和HotpotQA数据集上取得了与当前最先进模型相媲美的成绩,为RAG与长上下文语言模型的结合提供了新的研究方向。
当前挑战
LongRAG数据集在构建过程中面临的主要挑战包括:1) 如何有效处理长文本单元的检索与生成,确保检索器能够高效地从大规模语料库中找到相关单元;2) 如何在长上下文中精确提取答案,避免信息冗余或遗漏。此外,数据集的构建依赖于大规模维基百科数据的处理,如何确保数据的完整性与一致性也是一个重要挑战。这些挑战不仅影响了数据集的构建效率,也对模型的性能提出了更高的要求。
常用场景
经典使用场景
LongRAG数据集在问答系统领域具有广泛的应用,尤其是在需要处理长文本上下文的场景中。通过将检索单元扩展至4K个token,LongRAG显著减少了检索单元的数量,从而降低了检索器的负担。这一设计使得模型能够更高效地从大规模文档中提取相关信息,特别适用于需要从复杂文档中获取精确答案的任务,如自然语言问答(NQ)和多跳问答(HotpotQA)。
衍生相关工作
LongRAG数据集的推出催生了一系列相关研究工作,尤其是在长上下文语言模型与RAG框架的结合方面。许多研究者基于LongRAG的设计思路,进一步优化了长文本检索和阅读的效率,提出了多种改进模型。这些工作不仅在学术界引起了广泛关注,也为工业界的实际应用提供了新的技术路径,推动了问答系统技术的进一步发展。
数据集最近研究
最新研究方向
在信息检索与生成领域,LongRAG数据集的推出标志着一种新型检索增强生成框架的诞生。该框架通过引入长达4K个token的检索单元,显著减少了检索单元的总数,从而降低了检索器的负担,并提升了检索效率。这一创新不仅优化了传统RAG框架中检索器与阅读器之间的不平衡设计,还为长上下文语言模型的结合提供了新的研究方向。当前,LongRAG在NQ和HotpotQA数据集上的表现已接近最先进模型,展示了其在复杂问答任务中的潜力。未来,LongRAG的研究方向可能进一步探索如何在大规模语料库中实现更高效的检索与生成,以及如何与多模态数据结合,推动智能问答系统的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作