five

hyintell/RetrievalQA

收藏
Hugging Face2024-05-28 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/hyintell/RetrievalQA
下载链接
链接失效反馈
官方服务:
资源简介:
RetrievalQA是一个短形式的开放领域问答数据集,包含2,785个问题,涵盖了新知识和长尾知识。其中,1,271个问题需要外部知识检索,1,514个问题大多数大型语言模型(LLM)可以通过内部参数知识回答。该数据集旨在评估自适应检索增强生成(RAG)方法的有效性,这是之前研究和最近RAG评估系统主要忽视的一个方面,这些系统通常只关注任务性能、检索上下文的相关性或答案的忠实性。

RetrievalQA是一个短形式的开放领域问答数据集,包含2,785个问题,涵盖了新知识和长尾知识。其中,1,271个问题需要外部知识检索,1,514个问题大多数大型语言模型(LLM)可以通过内部参数知识回答。该数据集旨在评估自适应检索增强生成(RAG)方法的有效性,这是之前研究和最近RAG评估系统主要忽视的一个方面,这些系统通常只关注任务性能、检索上下文的相关性或答案的忠实性。
提供机构:
hyintell
原始信息汇总

数据集概述

基本信息

  • 数据集名称: RetrievalQA
  • 许可: MIT
  • 任务类别: 问答
  • 语言: 英语
  • 数据集大小: 1K<n<10K

数据集详情

  • 描述: RetrievalQA 是一个短形式的开放域问答数据集,包含2,785个问题,覆盖新世界和长尾知识。其中1,271个问题需要外部知识检索,1,514个问题大多数大型语言模型(LLMs)可以利用内部参数知识回答。
  • 目的: 用于评估适应性检索增强生成(RAG)方法的有效性,这一点在先前的研究和最近的RAG评估系统中被忽视,这些系统主要关注任务性能、检索上下文的相关性或答案的忠实性。

数据集结构

  • 数据实例示例: json { "data_source": "realtimeqa", "question_id": "realtimeqa_20231013_1", "question": "What percentage of couples are sleep divorced, according to new research?", "ground_truth": ["15%"], "context": [ { "title": "Do We Sleep Longer When We Share a Bed?", "text": "1.4% of respondents have started a sleep divorce, or sleeping separately from their partner, and maintained it in the past year. Adults who have ..." }, ... ], "param_knowledge_answerable": 0 }

    • data_source: 问题的原始数据集来源
    • question: 问题本身
    • ground_truth: 可能的答案列表
    • context: 检索到的相关证据的列表,每个条目是一个字典,可能包含空标题
    • param_knowledge_answerable: 0表示问题需要外部检索,1表示问题可以使用其参数知识回答

引用信息

bibtex @misc{zhang2024retrievalqa, title={RetrievalQA: Assessing Adaptive Retrieval-Augmented Generation for Short-form Open-Domain Question Answering}, author={Zihan Zhang and Meng Fang and Ling Chen}, year={2024}, eprint={2402.16457}, archivePrefix={arXiv}, primaryClass={cs.CL} }

搜集汇总
数据集介绍
main_image_url
构建方式
在开放域问答研究领域,RetrievalQA数据集的构建体现了对知识边界与模型能力的精细考量。该数据集从RealtimeQA等多个来源精心筛选了2,785个短形式问题,这些问题覆盖了新兴知识与长尾知识范畴。构建过程中,研究者依据问题是否依赖外部知识,将其明确划分为两类:1,271个需要外部检索的问题与1,514个可依赖模型内部参数化知识回答的问题。每个数据实例均包含问题、真实答案列表、检索到的相关证据上下文及一个关键标签,该标签明确标识了问题对检索增强的需求程度,从而为评估自适应检索增强生成方法奠定了结构化基础。
特点
RetrievalQA数据集的核心特征在于其专注于评估自适应检索增强生成范式。与以往仅关注任务性能、检索相关性或答案忠实度的评估体系不同,该数据集通过精心设计的二元分类标签,明确区分了需要外部检索的问题与模型可凭内部知识应对的问题。这种设计使得研究者能够深入探究大语言模型在何时、以及如何有效地调用外部知识源,从而精准评估RAG系统的自适应能力。数据集涵盖的新世界知识与长尾知识,进一步确保了评估场景的多样性与现实挑战性。
使用方法
使用RetrievalQA数据集时,研究者可将其作为基准工具,系统评估检索增强生成模型的自适应性能。典型流程涉及加载数据集后,针对每个问题,模型需根据其`param_knowledge_answerable`标签判断是否启动检索机制。对于标签为0的问题,模型必须有效利用提供的`context`字段中的检索证据生成答案;对于标签为1的问题,则鼓励模型尝试仅凭内部参数知识进行回答。通过对比模型输出与`ground_truth`列表,可以计算各项性能指标,从而量化分析模型在知识边界判断、检索集成与答案生成等方面的综合能力。
背景与挑战
背景概述
在开放领域问答(Open-Domain QA)研究中,如何有效结合大型语言模型(LLM)的内部参数知识与外部检索信息,一直是提升模型知识覆盖与准确性的核心议题。由张子涵、方萌、陈玲等研究人员于2024年创建的RetrievalQA数据集,正是针对这一前沿问题而设计。该数据集包含2,785个短形式问题,涵盖新兴知识与长尾知识,其中1,271个问题需依赖外部知识检索,其余1,514个问题则主要可通过LLM内部参数知识回答。RetrievalQA的构建,旨在系统评估自适应检索增强生成(RAG)方法的效能,弥补了以往研究仅关注任务性能、检索相关性或答案忠实度的不足,为RAG技术的精细化评测提供了重要基准。
当前挑战
RetrievalQA数据集所应对的领域挑战,在于开放领域问答中模型对动态更新知识与长尾知识的覆盖能力不足,传统评估体系难以衡量自适应检索与参数知识的协同效率。在构建过程中,研究团队面临双重挑战:一是需精准区分问题对内部参数知识与外部检索的依赖,这要求对LLM的知识边界有深入理解;二是收集与标注涵盖新兴世界知识与长尾实体的高质量问答对,确保数据源的时效性与多样性,同时维持检索上下文的准确性与完整性。
常用场景
经典使用场景
在开放域问答研究领域,RetrievalQA数据集为评估自适应检索增强生成(RAG)方法提供了精准的基准。该数据集精心构建了2,785个短形式问题,涵盖新兴知识与长尾知识,其中1,271个问题明确需要外部知识检索,而其余问题则主要依赖模型内部参数知识。研究者通过这一数据集,能够系统分析RAG系统在知识需求动态变化场景下的适应能力,从而深入探究检索机制与生成模型之间的协同效率。
实际应用
在实际应用中,RetrievalQA为构建智能问答系统与知识助手提供了关键的评估工具。基于该数据集开发的评估框架,能够帮助工程师优化系统在应对实时新闻、专业领域长尾问题时的知识检索策略。例如,在客户服务、教育咨询或信息检索平台中,系统可依据问题类型自适应地调用外部知识库或内部模型知识,从而提升回答的准确性与时效性,增强用户体验。
衍生相关工作
围绕RetrievalQA数据集,已衍生出多项聚焦自适应RAG评估的经典研究工作。相关研究主要探索如何设计更精细的检索触发器、动态路由机制以及检索与生成的融合策略。这些工作不仅深化了对RAG系统适应性的理解,也催生了新的模型架构与评估指标,进一步推动了开放域问答技术向更智能、更高效的方向演进,形成了该领域一个活跃的研究分支。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作