hyintell/RetrievalQA
收藏数据集概述
基本信息
- 数据集名称: RetrievalQA
- 许可: MIT
- 任务类别: 问答
- 语言: 英语
- 数据集大小: 1K<n<10K
数据集详情
- 描述: RetrievalQA 是一个短形式的开放域问答数据集,包含2,785个问题,覆盖新世界和长尾知识。其中1,271个问题需要外部知识检索,1,514个问题大多数大型语言模型(LLMs)可以利用内部参数知识回答。
- 目的: 用于评估适应性检索增强生成(RAG)方法的有效性,这一点在先前的研究和最近的RAG评估系统中被忽视,这些系统主要关注任务性能、检索上下文的相关性或答案的忠实性。
数据集结构
-
数据实例示例: json { "data_source": "realtimeqa", "question_id": "realtimeqa_20231013_1", "question": "What percentage of couples are sleep divorced, according to new research?", "ground_truth": ["15%"], "context": [ { "title": "Do We Sleep Longer When We Share a Bed?", "text": "1.4% of respondents have started a sleep divorce, or sleeping separately from their partner, and maintained it in the past year. Adults who have ..." }, ... ], "param_knowledge_answerable": 0 }
data_source: 问题的原始数据集来源question: 问题本身ground_truth: 可能的答案列表context: 检索到的相关证据的列表,每个条目是一个字典,可能包含空标题param_knowledge_answerable: 0表示问题需要外部检索,1表示问题可以使用其参数知识回答
引用信息
bibtex @misc{zhang2024retrievalqa, title={RetrievalQA: Assessing Adaptive Retrieval-Augmented Generation for Short-form Open-Domain Question Answering}, author={Zihan Zhang and Meng Fang and Ling Chen}, year={2024}, eprint={2402.16457}, archivePrefix={arXiv}, primaryClass={cs.CL} }




