zihanz/RetrievalQA

Name: zihanz/RetrievalQA
Creator: zihanz
Published: 2024-03-01 10:04:50
License: 暂无描述

Hugging Face2024-03-01 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/zihanz/RetrievalQA

下载链接

链接失效反馈

官方服务：

资源简介：

RetrievalQA是一个短形式的开放域问答数据集，包含1,271个问题，覆盖新世界和长尾知识。该数据集确保回答这些问题所需的知识在大多数大型语言模型（LLMs）中不存在，因此LLMs必须真实地决定是否进行检索以正确回答问题。RetrievalQA使我们能够评估自适应检索增强生成（RAG）方法的有效性，这是之前研究和最近的RAG评估系统主要忽视的方面，这些系统仅关注任务性能、检索上下文的相关性或答案的忠实性。

提供机构：

zihanz

原始信息汇总

数据集概述

RetrievalQA 是一个短形式开放领域问答（QA）数据集，包含1,271个问题，涵盖新世界和长尾知识。该数据集确保了回答问题所需的知识在大多数大型语言模型（LLMs）中不存在，因此LLMs必须真实地决定是否进行检索以正确回答问题。RetrievalQA 使我们能够评估**自适应检索增强生成（RAG）**方法的有效性，这一方面在先前的研究和最近的RAG评估系统中主要被忽视，这些系统仅关注任务性能、检索上下文的相关性或答案的忠实度。

数据集来源

仓库: https://github.com/hyintell/RetrievalQA
论文: https://arxiv.org/abs/2402.16457

数据集结构

以下是一个数据实例的示例：

json { "data_source": "realtimeqa", "question_id": "realtimeqa_20231013_1", "question": "What percentage of couples are sleep divorced, according to new research?", "ground_truth": ["15%"], "context": [ { "title": "Do We Sleep Longer When We Share a Bed?", "text": "1.4% of respondents have started a sleep divorce, or sleeping separately from their partner, and maintained it in the past year. Adults who have ..." }, ... ] }

其中：

data_source: 问题来源的数据集
question: 问题
ground_truth: 可能答案的列表
context: 检索到的相关证据的列表，每个证据是一个字典，可能包含title和text字段，注意title可能为空。

引用

bibtex @misc{zhang2024retrievalqa, title={RetrievalQA: Assessing Adaptive Retrieval-Augmented Generation for Short-form Open-Domain Question Answering}, author={Zihan Zhang and Meng Fang and Ling Chen}, year={2024}, eprint={2402.16457}, archivePrefix={arXiv}, primaryClass={cs.CL} }

5,000+

优质数据集

54 个

任务类型

进入经典数据集