five

ignore/FlashRAG_datasets

收藏
Hugging Face2024-06-27 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/ignore/FlashRAG_datasets
下载链接
链接失效反馈
官方服务:
资源简介:
FlashRAG数据集包含了35个广泛用于检索增强生成(RAG)研究的子数据集,这些数据集经过预处理以确保格式一致,便于使用。每个数据集的分割(如训练集、开发集和测试集)都保存为`jsonl`文件,每行是一个包含id、question、golden_answers和metadata的字典。数据集涵盖了问答、文本生成、文本到文本生成等多种任务类别,主要使用英语。

The FlashRAG dataset includes 35 sub-datasets widely used in Retrieval-Augmented Generation (RAG) research, pre-processed to ensure a consistent format for ease of use. Each datasets split (such as training, development, and test sets) is saved as a `jsonl` file, with each line being a dictionary containing id, question, golden_answers, and metadata. The dataset covers various task categories including question-answering, text-generation, and text2text-generation, primarily in English.
提供机构:
ignore
原始信息汇总

数据集卡片 "FlashRAG 数据集"

数据集描述

数据集概述

我们收集并处理了35个广泛用于RAG研究的常用数据集,预处理这些数据集以确保一致的格式,便于使用。对于某些数据集(如Wiki-asp),我们根据社区常用的方法进行了适应性调整,以满足RAG任务的要求。

每个数据集的每个拆分都保存为一个jsonl文件,每行是一个字典,格式如下: python { id: str, question: str, golden_answers: List[str], metadata: dict }

数据集列表及样本大小

任务 数据集名称 知识来源 # 训练集 # 开发集 # 测试集
QA NQ wiki 79,168 8,757 3,610
QA TriviaQA wiki & web 78,785 8,837 11,313
QA PopQA wiki / / 14,267
QA SQuAD wiki 87,599 10,570 /
QA MSMARCO-QA web 808,731 101,093 /
QA NarrativeQA 书籍和故事 32,747 3,461 10,557
QA WikiQA wiki 20,360 2,733 6,165
QA WebQuestions Google Freebase 3,778 / 2,032
QA AmbigQA wiki 10,036 2,002 /
QA SIQA - 33,410 1,954 /
QA CommenseQA - 9,741 1,221 /
QA BoolQ wiki 9,427 3,270 /
QA PIQA - 16,113 1,838 /
QA Fermi wiki 8,000 1,000 1,000
多跳QA HotpotQA wiki 90,447 7,405 /
多跳QA 2WikiMultiHopQA wiki 15,000 12,576 /
多跳QA Musique wiki 19,938 2,417 /
多跳QA Bamboogle wiki / / 125
长形式QA ASQA wiki 4,353 948 /
长形式QA ELI5 Reddit 272,634 1,507 /
开放领域摘要 WikiASP wiki 300,636 37,046 37,368
多项选择 MMLU - 99,842 1,531 14,042
多项选择 TruthfulQA wiki / 817 /
多项选择 HellaSWAG ActivityNet 39,905 10,042 /
多项选择 ARC - 3,370 869 3,548
多项选择 OpenBookQA - 4,957 500 500
事实验证 FEVER wiki 104,966 10,444 /
对话生成 WOW wiki 63,734 3,054 /
实体链接 AIDA CoNll-yago Freebase & wiki 18,395 4,784 /
实体链接 WNED Wiki / 8,995 /
槽填充 T-REx DBPedia 2,284,168 5,000 /
槽填充 Zero-shot RE wiki 147,909 3,724 /
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作