ignore/FlashRAG_datasets
收藏Hugging Face2024-06-27 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/ignore/FlashRAG_datasets
下载链接
链接失效反馈官方服务:
资源简介:
FlashRAG数据集包含了35个广泛用于检索增强生成(RAG)研究的子数据集,这些数据集经过预处理以确保格式一致,便于使用。每个数据集的分割(如训练集、开发集和测试集)都保存为`jsonl`文件,每行是一个包含id、question、golden_answers和metadata的字典。数据集涵盖了问答、文本生成、文本到文本生成等多种任务类别,主要使用英语。
The FlashRAG dataset includes 35 sub-datasets widely used in Retrieval-Augmented Generation (RAG) research, pre-processed to ensure a consistent format for ease of use. Each datasets split (such as training, development, and test sets) is saved as a `jsonl` file, with each line being a dictionary containing id, question, golden_answers, and metadata. The dataset covers various task categories including question-answering, text-generation, and text2text-generation, primarily in English.
提供机构:
ignore
原始信息汇总
数据集卡片 "FlashRAG 数据集"
数据集描述
数据集概述
我们收集并处理了35个广泛用于RAG研究的常用数据集,预处理这些数据集以确保一致的格式,便于使用。对于某些数据集(如Wiki-asp),我们根据社区常用的方法进行了适应性调整,以满足RAG任务的要求。
每个数据集的每个拆分都保存为一个jsonl文件,每行是一个字典,格式如下:
python
{
id: str,
question: str,
golden_answers: List[str],
metadata: dict
}
数据集列表及样本大小
| 任务 | 数据集名称 | 知识来源 | # 训练集 | # 开发集 | # 测试集 |
|---|---|---|---|---|---|
| QA | NQ | wiki | 79,168 | 8,757 | 3,610 |
| QA | TriviaQA | wiki & web | 78,785 | 8,837 | 11,313 |
| QA | PopQA | wiki | / | / | 14,267 |
| QA | SQuAD | wiki | 87,599 | 10,570 | / |
| QA | MSMARCO-QA | web | 808,731 | 101,093 | / |
| QA | NarrativeQA | 书籍和故事 | 32,747 | 3,461 | 10,557 |
| QA | WikiQA | wiki | 20,360 | 2,733 | 6,165 |
| QA | WebQuestions | Google Freebase | 3,778 | / | 2,032 |
| QA | AmbigQA | wiki | 10,036 | 2,002 | / |
| QA | SIQA | - | 33,410 | 1,954 | / |
| QA | CommenseQA | - | 9,741 | 1,221 | / |
| QA | BoolQ | wiki | 9,427 | 3,270 | / |
| QA | PIQA | - | 16,113 | 1,838 | / |
| QA | Fermi | wiki | 8,000 | 1,000 | 1,000 |
| 多跳QA | HotpotQA | wiki | 90,447 | 7,405 | / |
| 多跳QA | 2WikiMultiHopQA | wiki | 15,000 | 12,576 | / |
| 多跳QA | Musique | wiki | 19,938 | 2,417 | / |
| 多跳QA | Bamboogle | wiki | / | / | 125 |
| 长形式QA | ASQA | wiki | 4,353 | 948 | / |
| 长形式QA | ELI5 | 272,634 | 1,507 | / | |
| 开放领域摘要 | WikiASP | wiki | 300,636 | 37,046 | 37,368 |
| 多项选择 | MMLU | - | 99,842 | 1,531 | 14,042 |
| 多项选择 | TruthfulQA | wiki | / | 817 | / |
| 多项选择 | HellaSWAG | ActivityNet | 39,905 | 10,042 | / |
| 多项选择 | ARC | - | 3,370 | 869 | 3,548 |
| 多项选择 | OpenBookQA | - | 4,957 | 500 | 500 |
| 事实验证 | FEVER | wiki | 104,966 | 10,444 | / |
| 对话生成 | WOW | wiki | 63,734 | 3,054 | / |
| 实体链接 | AIDA CoNll-yago | Freebase & wiki | 18,395 | 4,784 | / |
| 实体链接 | WNED | Wiki | / | 8,995 | / |
| 槽填充 | T-REx | DBPedia | 2,284,168 | 5,000 | / |
| 槽填充 | Zero-shot RE | wiki | 147,909 | 3,724 | / |



