IR-Cocktail/scifact
收藏Hugging Face2024-05-22 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/IR-Cocktail/scifact
下载链接
链接失效反馈官方服务:
资源简介:
Cocktail数据集包含16个基准数据集,涵盖了多个领域,如生物医学、维基百科、金融、科学等。每个数据集都包含人类编写的语料库和LLM生成的语料库,以及查询和相关性文件。数据格式为jsonl和tsv文件,确保了数据的结构化和可处理性。数据集的设计旨在为信息检索任务提供全面的基准测试,并集成了LLM生成的文档。
Cocktail数据集包含16个基准数据集,涵盖了多个领域,如生物医学、维基百科、金融、科学等。每个数据集都包含人类编写的语料库和LLM生成的语料库,以及查询和相关性文件。数据格式为jsonl和tsv文件,确保了数据的结构化和可处理性。数据集的设计旨在为信息检索任务提供全面的基准测试,并集成了LLM生成的文档。
提供机构:
IR-Cocktail
原始信息汇总
数据集概述
本数据集包含16个基准数据集,每个数据集均涉及不同的领域和相关性评估标准。以下是各数据集的详细信息:
| 数据集 | 原始网站主页 | Cocktail网站主页 | 数据集名称 | 处理后数据的md5值 | 领域 | 相关性评估 | 测试查询数量 | 语料库大小 |
|---|---|---|---|---|---|---|---|---|
| MS MARCO | 链接 | 链接 | msmarco |
值 | 杂项 | 二元 | 6,979 | 542,203 |
| DL19 | 链接 | 链接 | dl19 |
值 | 杂项 | 二元 | 43 | 542,203 |
| DL20 | 链接 | 链接 | dl20 |
值 | 杂项 | 二元 | 54 | 542,203 |
| TREC-COVID | 链接 | 链接 | trec-covid |
值 | 生物医学 | 三级 | 50 | 128,585 |
| NFCorpus | 链接 | 链接 | nfcorpus |
值 | 生物医学 | 三级 | 323 | 3,633 |
| NQ | 链接 | 链接 | nq |
值 | 维基百科 | 二元 | 3,446 | 104,194 |
| HotpotQA | 链接 | 链接 | hotpotqa |
值 | 维基百科 | 二元 | 7,405 | 111,107 |
| FiQA-2018 | 链接 | 链接 | fiqa |
值 | 金融 | 二元 | 648 | 57,450 |
| Touché-2020 | 链接 | 链接 | webis-touche2020 |
值 | 杂项 | 三级 | 49 | 101,922 |
| CQADupStack | 链接 | 链接 | cqadupstack |
值 | 堆栈交换 | 二元 | 1,563 | 39,962 |
| DBPedia | 链接 | 链接 | dbpedia-entity |
值 | 维基百科 | 三级 | 400 | 145,037 |
| SCIDOCS | 链接 | 链接 | scidocs |
值 | 科学 | 二元 | 1,000 | 25,259 |
| FEVER | 链接 | 链接 | fever |
值 | 维基百科 | 二元 | 6,666 | 114,529 |
| Climate-FEVER | 链接 | 链接 | climate-fever |
值 | 维基百科 | 二元 | 1,535 | 101,339 |
| SciFact | 链接 | 链接 | scifact |
值 | 科学 | 二元 | 300 | 5,183 |
| NQ-UTD | 链接 | 链接 | nq-utd |
值 | 杂项 | 三级 | 80 | 800 |
数据集结构
所有Cocktail数据集必须包含以下内容:
corpus: 一个.jsonl文件,包含一系列字典,每个字典包含三个字段:_id(唯一文档标识符),title(文档标题,可选)和text(文档段落或段落)。queries文件:一个.jsonl文件,包含一系列字典,每个字典包含两个字段:_id(唯一查询标识符)和text(查询文本)。qrels文件:一个.tsv文件,包含三个列:query-id,corpus-id和score。第一行作为标题。



