IR-Cocktail/climate-fever
收藏Hugging Face2024-05-22 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/IR-Cocktail/climate-fever
下载链接
链接失效反馈官方服务:
资源简介:
Cocktail数据集是一个综合性的信息检索基准数据集,包含了16个基准数据集,涵盖了多个领域如生物医学、维基百科、金融、科学等。每个数据集都包含人类编写的语料库和LLM生成的语料库,以及查询和相关性文件。数据集的结构和格式都有详细说明,包括语料库、查询和相关性文件的格式要求。该数据集旨在评估信息检索系统在处理LLM生成内容时的性能。
Cocktail数据集是一个综合性的信息检索基准数据集,包含了16个基准数据集,涵盖了多个领域如生物医学、维基百科、金融、科学等。每个数据集都包含人类编写的语料库和LLM生成的语料库,以及查询和相关性文件。数据集的结构和格式都有详细说明,包括语料库、查询和相关性文件的格式要求。该数据集旨在评估信息检索系统在处理LLM生成内容时的性能。
提供机构:
IR-Cocktail
原始信息汇总
数据集概述
本数据集包含16个基准数据集,每个数据集都提供了详细的信息,包括原始网站、Cocktail网站、Cocktail名称、处理后数据的md5校验和、领域、相关性、测试查询数量和语料库大小。以下是各数据集的概要信息:
| 数据集 | 原始网站 | Cocktail网站 | Cocktail名称 | md5校验和 | 领域 | 相关性 | 测试查询数量 | 语料库大小 |
|---|---|---|---|---|---|---|---|---|
| MS MARCO | Homepage | Homepage | msmarco |
985926f3e906fadf0dc6249f23ed850f |
Misc. | Binary | 6,979 | 542,203 |
| DL19 | Homepage | Homepage | dl19 |
d652af47ec0e844af43109c0acf50b74 |
Misc. | Binary | 43 | 542,203 |
| DL20 | Homepage | Homepage | dl20 |
3afc48141dce3405ede2b6b937c65036 |
Misc. | Binary | 54 | 542,203 |
| TREC-COVID | Homepage | Homepage | trec-covid |
1e1e2264b623d9cb7cb50df8141bd535 |
Bio-Medical | 3-level | 50 | 128,585 |
| NFCorpus | Homepage | Homepage | nfcorpus |
695327760647984c5014d64b2fee8de0 |
Bio-Medical | 3-level | 323 | 3,633 |
| NQ | Homepage | Homepage | nq |
a10bfe33efdec54aafcc974ac989c338 |
Wikipedia | Binary | 3,446 | 104,194 |
| HotpotQA | Homepage | Homepage | hotpotqa |
74467760fff8bf8fbdadd5094bf9dd7b |
Wikipedia | Binary | 7,405 | 111,107 |
| FiQA-2018 | Homepage | Homepage | fiqa |
4e1e688539b0622630fb6e65d39d26fa |
Finance | Binary | 648 | 57,450 |
| Touché-2020 | Homepage | Homepage | webis-touche2020 |
d58ec465ccd567d8f75edb419b0faaed |
Misc. | 3-level | 49 | 101,922 |
| CQADupStack | Homepage | Homepage | cqadupstack |
d48d963bc72689c765f381f04fc26f8b |
StackEx. | Binary | 1,563 | 39,962 |
| DBPedia | Homepage | Homepage | dbpedia-entity |
43292f4f1a1927e2e323a4a7fa165fc1 |
Wikipedia | 3-level | 400 | 145,037 |
| SCIDOCS | Homepage | Homepage | scidocs |
4058c0915594ab34e9b2b67f885c595f |
Scientific | Binary | 1,000 | 25,259 |
| FEVER | Homepage | Homepage | fever |
98b631887d8c38772463e9633c477c69 |
Wikipedia | Binary | 6,666 | 114,529 |
| Climate-FEVER | Homepage | Homepage | climate-fever |
5734d6ac34f24f5da496b27e04ff991a |
Wikipedia | Binary | 1,535 | 101,339 |
| SciFact | Homepage | Homepage | scifact |
b5b8e24ccad98c9ca959061af14bf833 |
Scientific | Binary | 300 | 5,183 |
| NQ-UTD | Homepage | Homepage | nq-utd |
2e12e66393829cd4be715718f99d2436 |
Misc. | 3-level | 80 | 800 |
数据集结构
所有Cocktail数据集必须包含以下结构:
shell . ├── corpus # 文档 │ ├── human.jsonl # 人类编写的语料库 │ └── llama-2-7b-chat-tmp0.2.jsonl # LLM生成的语料库 ├── qrels │ └── test.tsv # 查询的相关性 └── queries.jsonl # 查询
数据集的具体格式要求如下:
corpus: 一个.jsonl文件,包含一系列字典,每个字典包含三个字段:_id(唯一文档标识符),title(文档标题,可选),text(文档段落或文本)。queries文件:一个.jsonl文件,包含一系列字典,每个字典包含两个字段:_id(唯一查询标识符),text(查询文本)。qrels文件:一个.tsv文件,包含三个列:query-id,corpus-id,score。保留第一行为标题。



