IR-Cocktail/fiqa
收藏数据集概述
Cocktail数据集包含16个基准数据集,具体信息如下表所示:
| 数据集 | 原始网站 | Cocktail网站 | Cocktail名称 | 处理后数据的md5值 | 领域 | 相关性类型 | 测试查询数量 | 语料库数量 |
|---|---|---|---|---|---|---|---|---|
| MS MARCO | Homepage | Homepage | msmarco |
985926f3e906fadf0dc6249f23ed850f |
杂项 | 二元 | 6,979 | 542,203 |
| DL19 | Homepage | Homepage | dl19 |
d652af47ec0e844af43109c0acf50b74 |
杂项 | 二元 | 43 | 542,203 |
| DL20 | Homepage | Homepage | dl20 |
3afc48141dce3405ede2b6b937c65036 |
杂项 | 二元 | 54 | 542,203 |
| TREC-COVID | Homepage | Homepage | trec-covid |
1e1e2264b623d9cb7cb50df8141bd535 |
生物医学 | 三层级 | 50 | 128,585 |
| NFCorpus | Homepage | Homepage | nfcorpus |
695327760647984c5014d64b2fee8de0 |
生物医学 | 三层级 | 323 | 3,633 |
| NQ | Homepage | Homepage | nq |
a10bfe33efdec54aafcc974ac989c338 |
维基百科 | 二元 | 3,446 | 104,194 |
| HotpotQA | Homepage | Homepage | hotpotqa |
74467760fff8bf8fbdadd5094bf9dd7b |
维基百科 | 二元 | 7,405 | 111,107 |
| FiQA-2018 | Homepage | Homepage | fiqa |
4e1e688539b0622630fb6e65d39d26fa |
金融 | 二元 | 648 | 57,450 |
| Touché-2020 | Homepage | Homepage | webis-touche2020 |
d58ec465ccd567d8f75edb419b0faaed |
杂项 | 三层级 | 49 | 101,922 |
| CQADupStack | Homepage | Homepage | cqadupstack |
d48d963bc72689c765f381f04fc26f8b |
堆栈交换 | 二元 | 1,563 | 39,962 |
| DBPedia | Homepage | Homepage | dbpedia-entity |
43292f4f1a1927e2e323a4a7fa165fc1 |
维基百科 | 三层级 | 400 | 145,037 |
| SCIDOCS | Homepage | Homepage | scidocs |
4058c0915594ab34e9b2b67f885c595f |
科学 | 二元 | 1,000 | 25,259 |
| FEVER | Homepage | Homepage | fever |
98b631887d8c38772463e9633c477c69 |
维基百科 | 二元 | 6,666 | 114,529 |
| Climate-FEVER | Homepage | Homepage | climate-fever |
5734d6ac34f24f5da496b27e04ff991a |
维基百科 | 二元 | 1,535 | 101,339 |
| SciFact | Homepage | Homepage | scifact |
b5b8e24ccad98c9ca959061af14bf833 |
科学 | 二元 | 300 | 5,183 |
| NQ-UTD | Homepage | Homepage | nq-utd |
2e12e66393829cd4be715718f99d2436 |
杂项 | 三层级 | 80 | 800 |
数据集结构
Cocktail数据集的结构如下:
shell . ├── corpus # 文档 │ ├── human.jsonl # 人工编写的语料库 │ └── llama-2-7b-chat-tmp0.2.jsonl # LLM生成的语料库 ├── qrels │ └── test.tsv # 查询的相关性 └── queries.jsonl # 查询
所有Cocktail数据集必须包含人工编写的语料库、LLM生成的语料库、查询和相关性文件。它们必须采用以下格式:
corpus:一个.jsonl文件(jsonlines),包含一系列字典,每个字典包含三个字段:_id(唯一文档标识符)、title(文档标题,可选)和text(文档段落或段落)。例如:{"_id": "doc1", "title": "title", "text": "text"}queries文件:一个.jsonl文件(jsonlines),包含一系列字典,每个字典包含两个字段:_id(唯一查询标识符)和text(查询文本)。例如:{"_id": "q1", "text": "q1_text"}qrels文件:一个.tsv文件(制表符分隔),包含三列,即query-id、corpus-id和score。第一行作为标题。例如:q1 doc1 1
引用
@article{cocktail, title={Cocktail: A Comprehensive Information Retrieval Benchmark with LLM-Generated Documents Integration}, author={Dai, Sunhao and Liu, Weihao and Zhou, Yuqi and Pang, Liang and Ruan, Rongju and Wang, Gang and Dong, Zhenhua and Xu, Jun and Wen, Ji-Rong}, journal={Findings of the Association for Computational Linguistics: ACL 2024}, year={2024} }
@article{dai2024neural, title={Neural Retrievers are Biased Towards LLM-Generated Content}, author={Dai, Sunhao and Zhou, Yuqi and Pang, Liang and Liu, Weihao and Hu, Xiaolin and Liu, Yong and Zhang, Xiao and Wang, Gang and Xu, Jun}, journal={Proceedings of the 30th ACM SIGKDD Conference on Knowledge Discovery and Data Mining}, year={2024} }



