IR-Cocktail/fiqa

Name: IR-Cocktail/fiqa
Creator: IR-Cocktail
Published: 2024-05-22 15:16:13
License: 暂无描述

Hugging Face2024-05-22 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/IR-Cocktail/fiqa

下载链接

链接失效反馈

官方服务：

资源简介：

Cocktail数据集包含16个基准数据集，涵盖了多个领域，如生物医学、维基百科、金融、科学等。每个数据集都包含人类编写的语料库、LLM生成的语料库、查询和相关性文件。数据集的结构包括语料库目录（包含人类编写的语料库和LLM生成的语料库）、查询文件（包含查询的JSONL文件）和相关性文件（包含查询与语料库相关性的TSV文件）。所有文件都遵循特定的格式要求。

提供机构：

IR-Cocktail

原始信息汇总

数据集概述

Cocktail数据集包含16个基准数据集，具体信息如下表所示：

数据集	原始网站	Cocktail网站	Cocktail名称	处理后数据的md5值	领域	相关性类型	测试查询数量	语料库数量
MS MARCO	Homepage	Homepage	`msmarco`	`985926f3e906fadf0dc6249f23ed850f`	杂项	二元	6,979	542,203
DL19	Homepage	Homepage	`dl19`	`d652af47ec0e844af43109c0acf50b74`	杂项	二元	43	542,203
DL20	Homepage	Homepage	`dl20`	`3afc48141dce3405ede2b6b937c65036`	杂项	二元	54	542,203
TREC-COVID	Homepage	Homepage	`trec-covid`	`1e1e2264b623d9cb7cb50df8141bd535`	生物医学	三层级	50	128,585
NFCorpus	Homepage	Homepage	`nfcorpus`	`695327760647984c5014d64b2fee8de0`	生物医学	三层级	323	3,633
NQ	Homepage	Homepage	`nq`	`a10bfe33efdec54aafcc974ac989c338`	维基百科	二元	3,446	104,194
HotpotQA	Homepage	Homepage	`hotpotqa`	`74467760fff8bf8fbdadd5094bf9dd7b`	维基百科	二元	7,405	111,107
FiQA-2018	Homepage	Homepage	`fiqa`	`4e1e688539b0622630fb6e65d39d26fa`	金融	二元	648	57,450
Touché-2020	Homepage	Homepage	`webis-touche2020`	`d58ec465ccd567d8f75edb419b0faaed`	杂项	三层级	49	101,922
CQADupStack	Homepage	Homepage	`cqadupstack`	`d48d963bc72689c765f381f04fc26f8b`	堆栈交换	二元	1,563	39,962
DBPedia	Homepage	Homepage	`dbpedia-entity`	`43292f4f1a1927e2e323a4a7fa165fc1`	维基百科	三层级	400	145,037
SCIDOCS	Homepage	Homepage	`scidocs`	`4058c0915594ab34e9b2b67f885c595f`	科学	二元	1,000	25,259
FEVER	Homepage	Homepage	`fever`	`98b631887d8c38772463e9633c477c69`	维基百科	二元	6,666	114,529
Climate-FEVER	Homepage	Homepage	`climate-fever`	`5734d6ac34f24f5da496b27e04ff991a`	维基百科	二元	1,535	101,339
SciFact	Homepage	Homepage	`scifact`	`b5b8e24ccad98c9ca959061af14bf833`	科学	二元	300	5,183
NQ-UTD	Homepage	Homepage	`nq-utd`	`2e12e66393829cd4be715718f99d2436`	杂项	三层级	80	800

数据集结构

Cocktail数据集的结构如下：

shell . ├── corpus # 文档 │ ├── human.jsonl # 人工编写的语料库 │ └── llama-2-7b-chat-tmp0.2.jsonl # LLM生成的语料库 ├── qrels │ └── test.tsv # 查询的相关性 └── queries.jsonl # 查询

所有Cocktail数据集必须包含人工编写的语料库、LLM生成的语料库、查询和相关性文件。它们必须采用以下格式：

corpus：一个.jsonl文件（jsonlines），包含一系列字典，每个字典包含三个字段：_id（唯一文档标识符）、title（文档标题，可选）和text（文档段落或段落）。例如：{"_id": "doc1", "title": "title", "text": "text"}
queries文件：一个.jsonl文件（jsonlines），包含一系列字典，每个字典包含两个字段：_id（唯一查询标识符）和text（查询文本）。例如：{"_id": "q1", "text": "q1_text"}
qrels文件：一个.tsv文件（制表符分隔），包含三列，即query-id、corpus-id和score。第一行作为标题。例如：q1 doc1 1

引用

@article{cocktail, title={Cocktail: A Comprehensive Information Retrieval Benchmark with LLM-Generated Documents Integration}, author={Dai, Sunhao and Liu, Weihao and Zhou, Yuqi and Pang, Liang and Ruan, Rongju and Wang, Gang and Dong, Zhenhua and Xu, Jun and Wen, Ji-Rong}, journal={Findings of the Association for Computational Linguistics: ACL 2024}, year={2024} }

@article{dai2024neural, title={Neural Retrievers are Biased Towards LLM-Generated Content}, author={Dai, Sunhao and Zhou, Yuqi and Pang, Liang and Liu, Weihao and Hu, Xiaolin and Liu, Yong and Zhang, Xiao and Wang, Gang and Xu, Jun}, journal={Proceedings of the 30th ACM SIGKDD Conference on Knowledge Discovery and Data Mining}, year={2024} }

5,000+

优质数据集

54 个

任务类型

进入经典数据集