five

IR-Cocktail/fiqa

收藏
Hugging Face2024-05-22 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/IR-Cocktail/fiqa
下载链接
链接失效反馈
官方服务:
资源简介:
Cocktail数据集包含16个基准数据集,涵盖了多个领域,如生物医学、维基百科、金融、科学等。每个数据集都包含人类编写的语料库、LLM生成的语料库、查询和相关性文件。数据集的结构包括语料库目录(包含人类编写的语料库和LLM生成的语料库)、查询文件(包含查询的JSONL文件)和相关性文件(包含查询与语料库相关性的TSV文件)。所有文件都遵循特定的格式要求。

Cocktail数据集包含16个基准数据集,涵盖了多个领域,如生物医学、维基百科、金融、科学等。每个数据集都包含人类编写的语料库、LLM生成的语料库、查询和相关性文件。数据集的结构包括语料库目录(包含人类编写的语料库和LLM生成的语料库)、查询文件(包含查询的JSONL文件)和相关性文件(包含查询与语料库相关性的TSV文件)。所有文件都遵循特定的格式要求。
提供机构:
IR-Cocktail
原始信息汇总

数据集概述

Cocktail数据集包含16个基准数据集,具体信息如下表所示:

数据集 原始网站 Cocktail网站 Cocktail名称 处理后数据的md5值 领域 相关性类型 测试查询数量 语料库数量
MS MARCO Homepage Homepage msmarco 985926f3e906fadf0dc6249f23ed850f 杂项 二元 6,979 542,203
DL19 Homepage Homepage dl19 d652af47ec0e844af43109c0acf50b74 杂项 二元 43 542,203
DL20 Homepage Homepage dl20 3afc48141dce3405ede2b6b937c65036 杂项 二元 54 542,203
TREC-COVID Homepage Homepage trec-covid 1e1e2264b623d9cb7cb50df8141bd535 生物医学 三层级 50 128,585
NFCorpus Homepage Homepage nfcorpus 695327760647984c5014d64b2fee8de0 生物医学 三层级 323 3,633
NQ Homepage Homepage nq a10bfe33efdec54aafcc974ac989c338 维基百科 二元 3,446 104,194
HotpotQA Homepage Homepage hotpotqa 74467760fff8bf8fbdadd5094bf9dd7b 维基百科 二元 7,405 111,107
FiQA-2018 Homepage Homepage fiqa 4e1e688539b0622630fb6e65d39d26fa 金融 二元 648 57,450
Touché-2020 Homepage Homepage webis-touche2020 d58ec465ccd567d8f75edb419b0faaed 杂项 三层级 49 101,922
CQADupStack Homepage Homepage cqadupstack d48d963bc72689c765f381f04fc26f8b 堆栈交换 二元 1,563 39,962
DBPedia Homepage Homepage dbpedia-entity 43292f4f1a1927e2e323a4a7fa165fc1 维基百科 三层级 400 145,037
SCIDOCS Homepage Homepage scidocs 4058c0915594ab34e9b2b67f885c595f 科学 二元 1,000 25,259
FEVER Homepage Homepage fever 98b631887d8c38772463e9633c477c69 维基百科 二元 6,666 114,529
Climate-FEVER Homepage Homepage climate-fever 5734d6ac34f24f5da496b27e04ff991a 维基百科 二元 1,535 101,339
SciFact Homepage Homepage scifact b5b8e24ccad98c9ca959061af14bf833 科学 二元 300 5,183
NQ-UTD Homepage Homepage nq-utd 2e12e66393829cd4be715718f99d2436 杂项 三层级 80 800

数据集结构

Cocktail数据集的结构如下:

shell . ├── corpus # 文档 │ ├── human.jsonl # 人工编写的语料库 │ └── llama-2-7b-chat-tmp0.2.jsonl # LLM生成的语料库 ├── qrels │ └── test.tsv # 查询的相关性 └── queries.jsonl # 查询

所有Cocktail数据集必须包含人工编写的语料库、LLM生成的语料库、查询和相关性文件。它们必须采用以下格式:

  • corpus:一个.jsonl文件(jsonlines),包含一系列字典,每个字典包含三个字段:_id(唯一文档标识符)、title(文档标题,可选)和text(文档段落或段落)。例如:{"_id": "doc1", "title": "title", "text": "text"}
  • queries文件:一个.jsonl文件(jsonlines),包含一系列字典,每个字典包含两个字段:_id(唯一查询标识符)和text(查询文本)。例如:{"_id": "q1", "text": "q1_text"}
  • qrels文件:一个.tsv文件(制表符分隔),包含三列,即query-idcorpus-idscore。第一行作为标题。例如:q1 doc1 1

引用

@article{cocktail, title={Cocktail: A Comprehensive Information Retrieval Benchmark with LLM-Generated Documents Integration}, author={Dai, Sunhao and Liu, Weihao and Zhou, Yuqi and Pang, Liang and Ruan, Rongju and Wang, Gang and Dong, Zhenhua and Xu, Jun and Wen, Ji-Rong}, journal={Findings of the Association for Computational Linguistics: ACL 2024}, year={2024} }

@article{dai2024neural, title={Neural Retrievers are Biased Towards LLM-Generated Content}, author={Dai, Sunhao and Zhou, Yuqi and Pang, Liang and Liu, Weihao and Hu, Xiaolin and Liu, Yong and Zhang, Xiao and Wang, Gang and Xu, Jun}, journal={Proceedings of the 30th ACM SIGKDD Conference on Knowledge Discovery and Data Mining}, year={2024} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作