IR-Cocktail/scifact

Name: IR-Cocktail/scifact
Creator: IR-Cocktail
Published: 2024-05-22 15:21:15
License: 暂无描述

Hugging Face2024-05-22 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/IR-Cocktail/scifact

下载链接

链接失效反馈

官方服务：

资源简介：

Cocktail数据集包含16个基准数据集，涵盖了多个领域，如生物医学、维基百科、金融、科学等。每个数据集都包含人类编写的语料库和LLM生成的语料库，以及查询和相关性文件。数据格式为jsonl和tsv文件，确保了数据的结构化和可处理性。数据集的设计旨在为信息检索任务提供全面的基准测试，并集成了LLM生成的文档。

提供机构：

IR-Cocktail

原始信息汇总

数据集概述

本数据集包含16个基准数据集，每个数据集均涉及不同的领域和相关性评估标准。以下是各数据集的详细信息：

数据集	原始网站主页	Cocktail网站主页	数据集名称	处理后数据的md5值	领域	相关性评估	测试查询数量	语料库大小
MS MARCO	链接	链接	`msmarco`	值	杂项	二元	6,979	542,203
DL19	链接	链接	`dl19`	值	杂项	二元	43	542,203
DL20	链接	链接	`dl20`	值	杂项	二元	54	542,203
TREC-COVID	链接	链接	`trec-covid`	值	生物医学	三级	50	128,585
NFCorpus	链接	链接	`nfcorpus`	值	生物医学	三级	323	3,633
NQ	链接	链接	`nq`	值	维基百科	二元	3,446	104,194
HotpotQA	链接	链接	`hotpotqa`	值	维基百科	二元	7,405	111,107
FiQA-2018	链接	链接	`fiqa`	值	金融	二元	648	57,450
Touché-2020	链接	链接	`webis-touche2020`	值	杂项	三级	49	101,922
CQADupStack	链接	链接	`cqadupstack`	值	堆栈交换	二元	1,563	39,962
DBPedia	链接	链接	`dbpedia-entity`	值	维基百科	三级	400	145,037
SCIDOCS	链接	链接	`scidocs`	值	科学	二元	1,000	25,259
FEVER	链接	链接	`fever`	值	维基百科	二元	6,666	114,529
Climate-FEVER	链接	链接	`climate-fever`	值	维基百科	二元	1,535	101,339
SciFact	链接	链接	`scifact`	值	科学	二元	300	5,183
NQ-UTD	链接	链接	`nq-utd`	值	杂项	三级	80	800

数据集结构

所有Cocktail数据集必须包含以下内容：

corpus: 一个.jsonl文件，包含一系列字典，每个字典包含三个字段：_id（唯一文档标识符），title（文档标题，可选）和text（文档段落或段落）。
queries文件：一个.jsonl文件，包含一系列字典，每个字典包含两个字段：_id（唯一查询标识符）和text（查询文本）。
qrels文件：一个.tsv文件，包含三个列：query-id，corpus-id和score。第一行作为标题。

5,000+

优质数据集

54 个

任务类型

进入经典数据集