IR-Cocktail/nq

Name: IR-Cocktail/nq
Creator: IR-Cocktail
Published: 2024-05-22 15:18:46
License: 暂无描述

Hugging Face2024-05-22 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/IR-Cocktail/nq

下载链接

链接失效反馈

官方服务：

资源简介：

Cocktail数据集是一个综合性的信息检索基准数据集，包含了16个基准数据集，涵盖了多个领域，如生物医学、维基百科、金融等。每个数据集都包含人工编写的语料库、LLM生成的语料库、查询和相关性评分。数据集的格式为JSONL和TSV文件，具体包括corpus、queries和qrels文件。corpus文件包含文档的唯一标识符、标题和文本；queries文件包含查询的唯一标识符和查询文本；qrels文件包含查询ID、语料库ID和相关性评分。

提供机构：

IR-Cocktail

原始信息汇总

数据集概述

本数据集包含16个基准数据集，每个数据集都提供了详细的信息，包括原始网站、Cocktail网站、Cocktail名称、处理后数据的md5校验和、领域、相关性、测试查询数量和语料库大小。以下是各数据集的详细信息：

数据集	原始网站	Cocktail网站	Cocktail名称	md5校验和	领域	相关性	测试查询数量	语料库大小
MS MARCO	Homepage	Homepage	`msmarco`	`985926f3e906fadf0dc6249f23ed850f`	Misc.	Binary	6,979	542,203
DL19	Homepage	Homepage	`dl19`	`d652af47ec0e844af43109c0acf50b74`	Misc.	Binary	43	542,203
DL20	Homepage	Homepage	`dl20`	`3afc48141dce3405ede2b6b937c65036`	Misc.	Binary	54	542,203
TREC-COVID	Homepage	Homepage	`trec-covid`	`1e1e2264b623d9cb7cb50df8141bd535`	Bio-Medical	3-level	50	128,585
NFCorpus	Homepage	Homepage	`nfcorpus`	`695327760647984c5014d64b2fee8de0`	Bio-Medical	3-level	323	3,633
NQ	Homepage	Homepage	`nq`	`a10bfe33efdec54aafcc974ac989c338`	Wikipedia	Binary	3,446	104,194
HotpotQA	Homepage	Homepage	`hotpotqa`	`74467760fff8bf8fbdadd5094bf9dd7b`	Wikipedia	Binary	7,405	111,107
FiQA-2018	Homepage	Homepage	`fiqa`	`4e1e688539b0622630fb6e65d39d26fa`	Finance	Binary	648	57,450
Touché-2020	Homepage	Homepage	`webis-touche2020`	`d58ec465ccd567d8f75edb419b0faaed`	Misc.	3-level	49	101,922
CQADupStack	Homepage	Homepage	`cqadupstack`	`d48d963bc72689c765f381f04fc26f8b`	StackEx.	Binary	1,563	39,962
DBPedia	Homepage	Homepage	`dbpedia-entity`	`43292f4f1a1927e2e323a4a7fa165fc1`	Wikipedia	3-level	400	145,037
SCIDOCS	Homepage	Homepage	`scidocs`	`4058c0915594ab34e9b2b67f885c595f`	Scientific	Binary	1,000	25,259
FEVER	Homepage	Homepage	`fever`	`98b631887d8c38772463e9633c477c69`	Wikipedia	Binary	6,666	114,529
Climate-FEVER	Homepage	Homepage	`climate-fever`	`5734d6ac34f24f5da496b27e04ff991a`	Wikipedia	Binary	1,535	101,339
SciFact	Homepage	Homepage	`scifact`	`b5b8e24ccad98c9ca959061af14bf833`	Scientific	Binary	300	5,183
NQ-UTD	Homepage	Homepage	`nq-utd`	`2e12e66393829cd4be715718f99d2436`	Misc.	3-level	80	800

数据集结构

数据集的结构遵循以下格式：

corpus: 包含人类编写的语料库和LLM生成的语料库，格式为.jsonl，包含_id, title, text字段。
queries: 包含查询信息，格式为.jsonl，包含_id, text字段。
qrels: 包含查询的相关性信息，格式为.tsv，包含query-id, corpus-id, score字段。

5,000+

优质数据集

54 个

任务类型

进入经典数据集