five

IR-Cocktail/scifact

收藏
Hugging Face2024-05-22 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/IR-Cocktail/scifact
下载链接
链接失效反馈
官方服务:
资源简介:
Cocktail数据集包含16个基准数据集,涵盖了多个领域,如生物医学、维基百科、金融、科学等。每个数据集都包含人类编写的语料库和LLM生成的语料库,以及查询和相关性文件。数据格式为jsonl和tsv文件,确保了数据的结构化和可处理性。数据集的设计旨在为信息检索任务提供全面的基准测试,并集成了LLM生成的文档。

Cocktail数据集包含16个基准数据集,涵盖了多个领域,如生物医学、维基百科、金融、科学等。每个数据集都包含人类编写的语料库和LLM生成的语料库,以及查询和相关性文件。数据格式为jsonl和tsv文件,确保了数据的结构化和可处理性。数据集的设计旨在为信息检索任务提供全面的基准测试,并集成了LLM生成的文档。
提供机构:
IR-Cocktail
原始信息汇总

数据集概述

本数据集包含16个基准数据集,每个数据集均涉及不同的领域和相关性评估标准。以下是各数据集的详细信息:

数据集 原始网站主页 Cocktail网站主页 数据集名称 处理后数据的md5值 领域 相关性评估 测试查询数量 语料库大小
MS MARCO 链接 链接 msmarco 杂项 二元 6,979 542,203
DL19 链接 链接 dl19 杂项 二元 43 542,203
DL20 链接 链接 dl20 杂项 二元 54 542,203
TREC-COVID 链接 链接 trec-covid 生物医学 三级 50 128,585
NFCorpus 链接 链接 nfcorpus 生物医学 三级 323 3,633
NQ 链接 链接 nq 维基百科 二元 3,446 104,194
HotpotQA 链接 链接 hotpotqa 维基百科 二元 7,405 111,107
FiQA-2018 链接 链接 fiqa 金融 二元 648 57,450
Touché-2020 链接 链接 webis-touche2020 杂项 三级 49 101,922
CQADupStack 链接 链接 cqadupstack 堆栈交换 二元 1,563 39,962
DBPedia 链接 链接 dbpedia-entity 维基百科 三级 400 145,037
SCIDOCS 链接 链接 scidocs 科学 二元 1,000 25,259
FEVER 链接 链接 fever 维基百科 二元 6,666 114,529
Climate-FEVER 链接 链接 climate-fever 维基百科 二元 1,535 101,339
SciFact 链接 链接 scifact 科学 二元 300 5,183
NQ-UTD 链接 链接 nq-utd 杂项 三级 80 800

数据集结构

所有Cocktail数据集必须包含以下内容:

  • corpus: 一个.jsonl文件,包含一系列字典,每个字典包含三个字段:_id(唯一文档标识符),title(文档标题,可选)和text(文档段落或段落)。
  • queries文件:一个.jsonl文件,包含一系列字典,每个字典包含两个字段:_id(唯一查询标识符)和text(查询文本)。
  • qrels文件:一个.tsv文件,包含三个列:query-idcorpus-idscore。第一行作为标题。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作