IR-Cocktail/dl19

Name: IR-Cocktail/dl19
Creator: IR-Cocktail
Published: 2024-05-22 15:16:43
License: 暂无描述

Hugging Face2024-05-22 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/IR-Cocktail/dl19

下载链接

链接失效反馈

官方服务：

资源简介：

Cocktail数据集是一个综合性的信息检索基准数据集，包含了16个基准数据集，涵盖了多个领域如生物医学、维基百科、金融等。每个数据集都包含人类编写的语料库和LLM生成的语料库，以及查询和相关性文件。数据集的格式包括`.jsonl`文件（用于语料库和查询）和`.tsv`文件（用于相关性评分）。该数据集旨在评估信息检索系统在处理LLM生成内容时的性能。

提供机构：

IR-Cocktail

原始信息汇总

数据集概述

本数据集包含16个基准数据集，每个数据集均涉及不同的领域和相关性评估级别。以下是各数据集的详细信息：

数据集	原始网站	Cocktail网站	Cocktail名称	处理后数据的md5值	领域	相关性评估级别	测试查询数量	语料库大小
MS MARCO	https://microsoft.github.io/msmarco/	https://huggingface.co/datasets/IR-Cocktail/msmarco	msmarco	985926f3e906fadf0dc6249f23ed850f	杂项	二元	6,979	542,203
DL19	https://microsoft.github.io/msmarco/TREC-Deep-Learning-2019	https://huggingface.co/datasets/IR-Cocktail/dl19	dl19	d652af47ec0e844af43109c0acf50b74	杂项	二元	43	542,203
DL20	https://microsoft.github.io/msmarco/TREC-Deep-Learning-2020	https://huggingface.co/datasets/IR-Cocktail/dl20	dl20	3afc48141dce3405ede2b6b937c65036	杂项	二元	54	542,203
TREC-COVID	https://ir.nist.gov/covidSubmit/index.html	https://huggingface.co/datasets/IR-Cocktail/trec-covid	trec-covid	1e1e2264b623d9cb7cb50df8141bd535	生物医学	三级	50	128,585
NFCorpus	https://www.cl.uni-heidelberg.de/statnlpgroup/nfcorpus/	https://huggingface.co/datasets/IR-Cocktail/nfcorpus	nfcorpus	695327760647984c5014d64b2fee8de0	生物医学	三级	323	3,633
NQ	https://ai.google.com/research/NaturalQuestions	https://huggingface.co/datasets/IR-Cocktail/nq	nq	a10bfe33efdec54aafcc974ac989c338	维基百科	二元	3,446	104,194
HotpotQA	https://hotpotqa.github.io/	https://huggingface.co/datasets/IR-Cocktail/hotpotqa	hotpotqa	74467760fff8bf8fbdadd5094bf9dd7b	维基百科	二元	7,405	111,107
FiQA-2018	https://sites.google.com/view/fiqa/	https://huggingface.co/datasets/IR-Cocktail/fiqa	fiqa	4e1e688539b0622630fb6e65d39d26fa	金融	二元	648	57,450
Touché-2020	https://webis.de/events/touche-20/shared-task-1.html	https://huggingface.co/datasets/IR-Cocktail/webis-touche2020	webis-touche2020	d58ec465ccd567d8f75edb419b0faaed	杂项	三级	49	101,922
CQADupStack	http://nlp.cis.unimelb.edu.au/resources/cqadupstack/	https://huggingface.co/datasets/IR-Cocktail/dcqadupstackl19	cqadupstack	d48d963bc72689c765f381f04fc26f8b	堆栈交换	二元	1,563	39,962
DBPedia	https://github.com/iai-group/DBpedia-Entity/	https://huggingface.co/datasets/IR-Cocktail/dbpedia-entity	dbpedia-entity	43292f4f1a1927e2e323a4a7fa165fc1	维基百科	三级	400	145,037
SCIDOCS	https://allenai.org/data/scidocs	https://huggingface.co/datasets/IR-Cocktail/scidocs	scidocs	4058c0915594ab34e9b2b67f885c595f	科学	二元	1,000	25,259
FEVER	http://fever.ai/	https://huggingface.co/datasets/IR-Cocktail/fever	fever	98b631887d8c38772463e9633c477c69	维基百科	二元	6,666	114,529
Climate-FEVER	http://climatefever.ai/	https://huggingface.co/datasets/IR-Cocktail/climate-fever	climate-fever	5734d6ac34f24f5da496b27e04ff991a	维基百科	二元	1,535	101,339
SciFact	https://github.com/allenai/scifact	https://huggingface.co/datasets/IR-Cocktail/scifact	scifact	b5b8e24ccad98c9ca959061af14bf833	科学	二元	300	5,183
NQ-UTD	https://anonymous.4open.science/r/Cocktail-BA4B/	https://huggingface.co/datasets/IR-Cocktail/nq-utd	nq-utd	2e12e66393829cd4be715718f99d2436	杂项	三级	80	800

数据集结构

每个Cocktail数据集必须包含以下结构：

shell . ├── corpus # 文档 │ ├── human.jsonl # 人类编写的语料库 │ └── llama-2-7b-chat-tmp0.2.jsonl # LLM生成的语料库 ├── qrels │ └── test.tsv # 查询的相关性 └── queries.jsonl # 查询

数据集的具体格式要求如下：

corpus：.jsonl文件，包含一系列字典，每个字典包含三个字段：_id（唯一文档标识符），title（文档标题，可选），text（文档段落或文本）。
queries文件：.jsonl文件，包含一系列字典，每个字典包含两个字段：_id（唯一查询标识符），text（查询文本）。
qrels文件：.tsv文件，包含三个列：query-id，corpus-id，score。第一行作为标题。

搜集汇总

数据集介绍

构建方式

在信息检索领域，基准数据集的构建对于评估模型性能至关重要。IR-Cocktail/dl19数据集作为Cocktail基准的一部分，其构建过程体现了严谨的学术规范。该数据集源自TREC-Deep-Learning-2019评测任务，其语料库整合了MS MARCO数据集中的原始文档。构建的核心创新在于，除了包含人工撰写的标准文档外，还通过大型语言模型（如Llama-2-7b-chat）生成了对应的合成文档，从而形成了一个包含人类创作与机器生成内容的双重语料库。查询集合与相关性判断（qrels）则严格遵循TREC官方标准，确保了评估的权威性与可比性。

使用方法

在信息检索研究中，该数据集为模型训练与评估提供了标准化的流程。使用者可通过HuggingFace平台便捷加载数据集，其结构清晰划分为语料库、查询和相关性判断文件。语料库以JSON Lines格式存储，包含`_id`、`title`和`text`字段；查询文件同样采用JSON Lines格式；相关性判断则以TSV文件提供。研究人员可以此为基础，分别或混合使用人类文档与LLM生成文档进行检索实验，通过计算标准指标（如nDCG、MAP）来量化模型性能。该数据集直接支持对检索模型是否存在“LLM生成内容偏好”这一前沿问题的实证研究。

背景与挑战

背景概述

在信息检索领域，评估检索模型的性能依赖于高质量、多样化的基准数据集。IR-Cocktail/dl19数据集作为Cocktail基准套件的一部分，由中国人民大学等机构的研究团队于2024年构建，其核心研究问题在于探索大型语言模型生成内容对神经检索系统可能产生的偏见影响。该数据集基于TREC 2019深度学习赛道任务，旨在提供一个包含人工撰写与LLM生成文档的混合语料库，以推动检索模型在真实与合成内容交织环境下的鲁棒性研究，对信息检索领域的评估范式产生了重要革新。

当前挑战

IR-Cocktail/dl19数据集致力于解决信息检索中神经检索模型对LLM生成内容存在潜在偏见的领域挑战，即模型可能过度偏好合成文本而损害对真实信息的检索效果。在构建过程中，挑战主要体现在如何平衡人工与生成文档的质量与多样性，确保语料在主题、风格和结构上的可比性；同时，精确标注查询与文档之间的相关性，并在有限测试查询（仅43条）下维持评估的统计可靠性，亦是数据集构建的关键难点。

常用场景

经典使用场景

在信息检索领域，IR-Cocktail/dl19数据集作为TREC-Deep-Learning-2019评估任务的核心组成部分，为研究社区提供了标准化的测试平台。该数据集包含43个测试查询和超过54万篇文档，其二元相关性标注机制使得它成为评估密集检索模型、神经排序算法以及端到端检索系统性能的经典基准。研究者通常利用该数据集进行模型训练与验证，特别是在探索深度学习技术在文档排序和相关性匹配方面的应用潜力时，它提供了严谨且可复现的实验环境。

解决学术问题

IR-Cocktail/dl19数据集主要致力于解决信息检索中模型泛化能力评估的难题。传统检索模型往往在特定数据集上表现优异，但跨领域或跨任务时性能下降。该数据集通过整合多样化的查询和文档，为学术界提供了检验模型鲁棒性和适应性的标准工具。它帮助研究者深入分析神经检索模型在处理复杂语义匹配时的偏差问题，特别是揭示了模型对LLM生成内容可能存在的倾向性，从而推动了检索公平性和可靠性的理论探索。

实际应用

在实际应用层面，IR-Cocktail/dl19数据集为商业搜索引擎和智能问答系统的开发提供了关键支持。企业研发团队可以借助该数据集优化其检索算法的相关性排序，提升用户查询的响应准确度。例如，在构建基于大规模文档库的知识检索系统时，使用该数据集进行基准测试能够有效衡量系统在真实场景下的表现。同时，它也为个性化推荐、学术文献检索等垂直领域的应用提供了性能评估的参照标准，促进了检索技术向产业端的平稳过渡。

数据集最近研究