IR-Cocktail/dl19
收藏Hugging Face2024-05-22 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/IR-Cocktail/dl19
下载链接
链接失效反馈官方服务:
资源简介:
Cocktail数据集是一个综合性的信息检索基准数据集,包含了16个基准数据集,涵盖了多个领域如生物医学、维基百科、金融等。每个数据集都包含人类编写的语料库和LLM生成的语料库,以及查询和相关性文件。数据集的格式包括`.jsonl`文件(用于语料库和查询)和`.tsv`文件(用于相关性评分)。该数据集旨在评估信息检索系统在处理LLM生成内容时的性能。
Cocktail数据集是一个综合性的信息检索基准数据集,包含了16个基准数据集,涵盖了多个领域如生物医学、维基百科、金融等。每个数据集都包含人类编写的语料库和LLM生成的语料库,以及查询和相关性文件。数据集的格式包括`.jsonl`文件(用于语料库和查询)和`.tsv`文件(用于相关性评分)。该数据集旨在评估信息检索系统在处理LLM生成内容时的性能。
提供机构:
IR-Cocktail
原始信息汇总
数据集概述
本数据集包含16个基准数据集,每个数据集均涉及不同的领域和相关性评估级别。以下是各数据集的详细信息:
| 数据集 | 原始网站 | Cocktail网站 | Cocktail名称 | 处理后数据的md5值 | 领域 | 相关性评估级别 | 测试查询数量 | 语料库大小 |
|---|---|---|---|---|---|---|---|---|
| MS MARCO | https://microsoft.github.io/msmarco/ | https://huggingface.co/datasets/IR-Cocktail/msmarco | msmarco | 985926f3e906fadf0dc6249f23ed850f | 杂项 | 二元 | 6,979 | 542,203 |
| DL19 | https://microsoft.github.io/msmarco/TREC-Deep-Learning-2019 | https://huggingface.co/datasets/IR-Cocktail/dl19 | dl19 | d652af47ec0e844af43109c0acf50b74 | 杂项 | 二元 | 43 | 542,203 |
| DL20 | https://microsoft.github.io/msmarco/TREC-Deep-Learning-2020 | https://huggingface.co/datasets/IR-Cocktail/dl20 | dl20 | 3afc48141dce3405ede2b6b937c65036 | 杂项 | 二元 | 54 | 542,203 |
| TREC-COVID | https://ir.nist.gov/covidSubmit/index.html | https://huggingface.co/datasets/IR-Cocktail/trec-covid | trec-covid | 1e1e2264b623d9cb7cb50df8141bd535 | 生物医学 | 三级 | 50 | 128,585 |
| NFCorpus | https://www.cl.uni-heidelberg.de/statnlpgroup/nfcorpus/ | https://huggingface.co/datasets/IR-Cocktail/nfcorpus | nfcorpus | 695327760647984c5014d64b2fee8de0 | 生物医学 | 三级 | 323 | 3,633 |
| NQ | https://ai.google.com/research/NaturalQuestions | https://huggingface.co/datasets/IR-Cocktail/nq | nq | a10bfe33efdec54aafcc974ac989c338 | 维基百科 | 二元 | 3,446 | 104,194 |
| HotpotQA | https://hotpotqa.github.io/ | https://huggingface.co/datasets/IR-Cocktail/hotpotqa | hotpotqa | 74467760fff8bf8fbdadd5094bf9dd7b | 维基百科 | 二元 | 7,405 | 111,107 |
| FiQA-2018 | https://sites.google.com/view/fiqa/ | https://huggingface.co/datasets/IR-Cocktail/fiqa | fiqa | 4e1e688539b0622630fb6e65d39d26fa | 金融 | 二元 | 648 | 57,450 |
| Touché-2020 | https://webis.de/events/touche-20/shared-task-1.html | https://huggingface.co/datasets/IR-Cocktail/webis-touche2020 | webis-touche2020 | d58ec465ccd567d8f75edb419b0faaed | 杂项 | 三级 | 49 | 101,922 |
| CQADupStack | http://nlp.cis.unimelb.edu.au/resources/cqadupstack/ | https://huggingface.co/datasets/IR-Cocktail/dcqadupstackl19 | cqadupstack | d48d963bc72689c765f381f04fc26f8b | 堆栈交换 | 二元 | 1,563 | 39,962 |
| DBPedia | https://github.com/iai-group/DBpedia-Entity/ | https://huggingface.co/datasets/IR-Cocktail/dbpedia-entity | dbpedia-entity | 43292f4f1a1927e2e323a4a7fa165fc1 | 维基百科 | 三级 | 400 | 145,037 |
| SCIDOCS | https://allenai.org/data/scidocs | https://huggingface.co/datasets/IR-Cocktail/scidocs | scidocs | 4058c0915594ab34e9b2b67f885c595f | 科学 | 二元 | 1,000 | 25,259 |
| FEVER | http://fever.ai/ | https://huggingface.co/datasets/IR-Cocktail/fever | fever | 98b631887d8c38772463e9633c477c69 | 维基百科 | 二元 | 6,666 | 114,529 |
| Climate-FEVER | http://climatefever.ai/ | https://huggingface.co/datasets/IR-Cocktail/climate-fever | climate-fever | 5734d6ac34f24f5da496b27e04ff991a | 维基百科 | 二元 | 1,535 | 101,339 |
| SciFact | https://github.com/allenai/scifact | https://huggingface.co/datasets/IR-Cocktail/scifact | scifact | b5b8e24ccad98c9ca959061af14bf833 | 科学 | 二元 | 300 | 5,183 |
| NQ-UTD | https://anonymous.4open.science/r/Cocktail-BA4B/ | https://huggingface.co/datasets/IR-Cocktail/nq-utd | nq-utd | 2e12e66393829cd4be715718f99d2436 | 杂项 | 三级 | 80 | 800 |
数据集结构
每个Cocktail数据集必须包含以下结构:
shell . ├── corpus # 文档 │ ├── human.jsonl # 人类编写的语料库 │ └── llama-2-7b-chat-tmp0.2.jsonl # LLM生成的语料库 ├── qrels │ └── test.tsv # 查询的相关性 └── queries.jsonl # 查询
数据集的具体格式要求如下:
corpus:.jsonl文件,包含一系列字典,每个字典包含三个字段:_id(唯一文档标识符),title(文档标题,可选),text(文档段落或文本)。queries文件:.jsonl文件,包含一系列字典,每个字典包含两个字段:_id(唯一查询标识符),text(查询文本)。qrels文件:.tsv文件,包含三个列:query-id,corpus-id,score。第一行作为标题。
搜集汇总
数据集介绍

构建方式
在信息检索领域,基准数据集的构建对于评估模型性能至关重要。IR-Cocktail/dl19数据集作为Cocktail基准的一部分,其构建过程体现了严谨的学术规范。该数据集源自TREC-Deep-Learning-2019评测任务,其语料库整合了MS MARCO数据集中的原始文档。构建的核心创新在于,除了包含人工撰写的标准文档外,还通过大型语言模型(如Llama-2-7b-chat)生成了对应的合成文档,从而形成了一个包含人类创作与机器生成内容的双重语料库。查询集合与相关性判断(qrels)则严格遵循TREC官方标准,确保了评估的权威性与可比性。
使用方法
在信息检索研究中,该数据集为模型训练与评估提供了标准化的流程。使用者可通过HuggingFace平台便捷加载数据集,其结构清晰划分为语料库、查询和相关性判断文件。语料库以JSON Lines格式存储,包含`_id`、`title`和`text`字段;查询文件同样采用JSON Lines格式;相关性判断则以TSV文件提供。研究人员可以此为基础,分别或混合使用人类文档与LLM生成文档进行检索实验,通过计算标准指标(如nDCG、MAP)来量化模型性能。该数据集直接支持对检索模型是否存在“LLM生成内容偏好”这一前沿问题的实证研究。
背景与挑战
背景概述
在信息检索领域,评估检索模型的性能依赖于高质量、多样化的基准数据集。IR-Cocktail/dl19数据集作为Cocktail基准套件的一部分,由中国人民大学等机构的研究团队于2024年构建,其核心研究问题在于探索大型语言模型生成内容对神经检索系统可能产生的偏见影响。该数据集基于TREC 2019深度学习赛道任务,旨在提供一个包含人工撰写与LLM生成文档的混合语料库,以推动检索模型在真实与合成内容交织环境下的鲁棒性研究,对信息检索领域的评估范式产生了重要革新。
当前挑战
IR-Cocktail/dl19数据集致力于解决信息检索中神经检索模型对LLM生成内容存在潜在偏见的领域挑战,即模型可能过度偏好合成文本而损害对真实信息的检索效果。在构建过程中,挑战主要体现在如何平衡人工与生成文档的质量与多样性,确保语料在主题、风格和结构上的可比性;同时,精确标注查询与文档之间的相关性,并在有限测试查询(仅43条)下维持评估的统计可靠性,亦是数据集构建的关键难点。
常用场景
经典使用场景
在信息检索领域,IR-Cocktail/dl19数据集作为TREC-Deep-Learning-2019评估任务的核心组成部分,为研究社区提供了标准化的测试平台。该数据集包含43个测试查询和超过54万篇文档,其二元相关性标注机制使得它成为评估密集检索模型、神经排序算法以及端到端检索系统性能的经典基准。研究者通常利用该数据集进行模型训练与验证,特别是在探索深度学习技术在文档排序和相关性匹配方面的应用潜力时,它提供了严谨且可复现的实验环境。
解决学术问题
IR-Cocktail/dl19数据集主要致力于解决信息检索中模型泛化能力评估的难题。传统检索模型往往在特定数据集上表现优异,但跨领域或跨任务时性能下降。该数据集通过整合多样化的查询和文档,为学术界提供了检验模型鲁棒性和适应性的标准工具。它帮助研究者深入分析神经检索模型在处理复杂语义匹配时的偏差问题,特别是揭示了模型对LLM生成内容可能存在的倾向性,从而推动了检索公平性和可靠性的理论探索。
实际应用
在实际应用层面,IR-Cocktail/dl19数据集为商业搜索引擎和智能问答系统的开发提供了关键支持。企业研发团队可以借助该数据集优化其检索算法的相关性排序,提升用户查询的响应准确度。例如,在构建基于大规模文档库的知识检索系统时,使用该数据集进行基准测试能够有效衡量系统在真实场景下的表现。同时,它也为个性化推荐、学术文献检索等垂直领域的应用提供了性能评估的参照标准,促进了检索技术向产业端的平稳过渡。
数据集最近研究
最新研究方向
在信息检索领域,IR-Cocktail/dl19数据集作为Cocktail基准的重要组成部分,正推动着前沿研究向大语言模型生成内容与人工撰写文档的融合评估方向深入。该数据集通过整合LLM生成的语料与人工标注的查询相关性,为探究神经检索模型对合成文本的偏好偏差提供了关键实验平台。近期研究热点聚焦于分析检索系统在混合文档环境下的性能泛化能力,以及如何设计公平的评估框架以应对生成式人工智能带来的数据污染挑战。这一方向不仅深化了我们对模型鲁棒性的理解,也为构建下一代适应动态信息生态的检索技术奠定了理论基础。
以上内容由遇见数据集搜集并总结生成



