IR-Cocktail/webis-touche2020
收藏Hugging Face2024-05-22 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/IR-Cocktail/webis-touche2020
下载链接
链接失效反馈官方服务:
资源简介:
Cocktail数据集是一个综合性的信息检索基准数据集,集成了LLM生成的文档。该数据集包含16个基准数据集,涵盖了多个领域,如生物医学、维基百科、金融、科学等。每个数据集都包含人类编写的语料库和LLM生成的语料库,以及查询和相关性文件。数据集的文件格式为jsonl和tsv,确保数据的结构化和一致性。
Cocktail数据集是一个综合性的信息检索基准数据集,集成了LLM生成的文档。该数据集包含16个基准数据集,涵盖了多个领域,如生物医学、维基百科、金融、科学等。每个数据集都包含人类编写的语料库和LLM生成的语料库,以及查询和相关性文件。数据集的文件格式为jsonl和tsv,确保数据的结构化和一致性。
提供机构:
IR-Cocktail
原始信息汇总
数据集概述
数据集列表
| 数据集 | 原始网站 | Cocktail网站 | Cocktail名称 | 处理后数据的md5值 | 领域 | 相关性级别 | 测试查询数量 | 语料库大小 |
|---|---|---|---|---|---|---|---|---|
| MS MARCO | Homepage | Homepage | msmarco |
985926f3e906fadf0dc6249f23ed850f |
Misc. | Binary | 6,979 | 542,203 |
| DL19 | Homepage | Homepage | dl19 |
d652af47ec0e844af43109c0acf50b74 |
Misc. | Binary | 43 | 542,203 |
| DL20 | Homepage | Homepage | dl20 |
3afc48141dce3405ede2b6b937c65036 |
Misc. | Binary | 54 | 542,203 |
| TREC-COVID | Homepage | Homepage | trec-covid |
1e1e2264b623d9cb7cb50df8141bd535 |
Bio-Medical | 3-level | 50 | 128,585 |
| NFCorpus | Homepage | Homepage | nfcorpus |
695327760647984c5014d64b2fee8de0 |
Bio-Medical | 3-level | 323 | 3,633 |
| NQ | Homepage | Homepage | nq |
a10bfe33efdec54aafcc974ac989c338 |
Wikipedia | Binary | 3,446 | 104,194 |
| HotpotQA | Homepage | Homepage | hotpotqa |
74467760fff8bf8fbdadd5094bf9dd7b |
Wikipedia | Binary | 7,405 | 111,107 |
| FiQA-2018 | Homepage | Homepage | fiqa |
4e1e688539b0622630fb6e65d39d26fa |
Finance | Binary | 648 | 57,450 |
| Touché-2020 | Homepage | Homepage | webis-touche2020 |
d58ec465ccd567d8f75edb419b0faaed |
Misc. | 3-level | 49 | 101,922 |
| CQADupStack | Homepage | Homepage | cqadupstack |
d48d963bc72689c765f381f04fc26f8b |
StackEx. | Binary | 1,563 | 39,962 |
| DBPedia | Homepage | Homepage | dbpedia-entity |
43292f4f1a1927e2e323a4a7fa165fc1 |
Wikipedia | 3-level | 400 | 145,037 |
| SCIDOCS | Homepage | Homepage | scidocs |
4058c0915594ab34e9b2b67f885c595f |
Scientific | Binary | 1,000 | 25,259 |
| FEVER | Homepage | Homepage | fever |
98b631887d8c38772463e9633c477c69 |
Wikipedia | Binary | 6,666 | 114,529 |
| Climate-FEVER | Homepage | Homepage | climate-fever |
5734d6ac34f24f5da496b27e04ff991a |
Wikipedia | Binary | 1,535 | 101,339 |
| SciFact | Homepage | Homepage | scifact |
b5b8e24ccad98c9ca959061af14bf833 |
Scientific | Binary | 300 | 5,183 |
| NQ-UTD | Homepage | Homepage | nq-utd |
2e12e66393829cd4be715718f99d2436 |
Misc. | 3-level | 80 | 800 |
数据集结构
- corpus: 包含两个
.jsonl文件,分别是human.jsonl和llama-2-7b-chat-tmp0.2.jsonl,每个文件包含一系列字典,字典包含三个字段:_id(唯一文档标识符),title(文档标题,可选),text(文档段落或段落)。 - queries: 一个
.jsonl文件,包含一系列字典,每个字典包含两个字段:_id(唯一查询标识符)和text(查询文本)。 - qrels: 一个
.tsv文件,包含三个列:query-id,corpus-id和score,第一行作为标题。
搜集汇总
数据集介绍

构建方式
在信息检索领域,为深入探究大语言模型生成内容对检索系统的影响,IR-Cocktail/webis-touche2020数据集应运而生。该数据集作为Cocktail基准测试套件的一部分,其构建过程严谨而系统。它整合了源自Touché-2020论辩检索任务的人类撰写文档语料库,并创新性地引入了一个由Llama-2-7b-chat模型生成的平行文档语料库。构建流程遵循标准化规范,确保了语料、查询及相关性判断文件在格式上的一致性,为研究提供了结构清晰、对比鲜明的双源数据基础。
特点
该数据集的核心特征在于其独特的双模态语料构成,这一设计巧妙呼应了当前信息检索系统面临的新挑战。数据集不仅包含了原始的人类撰写文档,还精心融入了大语言模型生成的合成文档,从而创造了一个可用于评估检索模型对两类内容偏好的实验环境。其查询集涵盖49个测试主题,文档库规模达到101,922篇,并采用三级相关性标注体系,这些要素共同赋予了数据集在论辩检索这一复杂任务上较高的研究价值和泛化能力。
使用方法
对于致力于信息检索前沿探索的研究者而言,该数据集提供了便捷且标准化的使用路径。用户可通过HuggingFace平台直接加载数据集,其结构明确划分为`corpus`、`queries`和`qrels`三个核心目录。语料文件以JSON Lines格式存储,便于逐行解析;相关性判断文件则采用TSV格式,清晰定义了查询、文档与相关性得分之间的映射关系。这种设计使得研究者能够轻松将其嵌入现有检索评估流程,专注于分析模型在混合人类与机器生成内容环境下的性能表现。
背景与挑战
背景概述
在信息检索领域,随着大型语言模型(LLM)的兴起,其生成内容对检索系统的影响日益凸显。IR-Cocktail/webis-touche2020数据集作为Cocktail基准的一部分,由北京大学等机构的研究团队于2024年构建,旨在系统评估检索模型在混合人类撰写与LLM生成文档环境下的性能。该数据集源自Touché-2020论辩检索任务,专注于解决复杂查询下的文档相关性判断问题,其核心研究在于探索LLM生成内容对神经检索模型可能引入的偏差,为信息检索技术的稳健性发展提供了关键数据支撑。
当前挑战
该数据集所针对的领域挑战在于论辩检索中多维度相关性评估的复杂性,传统检索模型难以精准捕捉论证质量、逻辑连贯性等深层语义特征。在构建过程中,挑战主要体现在文档源的异构整合上,需平衡人类撰写文档与LLM生成文档的规模与质量,确保两者在主题分布和语言风格上的可比性;同时,三级别相关性标注要求标注者具备领域专业知识,以应对论辩性内容中细微相关性差异的判定难题。
常用场景
经典使用场景
在信息检索领域,IR-Cocktail/webis-touche2020数据集作为Cocktail基准套件的重要组成部分,其经典使用场景聚焦于论证性检索任务的评估与优化。该数据集源自Touché-2020共享任务,专门针对复杂论证性查询设计,要求系统从大规模文档集合中识别并排序与查询主题相关的论证性内容。研究者通常利用该数据集训练和测试检索模型在多层次相关性判断下的性能,尤其是在处理需要逻辑推理和证据支持的查询时,能够有效衡量模型对论证结构的理解能力。
实际应用
在实际应用层面,该数据集支撑的系统能够服务于需要高质量论证检索的各类平台。例如,在法律研究或政策分析领域,专业人士需要快速查找支持或反驳特定观点的权威论据;在教育或公共讨论平台,系统可帮助用户梳理争议性话题的正反方论证。基于此数据集开发的检索技术,能够提升这些场景下的信息获取效率与质量,确保返回的结果不仅相关,而且具备逻辑说服力和证据支撑,从而辅助决策制定与知识构建。
衍生相关工作
围绕该数据集衍生的经典工作主要集中在论证检索模型的设计与偏差分析。一方面,研究者开发了诸如基于Transformer的密集检索器或交互式神经网络架构,专门用于捕捉查询与论证文档间的复杂语义关联。另一方面,作为Cocktail基准的一部分,该数据集被用于揭示神经检索模型对LLM生成内容存在的潜在偏好偏差,相关研究推动了检索系统鲁棒性与公平性的评估框架发展。这些工作共同深化了对论证性检索任务本质的理解,并引导了更健壮、更通用的检索模型创新。
以上内容由遇见数据集搜集并总结生成



