five

IR-Cocktail/webis-touche2020

收藏
Hugging Face2024-05-22 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/IR-Cocktail/webis-touche2020
下载链接
链接失效反馈
官方服务:
资源简介:
Cocktail数据集是一个综合性的信息检索基准数据集,集成了LLM生成的文档。该数据集包含16个基准数据集,涵盖了多个领域,如生物医学、维基百科、金融、科学等。每个数据集都包含人类编写的语料库和LLM生成的语料库,以及查询和相关性文件。数据集的文件格式为jsonl和tsv,确保数据的结构化和一致性。

Cocktail数据集是一个综合性的信息检索基准数据集,集成了LLM生成的文档。该数据集包含16个基准数据集,涵盖了多个领域,如生物医学、维基百科、金融、科学等。每个数据集都包含人类编写的语料库和LLM生成的语料库,以及查询和相关性文件。数据集的文件格式为jsonl和tsv,确保数据的结构化和一致性。
提供机构:
IR-Cocktail
原始信息汇总

数据集概述

数据集列表

数据集 原始网站 Cocktail网站 Cocktail名称 处理后数据的md5值 领域 相关性级别 测试查询数量 语料库大小
MS MARCO Homepage Homepage msmarco 985926f3e906fadf0dc6249f23ed850f Misc. Binary 6,979 542,203
DL19 Homepage Homepage dl19 d652af47ec0e844af43109c0acf50b74 Misc. Binary 43 542,203
DL20 Homepage Homepage dl20 3afc48141dce3405ede2b6b937c65036 Misc. Binary 54 542,203
TREC-COVID Homepage Homepage trec-covid 1e1e2264b623d9cb7cb50df8141bd535 Bio-Medical 3-level 50 128,585
NFCorpus Homepage Homepage nfcorpus 695327760647984c5014d64b2fee8de0 Bio-Medical 3-level 323 3,633
NQ Homepage Homepage nq a10bfe33efdec54aafcc974ac989c338 Wikipedia Binary 3,446 104,194
HotpotQA Homepage Homepage hotpotqa 74467760fff8bf8fbdadd5094bf9dd7b Wikipedia Binary 7,405 111,107
FiQA-2018 Homepage Homepage fiqa 4e1e688539b0622630fb6e65d39d26fa Finance Binary 648 57,450
Touché-2020 Homepage Homepage webis-touche2020 d58ec465ccd567d8f75edb419b0faaed Misc. 3-level 49 101,922
CQADupStack Homepage Homepage cqadupstack d48d963bc72689c765f381f04fc26f8b StackEx. Binary 1,563 39,962
DBPedia Homepage Homepage dbpedia-entity 43292f4f1a1927e2e323a4a7fa165fc1 Wikipedia 3-level 400 145,037
SCIDOCS Homepage Homepage scidocs 4058c0915594ab34e9b2b67f885c595f Scientific Binary 1,000 25,259
FEVER Homepage Homepage fever 98b631887d8c38772463e9633c477c69 Wikipedia Binary 6,666 114,529
Climate-FEVER Homepage Homepage climate-fever 5734d6ac34f24f5da496b27e04ff991a Wikipedia Binary 1,535 101,339
SciFact Homepage Homepage scifact b5b8e24ccad98c9ca959061af14bf833 Scientific Binary 300 5,183
NQ-UTD Homepage Homepage nq-utd 2e12e66393829cd4be715718f99d2436 Misc. 3-level 80 800

数据集结构

  • corpus: 包含两个.jsonl文件,分别是human.jsonlllama-2-7b-chat-tmp0.2.jsonl,每个文件包含一系列字典,字典包含三个字段:_id(唯一文档标识符),title(文档标题,可选),text(文档段落或段落)。
  • queries: 一个.jsonl文件,包含一系列字典,每个字典包含两个字段:_id(唯一查询标识符)和text(查询文本)。
  • qrels: 一个.tsv文件,包含三个列:query-idcorpus-idscore,第一行作为标题。
搜集汇总
数据集介绍
main_image_url
构建方式
在信息检索领域,为深入探究大语言模型生成内容对检索系统的影响,IR-Cocktail/webis-touche2020数据集应运而生。该数据集作为Cocktail基准测试套件的一部分,其构建过程严谨而系统。它整合了源自Touché-2020论辩检索任务的人类撰写文档语料库,并创新性地引入了一个由Llama-2-7b-chat模型生成的平行文档语料库。构建流程遵循标准化规范,确保了语料、查询及相关性判断文件在格式上的一致性,为研究提供了结构清晰、对比鲜明的双源数据基础。
特点
该数据集的核心特征在于其独特的双模态语料构成,这一设计巧妙呼应了当前信息检索系统面临的新挑战。数据集不仅包含了原始的人类撰写文档,还精心融入了大语言模型生成的合成文档,从而创造了一个可用于评估检索模型对两类内容偏好的实验环境。其查询集涵盖49个测试主题,文档库规模达到101,922篇,并采用三级相关性标注体系,这些要素共同赋予了数据集在论辩检索这一复杂任务上较高的研究价值和泛化能力。
使用方法
对于致力于信息检索前沿探索的研究者而言,该数据集提供了便捷且标准化的使用路径。用户可通过HuggingFace平台直接加载数据集,其结构明确划分为`corpus`、`queries`和`qrels`三个核心目录。语料文件以JSON Lines格式存储,便于逐行解析;相关性判断文件则采用TSV格式,清晰定义了查询、文档与相关性得分之间的映射关系。这种设计使得研究者能够轻松将其嵌入现有检索评估流程,专注于分析模型在混合人类与机器生成内容环境下的性能表现。
背景与挑战
背景概述
在信息检索领域,随着大型语言模型(LLM)的兴起,其生成内容对检索系统的影响日益凸显。IR-Cocktail/webis-touche2020数据集作为Cocktail基准的一部分,由北京大学等机构的研究团队于2024年构建,旨在系统评估检索模型在混合人类撰写与LLM生成文档环境下的性能。该数据集源自Touché-2020论辩检索任务,专注于解决复杂查询下的文档相关性判断问题,其核心研究在于探索LLM生成内容对神经检索模型可能引入的偏差,为信息检索技术的稳健性发展提供了关键数据支撑。
当前挑战
该数据集所针对的领域挑战在于论辩检索中多维度相关性评估的复杂性,传统检索模型难以精准捕捉论证质量、逻辑连贯性等深层语义特征。在构建过程中,挑战主要体现在文档源的异构整合上,需平衡人类撰写文档与LLM生成文档的规模与质量,确保两者在主题分布和语言风格上的可比性;同时,三级别相关性标注要求标注者具备领域专业知识,以应对论辩性内容中细微相关性差异的判定难题。
常用场景
经典使用场景
在信息检索领域,IR-Cocktail/webis-touche2020数据集作为Cocktail基准套件的重要组成部分,其经典使用场景聚焦于论证性检索任务的评估与优化。该数据集源自Touché-2020共享任务,专门针对复杂论证性查询设计,要求系统从大规模文档集合中识别并排序与查询主题相关的论证性内容。研究者通常利用该数据集训练和测试检索模型在多层次相关性判断下的性能,尤其是在处理需要逻辑推理和证据支持的查询时,能够有效衡量模型对论证结构的理解能力。
实际应用
在实际应用层面,该数据集支撑的系统能够服务于需要高质量论证检索的各类平台。例如,在法律研究或政策分析领域,专业人士需要快速查找支持或反驳特定观点的权威论据;在教育或公共讨论平台,系统可帮助用户梳理争议性话题的正反方论证。基于此数据集开发的检索技术,能够提升这些场景下的信息获取效率与质量,确保返回的结果不仅相关,而且具备逻辑说服力和证据支撑,从而辅助决策制定与知识构建。
衍生相关工作
围绕该数据集衍生的经典工作主要集中在论证检索模型的设计与偏差分析。一方面,研究者开发了诸如基于Transformer的密集检索器或交互式神经网络架构,专门用于捕捉查询与论证文档间的复杂语义关联。另一方面,作为Cocktail基准的一部分,该数据集被用于揭示神经检索模型对LLM生成内容存在的潜在偏好偏差,相关研究推动了检索系统鲁棒性与公平性的评估框架发展。这些工作共同深化了对论证性检索任务本质的理解,并引导了更健壮、更通用的检索模型创新。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作