castorini/webis-touche2020-v3

Name: castorini/webis-touche2020-v3
Creator: castorini
Published: 2024-05-17 14:54:43
License: 暂无描述

Hugging Face2024-05-17 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/castorini/webis-touche2020-v3

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集专为文本检索任务设计，包含三个不同的配置以适应不同的数据处理需求。默认配置用于测试集，记录了查询ID、文档ID及其相关分数。语料库配置提供了大量文档的详细信息，包括ID、标题和文本内容。查询配置则专注于记录查询的ID和文本内容。数据集的原始数据来源于BeIR/webis-touche2020，适用于进行文档检索的算法开发和评估。

提供机构：

castorini

原始信息汇总

数据集概述

基本信息

许可证: cc-by-sa-4.0
语言: 英语
多语言性: 单语种
任务类别: 文本检索
源数据集: BeIR/webis-touche2020
任务ID: 文档检索
配置名称:
- default
- corpus
- queries

数据集配置详情

配置: default

特征:
- query-id: 字符串类型
- doc-id: 字符串类型
- score: 浮点数类型
分割:
- test:
  - 字节数: 130413
  - 示例数: 2850

配置: corpus

特征:
- _id: 字符串类型
- title: 字符串类型
- text: 字符串类型
分割:
- corpus:
  - 字节数: 663578662
  - 示例数: 303845

配置: queries

特征:
- _id: 字符串类型
- text: 字符串类型
分割:
- queries:
  - 字节数: 28707
  - 示例数: 49

数据文件路径

配置: default

测试数据路径: qrels/test.jsonl

配置: corpus

语料库数据路径: corpus.jsonl

配置: queries

查询数据路径: queries.jsonl

搜集汇总

数据集介绍

构建方式

在信息检索领域，高质量的数据集对于评估检索模型性能至关重要。castorini/webis-touche2020-v3数据集基于BeIR/webis-touche2020构建，专注于论证检索任务。该数据集包含三个核心配置：语料库、查询集和相关性标注。语料库从网络资源中收集了超过30万篇文档，每篇文档均包含标题和正文文本；查询集则提供了49个精心设计的论证性查询；相关性标注部分则通过人工评估，为每个查询与文档对分配了精确的相关性分数，确保了数据集的可靠性与权威性。

特点

该数据集在论证检索任务中展现出独特价值。其语料库规模庞大，涵盖303,845篇文档，内容多样且结构清晰，每篇文档均具备标题和正文，便于模型进行深度语义理解。查询集虽然仅包含49个查询，但每个查询均针对复杂的论证场景设计，挑战性显著。相关性标注数据包含2,850个标注样本，分数采用浮点值表示，提供了细粒度的相关性评估标准。数据集采用CC BY-SA 4.0许可，支持学术与研究用途，且为纯英文单语数据，专注于文本检索任务。

使用方法

在信息检索研究中，该数据集为模型评估提供了标准化平台。使用者可通过HuggingFace数据集库直接加载三个配置：语料库配置用于获取文档集合，查询配置用于加载查询文本，默认配置则提供了测试集的相关性标注。研究人员可结合检索模型，计算查询与文档的相关性得分，并与标注分数进行对比，以评估模型性能。数据集采用JSONL格式存储，便于流式读取与处理，支持大规模检索实验的高效执行。

背景与挑战

背景概述

在信息检索领域，复杂论证性查询的有效处理一直是研究焦点。castorini/webis-touche2020-v3数据集由Webis研究团队于2020年构建，旨在支持论证检索任务。该数据集专注于处理具有争议性、开放性的查询，要求系统不仅检索相关文档，还需识别支持或反驳特定立场的论证内容。其核心研究问题在于提升检索系统对复杂语义和论证结构的理解能力，对推动辩论分析、事实核查等应用具有显著影响力。

当前挑战

该数据集主要挑战在于解决论证检索中语义深度与结构复杂性的平衡问题。具体而言，查询往往涉及多维度、主观性强的议题，要求模型超越传统关键词匹配，深入理解论证逻辑和立场倾向。构建过程中，挑战包括高质量论证标注的获取，需确保文档不仅相关且包含明确论证结构，同时避免标注者主观偏差。此外，数据规模与标注一致性之间的权衡也是关键难点，直接影响模型训练的泛化能力。

常用场景

经典使用场景

在信息检索领域，Webis-Touche2020-v3数据集常被用于评估复杂论证性查询的文档检索系统性能。该数据集包含超过30万篇文档和49个精心设计的查询，每个查询均涉及需要深度推理的争议性话题，如气候变化或人工智能伦理。研究者利用这一数据集训练和测试检索模型，以模拟真实世界中用户对高质量、论证性内容的需求，从而推动检索技术向更精准、更理解上下文的方向发展。

衍生相关工作

围绕该数据集，已衍生出多项经典研究工作，包括基于深度学习的检索模型如BERT-based rankers和密集检索系统。这些工作不仅提升了论证性检索的准确性，还推动了如Touche竞赛等评估活动的发展。此外，数据集常被整合到BeIR等基准测试套件中，用于比较不同检索方法的性能，促进了信息检索社区的协作与创新，为后续研究奠定了坚实基础。

数据集最近研究