BeIR/webis-touche2020

Name: BeIR/webis-touche2020
Creator: BeIR
Published: 2026-04-09 17:36:20
License: 暂无描述

Hugging Face2026-04-09 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/BeIR/webis-touche2020

下载链接

链接失效反馈

官方服务：

资源简介：

BEIR Benchmark是一个异构的基准测试，由18个不同的数据集组成，代表了9种信息检索任务。这些任务包括事实核查、问答、生物医学信息检索、新闻检索、论点检索、重复问题检索、引用预测、推文检索和实体检索。所有数据集均为英文，并已预处理，可用于实验。数据集的结构包括corpus、queries和qrels文件，分别用于存储文档、查询和查询与文档的相关性判断。

The BEIR Benchmark is a heterogeneous benchmark composed of 18 distinct datasets covering 9 categories of information retrieval tasks. These tasks include fact checking, question answering, biomedical information retrieval, news retrieval, argument retrieval, duplicate question retrieval, citation prediction, tweet retrieval, and entity retrieval. All datasets are in English and have been preprocessed for experimental use. The datasets follow a standardized structure consisting of corpus, queries, and qrels files, which are respectively used to store documents, queries, and relevance judgments between queries and documents.

提供机构：

BeIR

原始信息汇总

数据集概述

数据集名称: BEIR Benchmark

数据集简介: BEIR是一个异构基准，由18个不同数据集组成，涵盖9种信息检索任务。这些数据集包括事实检查、问答、生物医学信息检索等多个领域。

语言: 英语 (en)

许可证: CC-BY-SA-4.0

多语言性: 单语

数据集大小:

MSMARCO: 1M<n<10M
TREC-COVID: 100k<n<1M
NFCorpus: 1K<n<10K
NQ: 1M<n<10M
HotpotQA: 1M<n<10M
FiQA: 10K<n<100K
ArguAna: 1K<n<10K
Touche-2020: 100K<n<1M
CQADupstack: 100K<n<1M
Quora: 100K<n<1M
DBpedia: 1M<n<10M
SCIDOCS: 10K<n<100K
FEVER: 1M<n<10M
Climate-FEVER: 1M<n<10M
SciFact: 1K<n<10K

支持的任务:

文本检索
零样本检索
信息检索
零样本信息检索

具体任务:

段落检索
实体链接检索
事实检查检索
推文检索
引用预测检索
重复问题检索
论点检索
新闻检索
生物医学信息检索
问答检索

数据集结构

数据格式:

corpus 文件: .jsonl 格式，包含文档的唯一标识符、标题和文本。
queries 文件: .jsonl 格式，包含查询的唯一标识符和文本。
qrels 文件: .tsv 格式，包含查询标识符、文档标识符和相关性评分。

数据实例:

示例包括文档、查询和相关性判断的具体结构和内容。

数据集创建

许可证信息: CC-BY-SA-4.0

引用信息:

@inproceedings{ thakur2021beir, title={{BEIR}: A Heterogeneous Benchmark for Zero-shot Evaluation of Information Retrieval Models}, author={Nandan Thakur and Nils Reimers and Andreas R{"u}ckl{e} and Abhishek Srivastava and Iryna Gurevych}, booktitle={Thirty-fifth Conference on Neural Information Processing Systems Datasets and Benchmarks Track (Round 2)}, year={2021}, url={https://openreview.net/forum?id=wCu6T5xFjeJ} }

贡献者: 感谢 @Nthakur20 添加此数据集。

搜集汇总

数据集介绍

构建方式

在信息检索领域，构建高质量的数据集对于评估模型性能至关重要。BeIR/webis-touche2020数据集作为BEIR基准测试的一部分，专注于论证检索任务，其构建过程体现了严谨的学术规范。该数据集源自Touche-2020共享任务，通过系统化的数据收集与标注流程，整合了来自网络资源的论证性文档。文档库包含382,545条记录，每条记录均赋予唯一标识符、标题及文本内容，而查询集则精心设计了49个论证性查询，旨在模拟真实场景下的信息需求。数据集的构建严格遵循BEIR的统一架构，确保了与其他检索任务数据集的可比性与一致性。

使用方法

在信息检索研究与应用中，合理利用数据集是推动技术进步的关键。BeIR/webis-touche2020数据集的使用方法清晰而高效。研究者可通过Hugging Face数据集库直接加载，或从BEIR官方链接下载原始文件。数据集分为corpus和queries两个配置，分别对应文档库和查询集，采用统一的JSON格式，包含_id、title和text字段。评估时，需将检索模型生成的文档排序结果与标准相关性判断进行对比，常用指标如NDCG@10或MAP。该数据集专为零样本检索设计，适用于测试模型在未见论证数据上的性能，为论证检索系统的开发提供可靠基准。

背景与挑战

背景概述

信息检索领域长期面临模型泛化能力不足的挑战，传统评估往往局限于特定任务或数据集。为应对这一局限，BEIR基准应运而生，由Nandan Thakur等研究人员于2021年构建，旨在为零样本信息检索模型提供异构、全面的评估框架。该基准整合了涵盖事实核查、问答、生物医学检索等九大任务的十八个数据集，其中webis-touche2020子集专注于论据检索任务，源自Touche-2020共享任务，包含约38万文档和49个查询。BEIR的创立推动了检索模型在跨领域、零样本场景下的性能评估，为信息检索研究设立了新的标准。

当前挑战

论据检索任务本身具有独特挑战，其核心在于识别与查询主题相关且逻辑严谨的文本片段，这要求模型不仅理解表面语义，还需把握论证结构和意图。webis-touche2020数据集构建过程中，文档规模庞大且主题多样，如何确保标注质量与一致性成为关键难题；同时，查询数量有限且高度专业化，对模型在稀疏数据下的泛化能力提出了严峻考验。此外，作为BEIR基准的一部分，该数据集还需与其他异构任务协调，维持评估标准的统一性与可比性，这进一步增加了数据集成与验证的复杂性。

常用场景

经典使用场景

在信息检索领域，BeIR/webis-touche2020数据集作为BEIR基准测试的关键组成部分，专门用于论证检索任务的评估。该数据集通过提供大量论证性文档和查询对，为研究者构建了一个模拟真实辩论场景的检索环境。经典使用场景涉及开发先进的检索模型，这些模型能够精准识别与给定论证标题相关的支持性或反驳性文档，从而推动论证检索技术的边界。

解决学术问题

该数据集有效解决了论证检索中语义匹配的复杂性挑战，为评估模型在零样本设置下的泛化能力提供了标准平台。它助力学术界探索如何从海量文本中高效定位论证性内容，弥补了传统检索任务在逻辑推理和论证结构理解方面的不足。其意义在于促进了跨任务检索模型的统一评估框架，推动了信息检索向更细粒度、更具逻辑深度的方向发展。

实际应用

在实际应用中，BeIR/webis-touche2020数据集支撑了辩论辅助系统、法律文档分析和政策研究工具的研发。例如，在法律领域，系统可利用该数据集训练模型，快速检索相关判例或法律条文以支持论证构建；在教育场景中，它能帮助学生或研究者高效查找学术辩论中的关键论据，提升论证质量与效率。

数据集最近研究