BeIR/arguana

Name: BeIR/arguana
Creator: BeIR
Published: 2022-10-23 06:03:08
License: 暂无描述

Hugging Face2022-10-23 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/BeIR/arguana

下载链接

链接失效反馈

官方服务：

资源简介：

BEIR Benchmark是一个异构的基准数据集，由18个不同的数据集组成，涵盖了9种信息检索任务，包括事实核查、问答、生物医学信息检索、新闻检索、论点检索、重复问题检索、引用预测、推文检索和实体检索。所有任务均为英文。数据集的结构包括corpus、queries和qrels文件，分别用于存储文档、查询和查询与文档的相关性判断。这些数据集已经过预处理，可用于实验。

The BEIR Benchmark is a heterogeneous benchmark dataset comprising 18 individual datasets, spanning 9 information retrieval tasks: fact checking, question answering, biomedical information retrieval, news retrieval, argument retrieval, duplicate question retrieval, citation prediction, tweet retrieval, and entity retrieval. All tasks are conducted in English. The dataset structure consists of three types of files: corpus, queries, and qrels, which are utilized to store documents, queries, and relevance judgments between queries and documents, respectively. These datasets have been preprocessed and are ready for experimental use.

提供机构：

BeIR

原始信息汇总

数据集卡片 for BEIR Benchmark

数据集描述

数据集摘要

BEIR 是一个异构基准，由 18 个不同的数据集组成，涵盖 9 种信息检索任务：

事实检查：FEVER, Climate-FEVER, SciFact
问答：NQ, HotpotQA, FiQA-2018
生物医学信息检索：TREC-COVID, BioASQ, NFCorpus
新闻检索：TREC-NEWS, Robust04
论点检索：Touche-2020, ArguAna
重复问题检索：Quora, CqaDupstack
引用预测：SCIDOCS
推文检索：Signal-1M
实体检索：DBPedia

所有这些数据集都已预处理，可供实验使用。

支持的任务和排行榜

数据集支持一个排行榜，评估模型在任务特定指标（如 F1 或 EM）上的表现，以及它们从 Wikipedia 检索支持信息的能力。

语言

所有任务均为英语（en）。

数据集结构

所有 BEIR 数据集必须包含语料库、查询和 qrels（相关性判断文件）。它们必须采用以下格式：

corpus 文件：一个 .jsonl 文件（jsonlines），包含一个字典列表，每个字典有三个字段 _id（唯一文档标识符）、title（文档标题，可选）和 text（文档段落或段落）。例如：{"_id": "doc1", "title": "Albert Einstein", "text": "Albert Einstein was a German-born...."}
queries 文件：一个 .jsonl 文件（jsonlines），包含一个字典列表，每个字典有两个字段 _id（唯一查询标识符）和 text（查询文本）。例如：{"_id": "q1", "text": "Who developed the mass-energy equivalence formula?"}
qrels 文件：一个 .tsv 文件（制表符分隔），包含三列，即 query-id、corpus-id 和 score（按此顺序）。第一行作为标题。例如：q1 doc1 1

数据实例

一个 BEIR 数据集的高级示例：

python corpus = { "doc1" : { "title": "Albert Einstein", "text": "Albert Einstein was a German-born theoretical physicist. who developed the theory of relativity, one of the two pillars of modern physics (alongside quantum mechanics). His work is also known for its influence on the philosophy of science. He is best known to the general public for his mass–energy equivalence formula E = mc2, which has been dubbed the worlds most famous equation. He received the 1921 Nobel Prize in Physics for his services to theoretical physics, and especially for his discovery of the law of the photoelectric effect, a pivotal step in the development of quantum theory." }, "doc2" : { "title": "", # 如果标题不存在，保持为空字符串 "text": "Wheat beer is a top-fermented beer which is brewed with a large proportion of wheat relative to the amount of malted barley. The two main varieties are German Weißbier and Belgian witbier; other types include Lambic (made with wild yeast), Berliner Weisse (a cloudy, sour beer), and Gose (a sour, salty beer)." }, }

queries = { "q1" : "Who developed the mass-energy equivalence formula?", "q2" : "Which beer is brewed with a large proportion of wheat?" }

qrels = { "q1" : {"doc1": 1}, "q2" : {"doc2": 1}, }

数据字段

所有配置的示例具有以下特征：

语料库

corpus：一个 dict 特征，表示文档标题和段落文本，由以下部分组成：
- _id：一个 string 特征，表示唯一文档 ID
  - title：一个 string 特征，表示文档标题。
  - text：一个 string 特征，表示文档文本。

查询

queries：一个 dict 特征，表示查询，由以下部分组成：
- _id：一个 string 特征，表示唯一查询 ID
- text：一个 string 特征，表示查询文本。

Qrels

qrels：一个 dict 特征，表示查询文档相关性判断，由以下部分组成：
- _id：一个 string 特征，表示查询 ID
  - _id：一个 string 特征，表示文档 ID。
  - score：一个 int32 特征，表示查询和文档之间的相关性判断。

数据分割

数据集	网站	BEIR 名称	类型	查询数量	语料库大小	相关文档/查询	下载链接	md5
MSMARCO	Homepage	`msmarco`	`train`<br>`dev`<br>`test`	6,980	8.84M	1.1	Link	`444067daf65d982533ea17ebd59501e4`
TREC-COVID	Homepage	`trec-covid`	`test`	50	171K	493.5	Link	`ce62140cb23feb9becf6270d0d1fe6d1`
NFCorpus	Homepage	`nfcorpus`	`train`<br>`dev`<br>`test`	323	3.6K	38.2	Link	`a89dba18a62ef92f7d323ec890a0d38d`
BioASQ	Homepage	`bioasq`	`train`<br>`test`	500	14.91M	8.05	No	How to Reproduce?
NQ	Homepage	`nq`	`train`<br>`test`	3,452	2.68M	1.2	Link	`d4d3d2e48787a744b6f6e691ff534307`
HotpotQA	Homepage	`hotpotqa`	`train`<br>`dev`<br>`test`	7,405	5.23M	2.0	Link	`f412724f78b0d91183a0e86805e16114`
FiQA-2018	Homepage	`fiqa`	`train`<br>`dev`<br>`test`	648	57K	2.6	Link	`17918ed23cd04fb15047f73e6c3bd9d9`
Signal-1M(RT)	Homepage	`signal1m`	`test`	97	2.86M	19.6	No	How to Reproduce?
TREC-NEWS	Homepage	`trec-news`	`test`	57	595K	19.6	No	How to Reproduce?
ArguAna	Homepage	`arguana`	`test`	1,406	8.67K	1.0	Link	`8ad3e3c2a5867cdced806d6503f29b99`
Touche-2020	Homepage	`webis-touche2020`	`test`	49	382K	19.0	Link	`46f650ba5a527fc69e0a6521c5a23563`
CQADupstack	Homepage	`cqadupstack`	`test`	13,145	457K	1.4	Link	`4e41456d7df8ee7760a7f866133bda78`
Quora	Homepage	`quora`	`dev`<br>`test`	10,000	523K	1.6	Link	`18fb154900ba42a600f84b839c173167`
DBPedia	Homepage	`dbpedia-entity`	`dev`<br>`test`	400	4.63M	38.2	Link	`c2a39eb420a3164af735795df012ac2c`
SCIDOCS	Homepage	`scidocs`	`test`	1,000	25K	4.9	Link	`38121350fc3a4d2f48850f6aff52e4a9`
FEVER	Homepage	`fever`	`train`<br>`dev`<br>`test`	6,666	5.42M	1.2	Link	`5a818580227bfb4b35bb6fa46d9b6c03`
Climate-FEVER	Homepage	`climate-fever`	`test`	1,535	5.42M	3.0	Link	`8b66f0a9126c521bae2bde127b4dc99d`
SciFact	Homepage	`scifact`	`train`<br>`test`	300	5K	1.1	Link	`5f7d1de60b170fc8027bb7898e2efca1`
Robust04	Homepage	`robust04`	`test`	249	528K	69.9	No	How to Reproduce?

数据集创建

策划理由

[需要更多信息]

源数据

初始数据收集和规范化

[需要更多信息]

源语言生产者是谁？

[需要更多信息]

注释

注释过程

[需要更多信息]

注释者是谁？

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据集的注意事项

数据集的社会影响

[需要更多信息]

偏见的讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

搜集汇总

数据集介绍

构建方式

在信息检索领域，构建一个全面且多样化的基准测试集对于评估模型性能至关重要。BeIR/arguana数据集作为BEIR基准测试的一部分，其构建过程体现了严谨的学术规范。该数据集源自公开的论证检索任务数据，通过系统化的预处理流程，将原始数据转化为结构化格式。具体而言，数据以JSON Lines格式组织，包含语料库、查询及相关性判断文件，每个文档均赋予唯一标识符，并保留标题与文本内容，确保了数据的完整性与一致性。这一构建方式不仅便于后续的模型训练与评估，也为跨任务比较提供了标准化基础。

特点

论证检索作为信息检索的一个分支，专注于从文本中识别支持或反驳特定观点的论据。BeIR/arguana数据集在此背景下展现出鲜明的特点。其规模适中，包含约8.67K个文档和1.406个查询，每个查询仅对应一个相关文档，这种一对一的映射关系简化了评估过程，同时突出了精确匹配的重要性。数据集以英文呈现，语言风格正式且逻辑严密，反映了论证文本的典型特征。此外，作为BEIR基准的组成部分，该数据集支持零样本检索评估，能够有效测试模型在未见任务上的泛化能力，为研究社区提供了宝贵的资源。

使用方法

在信息检索研究中，合理利用数据集是验证模型性能的关键步骤。BeIR/arguana数据集的使用方法遵循BEIR基准的统一框架。研究者可通过HuggingFace平台或官方提供的下载链接获取数据，数据已预分割为测试集，无需额外划分。使用时，需加载语料库、查询及相关性判断文件，并采用标准的信息检索指标如nDCG或MAP进行评估。数据集支持直接集成到现有检索系统中，例如通过嵌入模型计算相似度，或用于训练深度学习架构。这种便捷的使用方式加速了实验迭代，促进了论证检索技术的创新与发展。

背景与挑战

背景概述

在信息检索领域，评估模型的泛化能力一直是核心研究议题。BEIR基准由Nandan Thakur等研究人员于2021年构建，旨在通过整合18个异构数据集，涵盖事实核查、问答系统、生物医学检索等九大任务，为零样本检索模型提供统一的评估框架。该基准由UKP Lab等机构主导，其创新性在于突破了传统检索评估对领域特定数据的依赖，推动了跨任务和跨领域的模型性能比较，对信息检索社区产生了深远影响，促进了模型泛化能力的研究进展。

当前挑战

BEIR基准面临的挑战主要体现在两个方面：在领域问题层面，其旨在解决零样本信息检索中模型泛化能力不足的难题，即如何让单一模型在未见过的任务和数据集上保持稳定性能，这要求模型具备深度的语义理解和跨领域适应能力；在构建过程中，挑战源于数据集的异构性，包括不同来源的数据格式统一、质量评估标准的一致性，以及确保标注可靠性与任务代表性的平衡，这些因素增加了基准构建的复杂性和严谨性要求。

常用场景

经典使用场景

在信息检索领域，ArguAna数据集作为BEIR基准测试的关键组成部分，专为论证检索任务而设计。该数据集通过模拟真实场景中的论证查询与文档匹配，为研究者提供了评估检索模型在复杂语义推理能力上的标准平台。其经典使用场景集中于零样本检索评估，模型需在不经过特定训练的情况下，从论证文档库中精准定位支持或反驳特定观点的文本段落，从而检验模型跨任务的泛化性能。

实际应用

在实际应用中，ArguAna数据集支撑的论证检索技术可广泛应用于法律文书分析、政策辩论辅助及教育智能系统。例如，在法律案例检索中，系统能够快速找到与当前论点相关的判例依据；在公共讨论平台，可帮助用户识别对立观点的支撑文献。这些应用提升了信息获取的精度与效率，尤其在需要严谨逻辑支撑的决策场景中，降低了人工筛查论证材料的成本。

衍生相关工作

基于ArguAna数据集，学术界衍生了一系列经典研究工作。例如，检索模型如DPR、ANCE及Contriever等均在BEIR基准上进行了零样本性能验证，推动了稠密检索技术的优化。同时，该数据集与Touche-2020等论证任务协同，催生了跨数据集迁移学习框架的研究，如Promptagator等生成式检索方法，进一步拓展了预训练语言模型在复杂检索任务中的适应性。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集