five

BeIR/arguana

收藏
Hugging Face2022-10-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/BeIR/arguana
下载链接
链接失效反馈
官方服务:
资源简介:
BEIR Benchmark是一个异构的基准数据集,由18个不同的数据集组成,涵盖了9种信息检索任务,包括事实核查、问答、生物医学信息检索、新闻检索、论点检索、重复问题检索、引用预测、推文检索和实体检索。所有任务均为英文。数据集的结构包括corpus、queries和qrels文件,分别用于存储文档、查询和查询与文档的相关性判断。这些数据集已经过预处理,可用于实验。

The BEIR Benchmark is a heterogeneous benchmark dataset comprising 18 individual datasets, spanning 9 information retrieval tasks: fact checking, question answering, biomedical information retrieval, news retrieval, argument retrieval, duplicate question retrieval, citation prediction, tweet retrieval, and entity retrieval. All tasks are conducted in English. The dataset structure consists of three types of files: corpus, queries, and qrels, which are utilized to store documents, queries, and relevance judgments between queries and documents, respectively. These datasets have been preprocessed and are ready for experimental use.
提供机构:
BeIR
原始信息汇总

数据集卡片 for BEIR Benchmark

数据集描述

数据集摘要

BEIR 是一个异构基准,由 18 个不同的数据集组成,涵盖 9 种信息检索任务:

所有这些数据集都已预处理,可供实验使用。

支持的任务和排行榜

数据集支持一个排行榜,评估模型在任务特定指标(如 F1 或 EM)上的表现,以及它们从 Wikipedia 检索支持信息的能力。

语言

所有任务均为英语(en)。

数据集结构

所有 BEIR 数据集必须包含语料库、查询和 qrels(相关性判断文件)。它们必须采用以下格式:

  • corpus 文件:一个 .jsonl 文件(jsonlines),包含一个字典列表,每个字典有三个字段 _id(唯一文档标识符)、title(文档标题,可选)和 text(文档段落或段落)。例如:{"_id": "doc1", "title": "Albert Einstein", "text": "Albert Einstein was a German-born...."}
  • queries 文件:一个 .jsonl 文件(jsonlines),包含一个字典列表,每个字典有两个字段 _id(唯一查询标识符)和 text(查询文本)。例如:{"_id": "q1", "text": "Who developed the mass-energy equivalence formula?"}
  • qrels 文件:一个 .tsv 文件(制表符分隔),包含三列,即 query-idcorpus-idscore(按此顺序)。第一行作为标题。例如:q1 doc1 1

数据实例

一个 BEIR 数据集的高级示例:

python corpus = { "doc1" : { "title": "Albert Einstein", "text": "Albert Einstein was a German-born theoretical physicist. who developed the theory of relativity, one of the two pillars of modern physics (alongside quantum mechanics). His work is also known for its influence on the philosophy of science. He is best known to the general public for his mass–energy equivalence formula E = mc2, which has been dubbed the worlds most famous equation. He received the 1921 Nobel Prize in Physics for his services to theoretical physics, and especially for his discovery of the law of the photoelectric effect, a pivotal step in the development of quantum theory." }, "doc2" : { "title": "", # 如果标题不存在,保持为空字符串 "text": "Wheat beer is a top-fermented beer which is brewed with a large proportion of wheat relative to the amount of malted barley. The two main varieties are German Weißbier and Belgian witbier; other types include Lambic (made with wild yeast), Berliner Weisse (a cloudy, sour beer), and Gose (a sour, salty beer)." }, }

queries = { "q1" : "Who developed the mass-energy equivalence formula?", "q2" : "Which beer is brewed with a large proportion of wheat?" }

qrels = { "q1" : {"doc1": 1}, "q2" : {"doc2": 1}, }

数据字段

所有配置的示例具有以下特征:

语料库

  • corpus:一个 dict 特征,表示文档标题和段落文本,由以下部分组成:
    • _id:一个 string 特征,表示唯一文档 ID
      • title:一个 string 特征,表示文档标题。
      • text:一个 string 特征,表示文档文本。

查询

  • queries:一个 dict 特征,表示查询,由以下部分组成:
    • _id:一个 string 特征,表示唯一查询 ID
    • text:一个 string 特征,表示查询文本。

Qrels

  • qrels:一个 dict 特征,表示查询文档相关性判断,由以下部分组成:
    • _id:一个 string 特征,表示查询 ID
      • _id:一个 string 特征,表示文档 ID。
      • score:一个 int32 特征,表示查询和文档之间的相关性判断。

数据分割

数据集 网站 BEIR 名称 类型 查询数量 语料库大小 相关文档/查询 下载链接 md5
MSMARCO Homepage msmarco train<br>dev<br>test 6,980 8.84M 1.1 Link 444067daf65d982533ea17ebd59501e4
TREC-COVID Homepage trec-covid test 50 171K 493.5 Link ce62140cb23feb9becf6270d0d1fe6d1
NFCorpus Homepage nfcorpus train<br>dev<br>test 323 3.6K 38.2 Link a89dba18a62ef92f7d323ec890a0d38d
BioASQ Homepage bioasq train<br>test 500 14.91M 8.05 No How to Reproduce?
NQ Homepage nq train<br>test 3,452 2.68M 1.2 Link d4d3d2e48787a744b6f6e691ff534307
HotpotQA Homepage hotpotqa train<br>dev<br>test 7,405 5.23M 2.0 Link f412724f78b0d91183a0e86805e16114
FiQA-2018 Homepage fiqa train<br>dev<br>test 648 57K 2.6 Link 17918ed23cd04fb15047f73e6c3bd9d9
Signal-1M(RT) Homepage signal1m test 97 2.86M 19.6 No How to Reproduce?
TREC-NEWS Homepage trec-news test 57 595K 19.6 No How to Reproduce?
ArguAna Homepage arguana test 1,406 8.67K 1.0 Link 8ad3e3c2a5867cdced806d6503f29b99
Touche-2020 Homepage webis-touche2020 test 49 382K 19.0 Link 46f650ba5a527fc69e0a6521c5a23563
CQADupstack Homepage cqadupstack test 13,145 457K 1.4 Link 4e41456d7df8ee7760a7f866133bda78
Quora Homepage quora dev<br>test 10,000 523K 1.6 Link 18fb154900ba42a600f84b839c173167
DBPedia Homepage dbpedia-entity dev<br>test 400 4.63M 38.2 Link c2a39eb420a3164af735795df012ac2c
SCIDOCS Homepage scidocs test 1,000 25K 4.9 Link 38121350fc3a4d2f48850f6aff52e4a9
FEVER Homepage fever train<br>dev<br>test 6,666 5.42M 1.2 Link 5a818580227bfb4b35bb6fa46d9b6c03
Climate-FEVER Homepage climate-fever test 1,535 5.42M 3.0 Link 8b66f0a9126c521bae2bde127b4dc99d
SciFact Homepage scifact train<br>test 300 5K 1.1 Link 5f7d1de60b170fc8027bb7898e2efca1
Robust04 Homepage robust04 test 249 528K 69.9 No How to Reproduce?

数据集创建

策划理由

[需要更多信息]

源数据

初始数据收集和规范化

[需要更多信息]

源语言生产者是谁?

[需要更多信息]

注释

注释过程

[需要更多信息]

注释者是谁?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据集的注意事项

数据集的社会影响

[需要更多信息]

偏见的讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

搜集汇总
数据集介绍
main_image_url
构建方式
在信息检索领域,构建一个全面且多样化的基准测试集对于评估模型性能至关重要。BeIR/arguana数据集作为BEIR基准测试的一部分,其构建过程体现了严谨的学术规范。该数据集源自公开的论证检索任务数据,通过系统化的预处理流程,将原始数据转化为结构化格式。具体而言,数据以JSON Lines格式组织,包含语料库、查询及相关性判断文件,每个文档均赋予唯一标识符,并保留标题与文本内容,确保了数据的完整性与一致性。这一构建方式不仅便于后续的模型训练与评估,也为跨任务比较提供了标准化基础。
特点
论证检索作为信息检索的一个分支,专注于从文本中识别支持或反驳特定观点的论据。BeIR/arguana数据集在此背景下展现出鲜明的特点。其规模适中,包含约8.67K个文档和1.406个查询,每个查询仅对应一个相关文档,这种一对一的映射关系简化了评估过程,同时突出了精确匹配的重要性。数据集以英文呈现,语言风格正式且逻辑严密,反映了论证文本的典型特征。此外,作为BEIR基准的组成部分,该数据集支持零样本检索评估,能够有效测试模型在未见任务上的泛化能力,为研究社区提供了宝贵的资源。
使用方法
在信息检索研究中,合理利用数据集是验证模型性能的关键步骤。BeIR/arguana数据集的使用方法遵循BEIR基准的统一框架。研究者可通过HuggingFace平台或官方提供的下载链接获取数据,数据已预分割为测试集,无需额外划分。使用时,需加载语料库、查询及相关性判断文件,并采用标准的信息检索指标如nDCG或MAP进行评估。数据集支持直接集成到现有检索系统中,例如通过嵌入模型计算相似度,或用于训练深度学习架构。这种便捷的使用方式加速了实验迭代,促进了论证检索技术的创新与发展。
背景与挑战
背景概述
在信息检索领域,评估模型的泛化能力一直是核心研究议题。BEIR基准由Nandan Thakur等研究人员于2021年构建,旨在通过整合18个异构数据集,涵盖事实核查、问答系统、生物医学检索等九大任务,为零样本检索模型提供统一的评估框架。该基准由UKP Lab等机构主导,其创新性在于突破了传统检索评估对领域特定数据的依赖,推动了跨任务和跨领域的模型性能比较,对信息检索社区产生了深远影响,促进了模型泛化能力的研究进展。
当前挑战
BEIR基准面临的挑战主要体现在两个方面:在领域问题层面,其旨在解决零样本信息检索中模型泛化能力不足的难题,即如何让单一模型在未见过的任务和数据集上保持稳定性能,这要求模型具备深度的语义理解和跨领域适应能力;在构建过程中,挑战源于数据集的异构性,包括不同来源的数据格式统一、质量评估标准的一致性,以及确保标注可靠性与任务代表性的平衡,这些因素增加了基准构建的复杂性和严谨性要求。
常用场景
经典使用场景
在信息检索领域,ArguAna数据集作为BEIR基准测试的关键组成部分,专为论证检索任务而设计。该数据集通过模拟真实场景中的论证查询与文档匹配,为研究者提供了评估检索模型在复杂语义推理能力上的标准平台。其经典使用场景集中于零样本检索评估,模型需在不经过特定训练的情况下,从论证文档库中精准定位支持或反驳特定观点的文本段落,从而检验模型跨任务的泛化性能。
实际应用
在实际应用中,ArguAna数据集支撑的论证检索技术可广泛应用于法律文书分析、政策辩论辅助及教育智能系统。例如,在法律案例检索中,系统能够快速找到与当前论点相关的判例依据;在公共讨论平台,可帮助用户识别对立观点的支撑文献。这些应用提升了信息获取的精度与效率,尤其在需要严谨逻辑支撑的决策场景中,降低了人工筛查论证材料的成本。
衍生相关工作
基于ArguAna数据集,学术界衍生了一系列经典研究工作。例如,检索模型如DPR、ANCE及Contriever等均在BEIR基准上进行了零样本性能验证,推动了稠密检索技术的优化。同时,该数据集与Touche-2020等论证任务协同,催生了跨数据集迁移学习框架的研究,如Promptagator等生成式检索方法,进一步拓展了预训练语言模型在复杂检索任务中的适应性。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作