five

BeIR/arguana-qrels

收藏
Hugging Face2022-10-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/BeIR/arguana-qrels
下载链接
链接失效反馈
官方服务:
资源简介:
BEIR Benchmark是一个异构的基准数据集,由18个不同的数据集组成,涵盖了9种信息检索任务,包括事实核查、问答、生物医学信息检索、新闻检索、论点检索、重复问题检索、引文预测、推文检索和实体检索。所有数据集均为英文,并且已经过预处理,可以直接用于实验。数据集的结构包括corpus、queries和qrels文件,分别存储文档、查询和相关性判断。

The BEIR Benchmark is a heterogeneous benchmark dataset composed of 18 distinct datasets, covering 9 information retrieval tasks including fact checking, question answering, biomedical information retrieval, news retrieval, argument retrieval, duplicate question retrieval, citation prediction, tweet retrieval and entity retrieval. All datasets are in English and have been preprocessed, ready for direct experimental use. The dataset structure includes corpus, queries and qrels files, which respectively store documents, queries and relevance judgments.
提供机构:
BeIR
原始信息汇总

数据集概述

名称: BEIR Benchmark

描述: BEIR是一个异构基准,由18个不同的数据集组成,代表9种信息检索任务。这些数据集包括事实检查、问答、生物医学信息检索、新闻检索等多个领域。

语言: 英语 (en)

许可证: CC-BY-SA-4.0

多语言性: 单语

数据集结构

  • 数据集大小:
    • MSMARCO: 1M<n<10M
    • TREC-COVID: 100k<n<1M
    • NFCorpus: 1K<n<10K
    • NQ: 1M<n<10M
    • HotpotQA: 1M<n<10M
    • FiQA: 10K<n<100K
    • ArguAna: 1K<n<10K
    • Touche-2020: 100K<n<1M
    • CQADupstack: 100K<n<1M
    • Quora: 100K<n<1M
    • DBpedia: 1M<n<10M
    • SciDocs: 10K<n<100K
    • FEVER: 1M<n<10M
    • Climate-FEVER: 1M<n<10M
    • SciFact: 1K<n<10K

支持的任务

  • 任务类型:

    • 文本检索
    • 零样本检索
    • 信息检索
    • 零样本信息检索
  • 具体任务:

    • 段落检索
    • 实体链接检索
    • 事实检查检索
    • 推文检索
    • 引用预测检索
    • 重复问题检索
    • 论点检索
    • 新闻检索
    • 生物医学信息检索
    • 问答检索

数据集创建

  • 数据集来源: 未提供详细信息
  • 注释过程: 未提供详细信息
  • 个人敏感信息: 未提供详细信息

使用数据集的考虑

  • 社会影响: 未提供详细信息
  • 偏见讨论: 未提供详细信息
  • 其他已知限制: 未提供详细信息

附加信息

  • 数据集管理者: 未提供详细信息

  • 许可证信息: 未提供详细信息

  • 引用信息:

    @inproceedings{ thakur2021beir, title={{BEIR}: A Heterogeneous Benchmark for Zero-shot Evaluation of Information Retrieval Models}, author={Nandan Thakur and Nils Reimers and Andreas R{"u}ckl{e} and Abhishek Srivastava and Iryna Gurevych}, booktitle={Thirty-fifth Conference on Neural Information Processing Systems Datasets and Benchmarks Track (Round 2)}, year={2021}, url={https://openreview.net/forum?id=wCu6T5xFjeJ} }

  • 贡献者: 感谢@Nthakur20添加此数据集。

搜集汇总
数据集介绍
main_image_url
构建方式
在信息检索领域,构建一个全面且多样化的基准测试集对于评估模型性能至关重要。BEIR基准测试集的构建过程体现了这一理念,它整合了来自18个不同数据集的资源,涵盖了事实核查、问答系统、生物医学信息检索等九大任务类型。这些数据集经过精心筛选和预处理,确保数据格式的统一性,每个数据集均包含语料库、查询语句以及相关性标注文件,采用标准化的JSON Lines和TSV格式进行组织,便于后续的模型训练与评估。
特点
BEIR基准测试集的显著特点在于其异构性与广泛覆盖性,它汇集了多个领域的数据,如科学文献、新闻文章、社交媒体内容等,提供了丰富的语言表达和知识结构。数据集规模从数千到数百万不等,确保了在不同数据量级下的评估可靠性。此外,所有数据均为英文,专注于零样本检索任务的评估,支持多种检索模型在统一框架下进行公平比较,为信息检索研究提供了坚实的实验基础。
使用方法
使用BEIR基准测试集时,研究人员可通过其提供的标准化接口轻松加载数据,包括语料库、查询和相关性标注。典型流程涉及将数据导入信息检索系统,利用预训练或自定义模型进行检索任务,并通过内置评估指标如NDCG或MAP来衡量性能。数据集支持多种分割方式,如训练集、开发集和测试集,方便进行模型调优和验证。用户还可参考官方文档和示例代码,快速集成到现有研究框架中,推动信息检索技术的创新与发展。
背景与挑战
背景概述
BEIR基准数据集由Nandan Thakur等研究人员于2021年构建,旨在为信息检索领域提供一个异构且全面的评估框架。该数据集汇聚了来自18个不同数据源的检索任务,涵盖事实核查、问答系统、生物医学检索及论点检索等九大领域,其核心研究问题在于推动零样本检索模型的发展与标准化评估。通过整合多样化的任务与数据,BEIR显著提升了检索模型在跨领域场景下的泛化能力,对信息检索技术的进步产生了深远影响。
当前挑战
BEIR数据集所解决的核心领域挑战在于信息检索模型的零样本泛化能力评估,其难点在于如何设计一个统一框架以公平比较不同模型在异构任务上的性能。在构建过程中,研究人员面临数据异构性整合的挑战,需将来源、格式及标注标准各异的数据集进行规范化处理,同时确保评估指标在不同任务间具有可比性。此外,数据集的规模与多样性平衡亦构成关键挑战,既要涵盖广泛领域,又需维持数据质量与一致性。
常用场景
经典使用场景
在信息检索领域,BEIR基准数据集以其异构性和多样性著称,为评估检索模型的泛化能力提供了经典场景。该数据集整合了18个不同领域的子集,涵盖事实核查、问答、生物医学检索等九大任务,使得研究人员能够在统一的框架下测试模型在零样本或少量样本设置下的表现。通过标准化的语料库、查询和相关性标注文件,BEIR促进了跨任务和跨领域的检索性能比较,成为衡量模型鲁棒性和适应性的重要工具。
衍生相关工作
围绕BEIR数据集,衍生了一系列经典研究工作,推动了信息检索领域的进步。例如,基于BEIR的零样本检索评估催生了如Contriever、SPLADE等先进模型,这些模型通过预训练和微调策略在多个任务上取得了优异表现。同时,研究者利用BEIR的异构特性提出了跨任务知识迁移方法,如多任务学习和元学习框架,增强了模型的适应性。此外,BEIR还促进了检索评估指标的创新,如引入归一化折扣累积增益(nDCG)和平均精度(MAP)的跨领域标准化,为后续基准建设提供了范本。
数据集最近研究
最新研究方向
在信息检索领域,BEIR基准作为异构评估框架,正推动着零样本检索模型的前沿探索。其整合的ArguAna等数据集,专注于论据检索任务,促使研究者开发能够理解复杂论证结构的深度神经网络。当前热点集中于利用预训练语言模型如BERT和T5,通过多任务学习提升模型在未见领域的泛化能力。这些进展不仅优化了搜索引擎的精准度,还对自动辩论系统和事实核查工具产生了深远影响,为人工智能在复杂语义理解方面奠定了坚实基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作