five

Benchmarking-IR (BEIR)|信息检索数据集|性能评估数据集

收藏
arXiv2021-10-21 更新2024-06-21 收录
信息检索
性能评估
下载链接:
https://github.com/UKPLab/beir
下载链接
链接失效反馈
资源简介:
BEIR是一个包含18个不同文本检索任务的数据集,由无处不在的知识处理实验室(UKP-TUDA)创建。数据集涵盖了从事实检查到新闻检索等多个领域,旨在评估信息检索模型在零样本设置下的泛化能力。BEIR数据集包括多种数据类型,如新闻文章、推文和科学出版物,以及不同大小的数据集,从3.6k到15M文档不等。数据集的创建过程涉及对公开可用数据集的精心选择,以确保多样性和挑战性。BEIR的应用领域广泛,旨在解决模型在未见领域和任务上的性能评估问题,推动信息检索系统的鲁棒性和泛化能力的进步。
提供机构:
无处不在的知识处理实验室(UKP-TUDA)
创建时间:
2021-04-18
AI搜集汇总
数据集介绍
main_image_url
构建方式
BEIR数据集通过精心挑选18个公开可用的数据集,涵盖了从事实核查、引文预测到新闻检索等9种不同的文本检索任务,构建了一个异构的零样本评估基准。这些数据集来自多样化的领域,包括新闻、科学出版物、社交媒体等,且涵盖了从通用主题到专业领域的广泛内容。BEIR的构建方法强调了任务的多样性、领域的多样性以及任务的难度,确保了数据集的挑战性和广泛适用性。
使用方法
BEIR数据集的使用方法简单且灵活,适用于多种信息检索模型的评估。用户可以通过BEIR提供的Python框架(pip install beir)轻松加载数据集,并使用多种检索模型进行实验。BEIR支持多种评估指标,如nDCG@k、Precision、Recall等,用户可以根据任务需求选择合适的指标进行评估。此外,BEIR还提供了与其他知名信息检索工具的集成,如Sentence-Transformers、Transformers等,方便用户快速复现实验结果并进行模型比较。
背景与挑战
背景概述
信息检索(IR)作为自然语言处理(NLP)中的关键任务,长期以来依赖于词汇方法如TF-IDF和BM25。然而,这些方法在处理词汇差距和语序问题上存在局限性。近年来,深度学习和预训练模型如BERT的引入为信息检索带来了新的可能性。为了评估这些模型在不同领域和任务中的泛化能力,Ubiquitous Knowledge Processing Lab(UKP-TUDA)的研究团队于2021年推出了Benchmarking-IR(BEIR)数据集。BEIR汇集了18个来自不同文本检索任务和领域的公开数据集,涵盖了从事实核查到生物医学信息检索等多个领域。该数据集的推出旨在为研究人员提供一个统一的零样本评估基准,以评估信息检索模型在不同任务和领域中的表现。
当前挑战
BEIR数据集的构建面临多个挑战。首先,信息检索模型在单一任务或领域中的表现并不能很好地预测其在其他任务或领域中的泛化能力。其次,数据集的多样性要求模型能够在不同文本类型、查询长度和文档长度之间进行有效切换。此外,数据集的标注过程中可能存在词汇偏差,这可能导致非词汇方法(如密集检索模型)在评估中处于不利地位。最后,计算效率与模型性能之间的权衡也是一个重要挑战,尤其是在处理大规模数据时,密集检索模型虽然表现优异,但其计算成本较高。未来研究需要解决这些挑战,以推动信息检索系统的进一步发展。
常用场景
经典使用场景
BEIR数据集的经典使用场景在于评估信息检索模型的零样本泛化能力。通过包含18个来自不同领域和任务的公开数据集,BEIR为研究人员提供了一个统一的基准,用于测试模型在未见过的数据分布上的表现。这些任务涵盖了事实验证、引文预测、重复问题检测、新闻检索、问答系统等多个领域,使得模型能够在多样化的文本检索任务中进行广泛的评估。
解决学术问题
BEIR数据集解决了现有信息检索模型在同质化和小规模数据集上评估的局限性问题。传统的信息检索模型通常在单一任务或领域中进行评估,导致对模型泛化能力的理解不足。BEIR通过引入多样化的任务和领域,帮助研究人员更好地理解模型在不同数据分布上的表现,推动了信息检索系统的鲁棒性和泛化能力的研究。
实际应用
BEIR数据集在实际应用中具有广泛的价值,特别是在需要跨领域和任务的信息检索场景中。例如,在开放域问答系统中,模型需要在未见过的领域中快速适应并检索相关信息;在新闻检索中,模型需要从大量新闻文章中快速找到与查询相关的内容。此外,BEIR还可以用于评估模型在特定领域(如生物医学或金融)中的表现,帮助开发更高效的检索系统。
数据集最近研究
最新研究方向
近年来,信息检索领域的发展逐渐转向对模型在零样本场景下的泛化能力的评估。BEIR数据集通过引入18个来自不同任务和领域的公开数据集,为研究人员提供了一个统一的基准,用于评估信息检索模型在零样本设置下的表现。该数据集涵盖了从事实验证、引文预测到新闻检索等多个任务,旨在揭示现有模型在跨领域和跨任务中的泛化能力。研究表明,传统的BM25模型在零样本场景下表现稳健,而基于重排序和后期交互的模型虽然在性能上表现优异,但计算成本较高。相比之下,稀疏和稠密检索模型在计算效率上更具优势,但在泛化能力上仍有显著提升空间。BEIR的推出为信息检索领域的研究提供了新的方向,特别是在模型泛化能力和计算效率之间的权衡方面,推动了更加鲁棒和通用的检索系统的开发。
相关研究论文
  • 1
    BEIR: A Heterogenous Benchmark for Zero-shot Evaluation of Information Retrieval Models无处不在的知识处理实验室(UKP-TUDA) · 2021年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

GlobalBuildingAtlas

GlobalBuildingAtlas是一个公开的全球建筑数据集,提供了全球范围内的建筑多边形、高度和LoD1 3D模型。该数据集是第一个提供高质量的、一致的、完整的建筑数据,以2D和3D形式在单个建筑层面上进行全球覆盖的公开数据集。数据集包括2.75亿座建筑,比目前最全面的数据库多出超过10亿座建筑。GBA.Height提供了迄今为止最详细和最准确的全球3D建筑高度图,实现了3×3米的空间分辨率,比以前的全球产品(90米)精细30倍,能够在本地和全球范围内对建筑体积进行高分辨率和可靠的分析。GBA.LoD1代表了第一个完整的全球LoD1建筑模型,包括2.68亿个建筑实例,具有预测的高度,即高度完整性超过97%,在不同大陆上实现了从1.5米到8.9米的RMSEs。GlobalBuildingAtlas以其高度精度、全面的全球覆盖和丰富的空间细节,为全球建筑现状提供了新的见解,开辟了前所未有的地理空间分析可能性,例如更好地说明人们居住在哪里,以及更全面地监测联合国第11个可持续发展目标的进展。

arXiv 收录

PDT Dataset

PDT数据集是由山东计算机科学中心(国家超级计算济南中心)和齐鲁工业大学(山东省科学院)联合开发的无人机目标检测数据集,专门用于检测树木病虫害。该数据集包含高分辨率和低分辨率两种版本,共计5775张图像,涵盖了健康和受病虫害影响的松树图像。数据集的创建过程包括实地采集、数据预处理和人工标注,旨在为无人机在农业中的精准喷洒提供高精度的目标检测支持。PDT数据集的应用领域主要集中在农业无人机技术,旨在提高无人机在植物保护中的目标识别精度,解决传统检测模型在实际应用中的不足。

arXiv 收录

UIEB, U45, LSUI

本仓库提供了水下图像增强方法和数据集的实现,包括UIEB、U45和LSUI等数据集,用于支持水下图像增强的研究和开发。

github 收录

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

RadDet

RadDet是一个包含11种雷达类别的数据集,包括6种新的低概率干扰(LPI)多相码(P1, P2, P3, P4, Px, Zadoff-Chu)和一种新的宽带调频连续波(FMCW)。数据集覆盖500 MHz频段,包含40,000个雷达帧,分为训练集、验证集和测试集。数据集在两种不同的雷达环境中提供:稀疏数据集(RadDet-1T)和密集数据集(RadDet-9T)。

github 收录