five

Benchmarking-IR (BEIR)|信息检索数据集|性能评估数据集

收藏
arXiv2021-10-21 更新2024-06-21 收录
信息检索
性能评估
下载链接:
https://github.com/UKPLab/beir
下载链接
链接失效反馈
资源简介:
BEIR是一个包含18个不同文本检索任务的数据集,由无处不在的知识处理实验室(UKP-TUDA)创建。数据集涵盖了从事实检查到新闻检索等多个领域,旨在评估信息检索模型在零样本设置下的泛化能力。BEIR数据集包括多种数据类型,如新闻文章、推文和科学出版物,以及不同大小的数据集,从3.6k到15M文档不等。数据集的创建过程涉及对公开可用数据集的精心选择,以确保多样性和挑战性。BEIR的应用领域广泛,旨在解决模型在未见领域和任务上的性能评估问题,推动信息检索系统的鲁棒性和泛化能力的进步。
提供机构:
无处不在的知识处理实验室(UKP-TUDA)
创建时间:
2021-04-18
AI搜集汇总
数据集介绍
main_image_url
构建方式
BEIR数据集通过精心挑选18个公开可用的数据集,涵盖了从事实核查、引文预测到新闻检索等9种不同的文本检索任务,构建了一个异构的零样本评估基准。这些数据集来自多样化的领域,包括新闻、科学出版物、社交媒体等,且涵盖了从通用主题到专业领域的广泛内容。BEIR的构建方法强调了任务的多样性、领域的多样性以及任务的难度,确保了数据集的挑战性和广泛适用性。
使用方法
BEIR数据集的使用方法简单且灵活,适用于多种信息检索模型的评估。用户可以通过BEIR提供的Python框架(pip install beir)轻松加载数据集,并使用多种检索模型进行实验。BEIR支持多种评估指标,如nDCG@k、Precision、Recall等,用户可以根据任务需求选择合适的指标进行评估。此外,BEIR还提供了与其他知名信息检索工具的集成,如Sentence-Transformers、Transformers等,方便用户快速复现实验结果并进行模型比较。
背景与挑战
背景概述
信息检索(IR)作为自然语言处理(NLP)中的关键任务,长期以来依赖于词汇方法如TF-IDF和BM25。然而,这些方法在处理词汇差距和语序问题上存在局限性。近年来,深度学习和预训练模型如BERT的引入为信息检索带来了新的可能性。为了评估这些模型在不同领域和任务中的泛化能力,Ubiquitous Knowledge Processing Lab(UKP-TUDA)的研究团队于2021年推出了Benchmarking-IR(BEIR)数据集。BEIR汇集了18个来自不同文本检索任务和领域的公开数据集,涵盖了从事实核查到生物医学信息检索等多个领域。该数据集的推出旨在为研究人员提供一个统一的零样本评估基准,以评估信息检索模型在不同任务和领域中的表现。
当前挑战
BEIR数据集的构建面临多个挑战。首先,信息检索模型在单一任务或领域中的表现并不能很好地预测其在其他任务或领域中的泛化能力。其次,数据集的多样性要求模型能够在不同文本类型、查询长度和文档长度之间进行有效切换。此外,数据集的标注过程中可能存在词汇偏差,这可能导致非词汇方法(如密集检索模型)在评估中处于不利地位。最后,计算效率与模型性能之间的权衡也是一个重要挑战,尤其是在处理大规模数据时,密集检索模型虽然表现优异,但其计算成本较高。未来研究需要解决这些挑战,以推动信息检索系统的进一步发展。
常用场景
经典使用场景
BEIR数据集的经典使用场景在于评估信息检索模型的零样本泛化能力。通过包含18个来自不同领域和任务的公开数据集,BEIR为研究人员提供了一个统一的基准,用于测试模型在未见过的数据分布上的表现。这些任务涵盖了事实验证、引文预测、重复问题检测、新闻检索、问答系统等多个领域,使得模型能够在多样化的文本检索任务中进行广泛的评估。
解决学术问题
BEIR数据集解决了现有信息检索模型在同质化和小规模数据集上评估的局限性问题。传统的信息检索模型通常在单一任务或领域中进行评估,导致对模型泛化能力的理解不足。BEIR通过引入多样化的任务和领域,帮助研究人员更好地理解模型在不同数据分布上的表现,推动了信息检索系统的鲁棒性和泛化能力的研究。
实际应用
BEIR数据集在实际应用中具有广泛的价值,特别是在需要跨领域和任务的信息检索场景中。例如,在开放域问答系统中,模型需要在未见过的领域中快速适应并检索相关信息;在新闻检索中,模型需要从大量新闻文章中快速找到与查询相关的内容。此外,BEIR还可以用于评估模型在特定领域(如生物医学或金融)中的表现,帮助开发更高效的检索系统。
数据集最近研究
最新研究方向
近年来,信息检索领域的发展逐渐转向对模型在零样本场景下的泛化能力的评估。BEIR数据集通过引入18个来自不同任务和领域的公开数据集,为研究人员提供了一个统一的基准,用于评估信息检索模型在零样本设置下的表现。该数据集涵盖了从事实验证、引文预测到新闻检索等多个任务,旨在揭示现有模型在跨领域和跨任务中的泛化能力。研究表明,传统的BM25模型在零样本场景下表现稳健,而基于重排序和后期交互的模型虽然在性能上表现优异,但计算成本较高。相比之下,稀疏和稠密检索模型在计算效率上更具优势,但在泛化能力上仍有显著提升空间。BEIR的推出为信息检索领域的研究提供了新的方向,特别是在模型泛化能力和计算效率之间的权衡方面,推动了更加鲁棒和通用的检索系统的开发。
相关研究论文
  • 1
    BEIR: A Heterogenous Benchmark for Zero-shot Evaluation of Information Retrieval Models无处不在的知识处理实验室(UKP-TUDA) · 2021年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Breast Ultrasound Images (BUSI)

小型(约500×500像素)超声图像,适用于良性和恶性病变的分类和分割任务。

github 收录

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录

Plant-Diseases

Dataset for Plant Diseases containg variours Plant Disease

kaggle 收录

GVJahnavi/Crops_set

该数据集包含图像和标签两个主要特征。图像特征的数据类型为图像,标签特征的数据类型为类标签,具体包括20种不同的植物病害和健康状态,如玉米的灰斑病、普通锈病、北方叶枯病,以及番茄的细菌性斑点病、早疫病、晚疫病等。数据集分为训练集和测试集,训练集包含25384个样本,测试集包含6346个样本。数据集的下载大小为514893426字节,总大小为474216412.07000005字节。

hugging_face 收录

Obstacle-dataset OD

该数据集用于十五种障碍物检测,包含VOC格式和YOLO训练的.txt文件,数据集中的图像来自VOC数据集、COCO数据集、TT100K数据集以及作者团队实地收集的图片。

github 收录