five

BeIR/dbpedia-entity

收藏
Hugging Face2026-04-09 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/BeIR/dbpedia-entity
下载链接
链接失效反馈
官方服务:
资源简介:
BEIR Benchmark是一个异构的基准数据集,由18个不同的数据集组成,涵盖了9种信息检索任务,包括事实核查、问答、生物医学信息检索等。所有数据集均为英文,并且已经过预处理,可以直接用于实验。数据集的结构包括corpus、queries和qrels文件,分别用于存储文档、查询和查询与文档的相关性判断。

The BEIR Benchmark is a heterogeneous benchmark dataset consisting of 18 distinct datasets, covering 9 information retrieval tasks such as fact checking, question answering, and biomedical information retrieval. All datasets are in English and have been preprocessed, making them ready for direct experimental use. The dataset structure includes corpus, queries, and qrels files, which are respectively used to store documents, queries, and relevance judgments between queries and documents.
提供机构:
BeIR
原始信息汇总

BEIR Benchmark 数据集概述

数据集描述

数据集摘要

BEIR是一个异构基准,由18个多样化的数据集组成,代表9个信息检索任务,包括事实检查、问答、生物医学信息检索等。

支持的任务和排行榜

BEIR支持多种任务,如段落检索、实体链接检索、事实检查检索等,并提供排行榜以评估模型性能。

语言

所有任务均使用英语。

数据集结构

数据实例

BEIR数据集包含三个主要部分:文档库、查询和相关性判断文件。

文档库

  • _id: 文档唯一标识符
  • title: 文档标题
  • text: 文档内容

查询

  • _id: 查询唯一标识符
  • text: 查询内容

相关性判断

  • query-id: 查询标识符
  • corpus-id: 文档标识符
  • score: 相关性评分

数据字段

文档库

  • _id: 字符串,文档唯一标识符
  • title: 字符串,文档标题
  • text: 字符串,文档内容

查询

  • _id: 字符串,查询唯一标识符
  • text: 字符串,查询内容

相关性判断

  • query-id: 字符串,查询标识符
  • corpus-id: 字符串,文档标识符
  • score: 整数,相关性评分

数据分割

数据集根据不同任务和数据集进行分割,每个数据集的大小和相关性评分各不相同。

数据集创建

来源数据

初始数据收集和规范化

[信息缺失]

源语言生产者

[信息缺失]

注释

注释过程

[信息缺失]

注释者

[信息缺失]

个人和敏感信息

[信息缺失]

使用数据的考虑

数据集的社会影响

[信息缺失]

偏见的讨论

[信息缺失]

其他已知限制

[信息缺失]

附加信息

数据集管理员

[信息缺失]

许可信息

[信息缺失]

引用信息

@inproceedings{ thakur2021beir, title={{BEIR}: A Heterogeneous Benchmark for Zero-shot Evaluation of Information Retrieval Models}, author={Nandan Thakur and Nils Reimers and Andreas R{"u}ckl{e} and Abhishek Srivastava and Iryna Gurevych}, booktitle={Thirty-fifth Conference on Neural Information Processing Systems Datasets and Benchmarks Track (Round 2)}, year={2021}, url={https://openreview.net/forum?id=wCu6T5xFjeJ} }

贡献

感谢@Nthakur20添加此数据集。

搜集汇总
数据集介绍
main_image_url
构建方式
在信息检索领域,构建高质量基准数据集对于评估模型性能至关重要。BeIR/dbpedia-entity数据集作为BEIR基准的一部分,其构建过程体现了严谨的学术规范。该数据集源自DBPedia知识库,通过精心筛选和结构化处理,将实体检索任务转化为标准化的检索格式。具体而言,研究人员从DBPedia中提取了超过460万篇英文文章作为语料库,并为每篇文章赋予唯一标识符、标题和文本内容。同时,针对实体检索任务设计了467个查询,每个查询对应特定的实体描述,确保了任务的实际性和挑战性。数据集的构建严格遵循BEIR的统一框架,保证了与其他检索任务的可比性和一致性。
特点
该数据集在信息检索基准中展现出鲜明的特色。其核心在于专注于实体检索任务,要求模型根据查询准确识别并返回相关的DBPedia实体文章,这模拟了真实世界知识库查询场景。数据集规模宏大,包含超过460万篇文档,提供了丰富的语义多样性,覆盖了从科学概念到文化实体的广泛领域。查询设计精炼而具有代表性,平均每个查询对应约38个相关文档,平衡了检索难度与评估效率。此外,数据集完全采用英文,确保了语言一致性,并严格遵循BEIR的标准数据格式,便于与多种检索模型集成。这些特点共同构成了一个既具挑战性又便于使用的评估平台。
使用方法
使用该数据集进行信息检索研究时,研究人员需遵循标准化的流程。数据集通过Hugging Face平台提供,可直接加载为`corpus`和`queries`两个部分,分别包含文档集合和查询集合。典型的使用场景是零样本检索评估,即在不进行特定训练的情况下,测试模型对未知查询的响应能力。研究人员需要设计检索系统,将查询与语料库文档进行匹配,并依据相关性判断(通常需额外获取qrels文件)计算NDCG@10等标准指标。数据集支持直接下载或通过编程接口访问,兼容常见的Python数据处理库。在BEIR基准框架下,该数据集常与其他17个数据集联合使用,以全面评估模型的泛化性能和任务适应性。
背景与挑战
背景概述
在信息检索领域,零样本评估成为衡量模型泛化能力的关键范式。BEIR基准由Nandan Thakur等研究人员于2021年提出,作为一个异构基准,整合了来自九个不同任务的十八个数据集,旨在系统评估检索模型在未见数据上的性能。其中,dbpedia-entity作为实体检索任务的代表,源自DBpedia知识库,专注于从大规模文档中精准定位与查询实体相关的文章。该基准的构建推动了信息检索研究从特定领域评估向跨任务泛化能力的转变,对促进模型在真实场景中的适用性产生了深远影响。
当前挑战
dbpedia-entity数据集所解决的实体检索任务面临多重挑战:实体歧义性使得模型需区分相似名称的不同概念,而知识库的规模庞大则要求高效处理数百万文档以保持检索精度。在构建过程中,挑战主要集中于数据整合与标注质量;从DBpedia等异构来源提取结构化信息时,需确保实体链接的准确性,同时人工标注相关文档涉及高昂成本与一致性维护。此外,基准设计需平衡不同任务间的代表性,以全面反映模型在零样本设置下的鲁棒性。
常用场景
经典使用场景
在信息检索领域,实体检索任务常面临从大规模知识库中精准定位目标实体的挑战。BeIR/dbpedia-entity数据集作为BEIR基准的重要组成部分,其经典使用场景聚焦于评估检索模型在零样本设置下的实体链接性能。该数据集以DBpedia知识库为基础,构建了包含数百万实体文档的语料库与数百个查询,研究者通过将查询实体与候选文档进行匹配,系统检验模型在未见数据上的泛化能力与排序准确性。
解决学术问题
该数据集有效应对了信息检索研究中零样本评估标准缺失的学术难题。传统检索模型常在特定领域过拟合,缺乏跨任务泛化性的客观衡量。BeIR/dbpedia-entity通过提供标准化、多任务兼容的评估框架,使研究者能够系统分析模型在实体检索场景中的鲁棒性、可迁移性及语义理解深度。其意义在于推动了检索模型从狭隘的领域适应向通用智能检索范式的演进,为构建统一评估体系奠定实证基础。
衍生相关工作
围绕该数据集衍生的经典工作主要集中于跨模态检索模型与稠密检索方法的创新。例如,DPR、ANCE等稠密检索架构利用该数据集验证其在零样本实体链接中的有效性;后续研究如Contriever、SPLADE等进一步探索稀疏与稠密表示的融合策略。同时,BEIR基准的整体设计启发了如MTEB等多任务评估体系的构建,推动检索社区形成以泛化性为核心的评价共识。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作