Extended Beir Datasets

github2025-08-16 更新2025-08-22 收录

下载链接：

https://github.com/liyongkang123/extended_beir_datasets

下载链接

链接失效反馈

官方服务：

资源简介：

Extended Beir Datasets源自原始的BEIR数据集，在此基础上添加了新的数据集（msmarco_titled、trec_dl19、trec_dl20）并保持了与原始格式相同，使评估更加方便。该仓库包含多个信息检索数据集，如MSMARCO Passage（带标题）、TREC-DL 19、TREC-DL 20等，每个数据集都有详细的查询数量、语料库规模、相关文档数量等信息。

The Extended BEIR Datasets is derived from the original BEIR dataset, with three new datasets (msmarco_titled, trec_dl19, trec_dl20) added while maintaining the same format as the original, which facilitates more convenient evaluation. This repository contains multiple information retrieval datasets, including MSMARCO Passage (with titles), TREC-DL 19, TREC-DL 20, and others. Each dataset includes detailed statistics such as the number of queries, corpus size, and number of relevant documents.

创建时间：

2025-08-14

原始信息汇总

Extended Beir Datasets 概述

数据集来源

Extended Beir Datasets 源自原始 BEIR 数据集，原始下载地址为：https://public.ukp.informatik.tu-darmstadt.de/thakur/BEIR/datasets/

扩展内容

在原始 BEIR 数据集基础上新增了三个数据集：

msmarco_titled
trec_dl19
trec_dl20

新增数据集保持了与原始数据集相同的格式，便于评估使用。

扩展数据集详情

MSMARCO Passage (with title)

BEIR名称: msmarco_titled
公开状态: 公开
类型: 训练集、开发集、测试集
查询数量: 6,980
语料库规模: 8.84M
相关文档数/查询: 1.1
下载链接: https://public.ukp.informatik.tu-darmstadt.de/thakur/BEIR/datasets/msmarco.zip
MD5: 444067daf65d982533ea17ebd59501e4
来源: Tevatron (https://huggingface.co/datasets/Tevatron/msmarco-passage-corpus)

TREC-DL 19

BEIR名称: trec_dl19
公开状态: 公开
类型: 测试集
查询数量: 43
语料库规模: 8.84M
相关文档数/查询: 95.4
下载链接: https://public.ukp.informatik.tu-darmstadt.de/thakur/BEIR/datasets/trec-covid.zip
MD5: ce62140cb23feb9becf6270d0d1fe6d1
备注: 原始版本，不包含段落标题

TREC-DL 20

BEIR名称: trec_dl20
公开状态: 公开
类型: 测试集
查询数量: 54
语料库规模: 8.84M
相关文档数/查询: 66.8
下载链接: https://public.ukp.informatik.tu-darmstadt.de/thakur/BEIR/datasets/nfcorpus.zip
MD5: a89dba18a62ef92f7d323ec890a0d38d
备注: 原始版本，不包含段落标题

原始数据集概览

原始 BEIR 数据集包含多个子数据集，包括：

MSMARCO (无标题版本)
TREC-COVID
NFCorpus
BioASQ (非公开)
NQ
HotpotQA
FiQA-2018
Signal-1M(RT) (非公开)
TREC-NEWS (非公开)
Robust04 (非公开)
ArguAna
Touche-2020
CQADupstack
Quora
DBPedia
SCIDOCS
FEVER
Climate-FEVER
SciFact

使用方法

使用方法与原始 BEIR 数据集完全相同，只需将代码中的下载 URL 替换为： python url = f"https://github.com/liyongkang123/extended_beir_datasets/releases/download/beir_v1.0/{dataset}.zip"

数据集文件包含：

corpus.jsonl (jsonlines格式)
queries.jsonl (jsonlines格式)
qrels/test.tsv (tsv格式，制表符分隔)

搜集汇总

数据集介绍

构建方式

在信息检索研究领域，Extended Beir Datasets基于原始BEIR基准框架进行扩展构建。该数据集整合了来自Tevatron的带标题MSMARCO Passage版本，并纳入了TREC Deep Learning 2019与2020的官方测试集，严格遵循原始数据格式规范。通过复用BEIR的数据处理管道，确保新增数据集与原有18个数据集在结构上完全兼容，所有数据均来源于权威学术机构发布的公开评测集合。

特点

该数据集显著特征体现在其增强的覆盖范围与多样性。新增的msmarco_titled版本包含689万带标题的文档段落，有效提升了段落语义表征的丰富度。TREC-DL19和TREC-DL20测试集分别提供43和54个高质量人工标注查询，平均相关文档数达到95.4和66.8，为深度检索模型提供了更精确的评估基准。整个数据集囊括学术文献、医疗健康、金融问答等十余个垂直领域，构建了跨域检索的综合评估体系。

使用方法

研究人员可通过标准化接口快速接入该数据集。使用前需配置Python环境并安装beir工具包，通过修改下载链接指向扩展数据集仓库即可获取数据。数据加载器支持corpus.jsonl、queries.jsonl和qrels.tsv三种标准格式解析，自动划分训练集、验证集和测试集。评估时可直接调用BEIR内置的NDCG@10、MAP等检索指标，确保与原基准测试结果的纵向可比性。所有数据集均提供MD5校验码以保证数据完整性。

背景与挑战

背景概述

信息检索领域长期面临着评估基准标准化不足的挑战，Extended Beir Datasets正是基于这一背景应运而生。该数据集由德国达姆施塔特工业大学UKP实验室主导开发，最初发布于2021年，旨在构建统一的检索系统评估框架。其核心研究问题聚焦于跨领域检索模型的泛化能力评估，通过整合多个垂直领域的检索任务，为深度学习时代的检索模型提供了全面而严谨的测试平台。该数据集已成为信息检索领域最具影响力的基准之一，显著推动了神经检索技术的发展与标准化进程。

当前挑战

构建过程面临多源数据整合的复杂性挑战，需要统一不同数据集的格式标准与质量要求。领域问题方面，该数据集旨在解决跨领域检索模型评估的泛化性难题，但原始BEIR数据缺乏带标题的段落数据，影响了段落级检索任务的准确性。新增的msmarco_titled数据集虽补充了标题信息，却面临标题与内容语义对齐的一致性挑战。TREC-DL系列数据的高相关性密度要求模型具备更强的精准匹配能力，这对检索系统的排序精度提出了更高要求。

常用场景

衍生相关工作

该数据集催生了众多经典研究工作，包括基于Contriever和DPR的密集检索方法创新，以及ANCE和TCT-ColBERT等高效检索架构的提出。这些工作充分利用数据集的多元特性，推动了检索模型在表示学习和交互匹配方面的突破。后续研究进一步扩展了其在多模态检索和跨语言检索中的应用，形成了以BEIR为基础模型的系列衍生研究体系。

数据集最近研究