Extended Beir Datasets
收藏github2025-08-16 更新2025-08-22 收录
下载链接:
https://github.com/liyongkang123/extended_beir_datasets
下载链接
链接失效反馈官方服务:
资源简介:
Extended Beir Datasets源自原始的BEIR数据集,在此基础上添加了新的数据集(msmarco_titled、trec_dl19、trec_dl20)并保持了与原始格式相同,使评估更加方便。该仓库包含多个信息检索数据集,如MSMARCO Passage(带标题)、TREC-DL 19、TREC-DL 20等,每个数据集都有详细的查询数量、语料库规模、相关文档数量等信息。
The Extended BEIR Datasets is derived from the original BEIR dataset, with three new datasets (msmarco_titled, trec_dl19, trec_dl20) added while maintaining the same format as the original, which facilitates more convenient evaluation. This repository contains multiple information retrieval datasets, including MSMARCO Passage (with titles), TREC-DL 19, TREC-DL 20, and others. Each dataset includes detailed statistics such as the number of queries, corpus size, and number of relevant documents.
创建时间:
2025-08-14
原始信息汇总
Extended Beir Datasets 概述
数据集来源
Extended Beir Datasets 源自原始 BEIR 数据集,原始下载地址为:https://public.ukp.informatik.tu-darmstadt.de/thakur/BEIR/datasets/
扩展内容
在原始 BEIR 数据集基础上新增了三个数据集:
msmarco_titledtrec_dl19trec_dl20
新增数据集保持了与原始数据集相同的格式,便于评估使用。
扩展数据集详情
MSMARCO Passage (with title)
- BEIR名称:
msmarco_titled - 公开状态: 公开
- 类型: 训练集、开发集、测试集
- 查询数量: 6,980
- 语料库规模: 8.84M
- 相关文档数/查询: 1.1
- 下载链接: https://public.ukp.informatik.tu-darmstadt.de/thakur/BEIR/datasets/msmarco.zip
- MD5:
444067daf65d982533ea17ebd59501e4 - 来源: Tevatron (https://huggingface.co/datasets/Tevatron/msmarco-passage-corpus)
TREC-DL 19
- BEIR名称:
trec_dl19 - 公开状态: 公开
- 类型: 测试集
- 查询数量: 43
- 语料库规模: 8.84M
- 相关文档数/查询: 95.4
- 下载链接: https://public.ukp.informatik.tu-darmstadt.de/thakur/BEIR/datasets/trec-covid.zip
- MD5:
ce62140cb23feb9becf6270d0d1fe6d1 - 备注: 原始版本,不包含段落标题
TREC-DL 20
- BEIR名称:
trec_dl20 - 公开状态: 公开
- 类型: 测试集
- 查询数量: 54
- 语料库规模: 8.84M
- 相关文档数/查询: 66.8
- 下载链接: https://public.ukp.informatik.tu-darmstadt.de/thakur/BEIR/datasets/nfcorpus.zip
- MD5:
a89dba18a62ef92f7d323ec890a0d38d - 备注: 原始版本,不包含段落标题
原始数据集概览
原始 BEIR 数据集包含多个子数据集,包括:
- MSMARCO (无标题版本)
- TREC-COVID
- NFCorpus
- BioASQ (非公开)
- NQ
- HotpotQA
- FiQA-2018
- Signal-1M(RT) (非公开)
- TREC-NEWS (非公开)
- Robust04 (非公开)
- ArguAna
- Touche-2020
- CQADupstack
- Quora
- DBPedia
- SCIDOCS
- FEVER
- Climate-FEVER
- SciFact
使用方法
使用方法与原始 BEIR 数据集完全相同,只需将代码中的下载 URL 替换为: python url = f"https://github.com/liyongkang123/extended_beir_datasets/releases/download/beir_v1.0/{dataset}.zip"
数据集文件包含:
corpus.jsonl(jsonlines格式)queries.jsonl(jsonlines格式)qrels/test.tsv(tsv格式,制表符分隔)
搜集汇总
数据集介绍

构建方式
在信息检索研究领域,Extended Beir Datasets基于原始BEIR基准框架进行扩展构建。该数据集整合了来自Tevatron的带标题MSMARCO Passage版本,并纳入了TREC Deep Learning 2019与2020的官方测试集,严格遵循原始数据格式规范。通过复用BEIR的数据处理管道,确保新增数据集与原有18个数据集在结构上完全兼容,所有数据均来源于权威学术机构发布的公开评测集合。
特点
该数据集显著特征体现在其增强的覆盖范围与多样性。新增的msmarco_titled版本包含689万带标题的文档段落,有效提升了段落语义表征的丰富度。TREC-DL19和TREC-DL20测试集分别提供43和54个高质量人工标注查询,平均相关文档数达到95.4和66.8,为深度检索模型提供了更精确的评估基准。整个数据集囊括学术文献、医疗健康、金融问答等十余个垂直领域,构建了跨域检索的综合评估体系。
使用方法
研究人员可通过标准化接口快速接入该数据集。使用前需配置Python环境并安装beir工具包,通过修改下载链接指向扩展数据集仓库即可获取数据。数据加载器支持corpus.jsonl、queries.jsonl和qrels.tsv三种标准格式解析,自动划分训练集、验证集和测试集。评估时可直接调用BEIR内置的NDCG@10、MAP等检索指标,确保与原基准测试结果的纵向可比性。所有数据集均提供MD5校验码以保证数据完整性。
背景与挑战
背景概述
信息检索领域长期面临着评估基准标准化不足的挑战,Extended Beir Datasets正是基于这一背景应运而生。该数据集由德国达姆施塔特工业大学UKP实验室主导开发,最初发布于2021年,旨在构建统一的检索系统评估框架。其核心研究问题聚焦于跨领域检索模型的泛化能力评估,通过整合多个垂直领域的检索任务,为深度学习时代的检索模型提供了全面而严谨的测试平台。该数据集已成为信息检索领域最具影响力的基准之一,显著推动了神经检索技术的发展与标准化进程。
当前挑战
构建过程面临多源数据整合的复杂性挑战,需要统一不同数据集的格式标准与质量要求。领域问题方面,该数据集旨在解决跨领域检索模型评估的泛化性难题,但原始BEIR数据缺乏带标题的段落数据,影响了段落级检索任务的准确性。新增的msmarco_titled数据集虽补充了标题信息,却面临标题与内容语义对齐的一致性挑战。TREC-DL系列数据的高相关性密度要求模型具备更强的精准匹配能力,这对检索系统的排序精度提出了更高要求。
常用场景
衍生相关工作
该数据集催生了众多经典研究工作,包括基于Contriever和DPR的密集检索方法创新,以及ANCE和TCT-ColBERT等高效检索架构的提出。这些工作充分利用数据集的多元特性,推动了检索模型在表示学习和交互匹配方面的突破。后续研究进一步扩展了其在多模态检索和跨语言检索中的应用,形成了以BEIR为基础模型的系列衍生研究体系。
数据集最近研究
最新研究方向
在信息检索与自然语言处理领域,Extended Beir Datasets作为基准评估资源的重要扩展,正推动着密集检索与跨域泛化能力的前沿探索。该数据集通过引入带标题的MSMARCO版本及TREC深度学习赛道2019-2020的官方评测集,显著增强了段落重排序与多维度相关性匹配的研究深度。当前热点集中于利用大语言模型进行零样本检索性能优化,以及针对医疗、科学等垂直领域的领域自适应方法验证。这些扩展数据为检索系统的鲁棒性评估提供了更丰富的场景,尤其在处理复杂查询语义和长文本理解方面展现出关键价值,持续推动检索技术向更精准、可解释的方向演进。
以上内容由遇见数据集搜集并总结生成



