Tevatron/beir-corpus
收藏Hugging Face2026-05-07 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Tevatron/beir-corpus
下载链接
链接失效反馈官方服务:
资源简介:
BeIR语料库是一个用于信息检索基准测试的数据集集合,包含多个子数据集,覆盖论证、气候、编程、科学等多个领域。每个子数据集以JSONL格式压缩存储,用于训练信息检索模型。
The BeIR Corpus is a collection of datasets for information retrieval benchmarking, comprising multiple sub-datasets covering domains such as argumentation, climate, programming, science, and more. Each sub-dataset is stored in compressed JSONL format and is intended for training information retrieval models.
提供机构:
Tevatron
搜集汇总
数据集介绍

构建方式
在信息检索领域,BeIR(Benchmarking Information Retrieval)语料库的构建旨在为跨领域检索任务提供标准化评测基准。该数据集以HuggingFace配置形式整合了多达25个异构子集,涵盖医疗、科学、法律、金融及问答社区等多元场景,诸如arguana、climate-fever、cqadupstack系列及trec-covid等。每个子集均独立存储为JSONL.GZ压缩格式,通过统一的数据分片结构(仅包含训练集)确保加载便捷性,从而支撑起大规模检索系统的鲁棒性评估。
特点
BeIR Corpus的核心特色在于其卓越的领域覆盖度与任务适配性。从CQADupStack系列中针对编程、统计、语言学等垂直领域的深层次问答对,到FiQA金融数据集、DBpedia实体检索以及Trec-Covid疫情文献,均体现了跨域泛化能力。每个子集均保留了原始任务的关键语义特征——如HotpotQA的多步推理、SCIFACT的科学事实验证,同时通过标准化的JSONL格式统一了处理范式,极大降低了多基准实验的工程门槛。
使用方法
研究者可通过HuggingFace Datasets库的load_dataset接口直接加载BeIR Corpus,指定config_name参数即可定向选择特定子集。例如,调用load_dataset('beir-corpus', 'trec-covid')将获取疫情相关文献语料,而cqadupstack-android则聚焦Android技术社区内容。由于各子集仅有训练划分,实际使用时可直接将其作为检索语料库,配合query与corpus参数的灵活设计,适用于密集/稀疏检索、重排序及零样本迁移学习等下游任务场景。
背景与挑战
背景概述
BeIR(Benchmarking Information Retrieval)语料库由德国达姆施塔特工业大学等机构的研究团队于2021年前后构建,旨在为信息检索领域提供一个多维度、跨领域的评估基准。该数据集汇聚了来自科技、医学、法律、金融及常识问答等18个不同场景的检索任务,例如ArguAna、Climate-FEVER、CQADupStack系列及TREC-COVID等。其核心研究问题在于衡量检索模型在零样本跨领域迁移下的泛化能力,突破了传统单一领域评测的局限。BeIR的提出显著推动了稠密检索与稀疏检索技术的对比研究,成为评估新一代神经检索系统性能的标杆,对信息检索领域的基准测试方法学产生了深远影响。
当前挑战
BeIR语料库所面临的挑战多维且深刻。其一,领域多样性带来的泛化难题:不同子数据集(如学术文献、法律条文、医疗问答)在文本结构、术语密度与查询意图上差异悬殊,对检索模型跨领域迁移能力构成了严苛考验。其二,构建过程中的数据异质性挑战:各子集来源迥异,包含论坛讨论、科学论文摘要、事实核查语料等,需统一处理成标准化的查询-文档配对格式,同时避免噪声与格式偏差影响评估公正性。此外,零样本设定下缺乏领域内训练数据,迫使模型必须依赖知识迁移,进一步加剧了检索系统的适配难度。
常用场景
经典使用场景
BeIR语料库作为信息检索领域的标杆性基准数据集,广泛应用于跨领域检索与零样本评估任务。其囊括了来自金融、医学、法律、科学文献、社区问答等18个不同领域的语料集合,如ArguAna(论点检索)、Climate-FEVER(事实核查)、DBpedia-Entity(实体链接)等子集,为研究者提供了一个统一且多样化的评估平台。经典使用场景包括:在无目标领域训练数据的情况下,检验检索模型在全新领域上的泛化能力;以及对比不同嵌入方法和检索架构在多样化查询与文档语义匹配上的表现。
实际应用
在实际应用中,BeIR语料库所涵盖的多样场景为构建通用型搜索引擎提供了宝贵的评测依据。例如,在医疗文献检索中,Trec-Covid子集可验证系统对突发公共卫生事件相关论文的召回能力;在金融领域,FiQA子集帮助评测模型对金融评论的情感分析与观点检索效果。此外,法律文档检索(如CQADupStack系列)与事实核查(FEVER)等任务也得以量化评估。这些应用场景使得BeIR成为企业级搜索系统在落地前进行鲁棒性压测与领域适配调试的重要工具。
衍生相关工作
BeIR的发布催生了一系列重要的后续工作。例如,MTEB(Massive Text Embedding Benchmark)在BeIR基础上进一步扩展了嵌入模型的评估维度,覆盖聚类、分类与语义相似度等任务;BGE(BAAI General Embedding)与GTR(Google Text Representation)等词嵌入模型均将BeIR作为核心零样本评测集。此外,Cohere、OpenAI等机构在发布新版嵌入模型时,亦将BeIR指标作为衡量泛化能力的核心参考。这些衍生工作共同构建了以BeIR为基石的现代文本表示评估生态。
以上内容由遇见数据集搜集并总结生成



