five

BeIR/fiqa-qrels

收藏
Hugging Face2022-10-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/BeIR/fiqa-qrels
下载链接
链接失效反馈
官方服务:
资源简介:
BEIR Benchmark是一个异构的基准测试,由18个不同的数据集组成,代表了9种信息检索任务,包括事实核查、问答、生物医学信息检索等。所有数据集均为英文,并且已经过预处理,可以直接用于实验。数据集的结构包括corpus、queries和qrels文件,分别用于存储文档、查询和相关性判断。

The BEIR Benchmark is a heterogeneous benchmark composed of 18 distinct datasets, covering 9 types of information retrieval tasks including fact checking, question answering, biomedical information retrieval and more. All datasets are in English and have been preprocessed for direct experimental use. The dataset structure includes corpus, queries and qrels files, which are respectively used to store documents, queries and relevance judgments.
提供机构:
BeIR
原始信息汇总

BEIR Benchmark 数据集概述

数据集描述

数据集总结

BEIR是一个异构基准,由18个不同数据集组成,涵盖9个信息检索任务。这些任务包括事实检查、问答、生物医学信息检索、新闻检索、论证检索、重复问题检索、引用预测、推文检索和实体检索。

支持的任务和排行榜

数据集支持排行榜,评估模型在特定任务上的表现,如F1或EM,以及从维基百科检索支持信息的能力。当前最佳模型的表现可在此处查看。

语言

所有任务均为英语。

数据集结构

数据实例

BEIR数据集包含三个主要部分:corpusqueriesqrelscorpus包含文档的标题和文本,queries包含查询文本,qrels包含查询与文档的相关性评分。

数据字段

  • Corpus: 包含文档ID、标题和文本。
  • Queries: 包含查询ID和文本。
  • Qrels: 包含查询ID、文档ID和相关性评分。

数据分割

数据集根据不同任务和数据集进行了分割,具体包括训练集、开发集和测试集。每个数据集的大小和相关性评分各不相同。

数据集创建

来源数据

数据集由多个源数据集组成,每个源数据集都有其特定的任务和数据结构。

许可信息

数据集遵循CC-BY-SA-4.0许可。

引用信息

引用此数据集的方式如下:

@inproceedings{ thakur2021beir, title={{BEIR}: A Heterogeneous Benchmark for Zero-shot Evaluation of Information Retrieval Models}, author={Nandan Thakur and Nils Reimers and Andreas R{"u}ckl{e} and Abhishek Srivastava and Iryna Gurevych}, booktitle={Thirty-fifth Conference on Neural Information Processing Systems Datasets and Benchmarks Track (Round 2)}, year={2021}, url={https://openreview.net/forum?id=wCu6T5xFjeJ} }

搜集汇总
数据集介绍
main_image_url
构建方式
在信息检索领域,构建高质量基准数据集对于评估模型性能至关重要。BEIR基准通过整合18个异构数据集,覆盖了事实核查、问答系统、生物医学检索等九大任务类型。这些数据集均经过统一预处理,形成了标准化的语料库、查询集和相关性标注文件,确保了数据格式的一致性。构建过程中,研究团队从原始数据源提取关键信息,并转化为结构化的JSONL和TSV格式,为后续的零样本检索评估奠定了坚实基础。
特点
BEIR基准的显著特点在于其异构性与多样性,涵盖了从科学文献到社交媒体文本的广泛领域。每个子数据集均提供了明确的查询-文档对及人工标注的相关性分数,支持多任务评估。数据规模跨度较大,从数千到数百万条目不等,能够全面检验模型在不同场景下的泛化能力。此外,所有数据均以英文呈现,并遵循统一的格式规范,便于研究者进行跨数据集的对比分析。
使用方法
使用BEIR基准时,研究者可通过其GitHub仓库提供的工具加载特定子集,如FiQA-2018。典型流程包括下载预处理后的语料库、查询集和相关性标注文件,随后利用标准检索指标(如nDCG、MAP等)评估模型性能。数据集支持零样本设置,允许直接测试预训练模型在未见任务上的表现。用户还可参考官方提供的示例代码,将数据集成到现有检索框架中,以进行高效的实验验证。
背景与挑战
背景概述
BEIR基准数据集由德国达姆施塔特工业大学UKP实验室的Nandan Thakur等研究人员于2021年构建,旨在为零样本信息检索模型提供异构评估框架。该数据集整合了18个来源各异的子集,涵盖事实核查、问答系统、生物医学检索等九大任务领域,其核心研究问题在于突破传统检索模型对领域特定数据的依赖,推动模型在未见任务上的泛化能力。BEIR的建立显著提升了信息检索领域的评估标准,为后续研究提供了统一且多样化的测试平台,促进了跨领域检索技术的发展。
当前挑战
BEIR数据集致力于解决信息检索领域模型泛化能力不足的挑战,其异构特性要求模型能够适应不同任务的数据分布与查询模式。在构建过程中,研究人员面临多重挑战:首先,整合多源数据需统一格式与标注标准,确保评估的一致性;其次,各子集在规模、领域及语言复杂度上差异显著,增加了数据预处理与质量控制的难度;此外,部分数据集的获取与许可限制也为基准的完整性带来考验。这些挑战共同凸显了构建大规模、多任务检索基准的复杂性。
常用场景
经典使用场景
在金融信息检索领域,BeIR/fiqa-qrels数据集作为BEIR基准的重要组成部分,其经典使用场景聚焦于评估信息检索模型在金融问答任务中的性能。该数据集通过提供标准化的查询、文档语料库及相关性标注,使研究者能够系统性地测试模型从金融文本中检索相关答案的能力。这种评估不仅涵盖了传统检索模型的精确度与召回率,还延伸至对预训练语言模型在零样本或小样本设置下的泛化性能分析,为金融自然语言处理研究提供了严谨的实验基础。
实际应用
在实际应用层面,BeIR/fiqa-qrels数据集为金融科技领域的智能问答系统、投资分析工具和风险预警平台提供了关键的数据支持。基于该数据集训练的检索模型能够高效地从海量金融报告、新闻和市场评论中提取相关信息,辅助投资者进行决策分析或自动化客服回应。这种能力不仅提升了金融信息处理的效率与准确性,还降低了人工审核的成本,推动了人工智能技术在金融实务中的落地与优化。
衍生相关工作
围绕该数据集衍生的经典工作主要包括基于BEIR基准的系列检索模型评估研究,如DPR、ANCE和ColBERT等模型的性能对比分析。这些工作深入探讨了稠密检索与稀疏检索方法在金融领域的优劣,并催生了针对领域自适应优化的新模型架构。同时,数据集也促进了零样本检索、多任务学习等前沿方向的研究,为后续如FiD、Contriever等先进模型提供了验证平台,持续推动着信息检索技术的创新与发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作