NanoBEIR-en

Name: NanoBEIR-en
Creator: sionic-ai
Published: 2025-12-20 01:44:52
License: 暂无描述

Hugging Face2025-12-20 更新2025-12-21 收录

下载链接：

https://huggingface.co/datasets/sionic-ai/NanoBEIR-en

下载链接

链接失效反馈

官方服务：

资源简介：

NanoBEIR-en是一个用于信息检索评估的英文基准数据集，包含预处理过的查询，属于NanoBEIR基准的一部分。数据集分为三个配置：'corpus'、'qrels'和'queries'，每个配置包含多个子集，如NanoClimateFEVER、NanoDBPedia等。该数据集专为文本检索任务设计，标签包括sentence-transformers和retrieval等。预处理流程包括格式检测、转换和质量验证，使用了Gemini 2.5 Flash和GPT-4o等模型。提供了示例以展示预处理转换的效果。

提供机构：

sionic-ai

创建时间：

2025-12-20

原始信息汇总

NanoBEIR-en 数据集概述

数据集基本信息

数据集名称：NanoBEIR-en (Preprocessed)
托管地址：https://huggingface.co/datasets/sionic-ai/NanoBEIR-en
语言：英语
主要任务类别：文本检索
标签：sentence-transformers, NanoBEIR, retrieval

数据集结构与配置

数据集包含三个主要配置，每个配置下包含13个子集。

1. 语料库配置

配置名称：corpus
特征：
- _id：字符串类型
- text：字符串类型
子集与规模：
- NanoClimateFEVER：3,408 个样本，3,262,665 字节
- NanoDBPedia：6,045 个样本，1,439,067 字节
- NanoFEVER：4,996 个样本，3,849,441 字节
- NanoFiQA2018：4,598 个样本，2,490,672 字节
- NanoHotpotQA：5,090 个样本，1,213,546 字节
- NanoMSMARCO：5,043 个样本，1,085,969 字节
- NanoNFCorpus：2,953 个样本，2,430,844 字节
- NanoNQ：5,035 个样本，1,739,668 字节
- NanoQuoraRetrieval：5,046 个样本，224,913 字节
- NanoSCIDOCS：2,210 个样本，1,247,399 字节
- NanoArguAna：3,635 个样本，2,156,733 字节
- NanoSciFact：2,919 个样本，2,365,221 字节
- NanoTouche2020：5,745 个样本，7,151,349 字节
总下载大小：30,657,487 字节
总数据集大小：30,657,487 字节

2. 查询-文档相关性配置

配置名称：qrels
特征：
- query-id：字符串类型
- corpus-id：字符串类型
子集与规模：
- NanoClimateFEVER：148 个样本，4,217 字节
- NanoDBPedia：1,158 个样本，22,607 字节
- NanoFEVER：57 个样本，3,188 字节
- NanoFiQA2018：123 个样本，3,118 字节
- NanoHotpotQA：100 个样本，3,861 字节
- NanoMSMARCO：50 个样本，2,571 字节
- NanoNFCorpus：2,518 个样本，13,680 字节
- NanoNQ：57 个样本，2,493 字节
- NanoQuoraRetrieval：70 个样本，2,749 字节
- NanoSCIDOCS：244 个样本，14,384 字节
- NanoArguAna：50 个样本，3,816 字节
- NanoSciFact：56 个样本，2,562 字节
- NanoTouche2020：932 个样本，18,062 字节
总下载大小：97,308 字节
总数据集大小：97,308 字节

3. 查询配置

配置名称：queries
特征：
- _id：字符串类型
- text：字符串类型
子集与规模：
- NanoClimateFEVER：50 个样本，7,556 字节
- NanoDBPedia：50 个样本，4,091 字节
- NanoFEVER：50 个样本，4,362 字节
- NanoFiQA2018：50 个样本，4,603 字节
- NanoHotpotQA：50 个样本，6,724 字节
- NanoMSMARCO：50 个样本，3,645 字节
- NanoNFCorpus：50 个样本，3,233 字节
- NanoNQ：50 个样本，4,054 字节
- NanoQuoraRetrieval：50 个样本，4,301 字节
- NanoSCIDOCS：50 个样本，7,171 字节
- NanoArguAna：50 个样本，43,429 字节
- NanoSciFact：50 个样本，6,114 字节
- NanoTouche2020：49 个样本，3,768 字节
总下载大小：103,051 字节
总数据集大小：103,051 字节

数据文件路径结构

每个配置下的数据文件均按子集名称组织在相应目录下：

语料库文件路径模式：corpus/{子集名称}-*
查询-文档相关性文件路径模式：qrels/{子集名称}-*
查询文件路径模式：queries/{子集名称}-*

数据集用途

用于信息检索评估的英语NanoBEIR基准数据集，包含预处理后的查询。

预处理流程

第一阶段：格式检测与转换
- 使用模型：Gemini 2.5 Flash
- 步骤：对查询格式进行分类（问题、关键词或陈述），并将陈述格式转换为问题格式。
第二阶段：质量验证与修正
- 使用模型：GPT-4o
- 步骤：检测不恰当的修改并进行重新修正。

使用示例

python from datasets import load_dataset queries = load_dataset("sionic-ai/NanoBEIR-en", "queries", split="NanoClimateFEVER") corpus = load_dataset("sionic-ai/NanoBEIR-en", "corpus", split="NanoClimateFEVER") qrels = load_dataset("sionic-ai/NanoBEIR-en", "qrels", split="NanoClimateFEVER")

预处理示例

子集	原始查询	预处理后查询
NanoClimateFEVER	Sea ice has diminished much faster than scientists and climate models anticipated.	Has sea ice diminished much faster than scientists and climate models anticipated?
NanoFEVER	Caesar is an original play by Orson Welles.	Is Caesar an original play by Orson Welles?
NanoFEVER	The Good German starred Tobey Maguire.	Did The Good German star Tobey Maguire?
NanoFEVER	Alex Jones was born in the seventies.	Was Alex Jones born in the 1970s?
NanoSciFact	Insomnia can be effectively treated with cognitive behavioral therapy.	Can cognitive behavioral therapy effectively treat insomnia?

搜集汇总

数据集介绍

构建方式

在信息检索领域，基准数据集的构建对评估模型性能至关重要。NanoBEIR-en数据集通过系统化的预处理流程构建而成，其核心方法涉及两个关键阶段。第一阶段利用Gemini 2.5 Flash模型对查询格式进行检测与转换，将原始文本分类为问题、关键词或陈述句，并将陈述句统一转化为疑问句格式。第二阶段通过GPT-4o模型进行质量验证与修正，检测并修复不恰当的修改，确保查询语句的规范性与一致性。这种双重校验机制保障了数据转换的准确度，为检索任务提供了高质量的标准化输入。

特点

作为信息检索领域的专用评估资源，NanoBEIR-en数据集展现出多维度特征。该数据集包含十三个精心挑选的子集，涵盖气候事实核查、科学文献、问答对话等多种检索场景，每个子集均提供语料库、查询语句及相关性标注的三元组结构。数据集规模紧凑但覆盖全面，总数据量约三千万字节，既满足了高效实验的需求，又保持了任务多样性。其查询语句经过标准化预处理，全部转化为疑问句形式，消除了原始数据中的格式差异，为检索模型提供了统一且可比的评估基准。

使用方法

在信息检索系统的开发与评估中，NanoBEIR-en数据集提供了便捷的使用接口。研究人员可通过Hugging Face的datasets库直接加载数据，分别获取查询集、语料库和相关性标注。典型用法包括加载特定子集进行检索模型训练，或跨子集评估模型泛化能力。数据集的结构化设计支持端到端检索流程的构建，用户可基于标准化查询在对应语料中执行检索操作，并利用预定义的相关性标注进行精确度评估。这种模块化设计极大简化了实验流程，促进了检索算法的快速迭代与比较。

背景与挑战

背景概述

在信息检索领域，高效评估检索模型的性能依赖于高质量且规模适中的基准数据集。NanoBEIR-en数据集应运而生，由Sionic AI等机构的研究人员构建，旨在为密集检索模型的快速评估与迭代提供一个轻量级、多样化的英文基准。该数据集整合了来自ClimateFEVER、DBPedia、MSMARCO等十三个知名检索或问答数据集的子集，通过精心设计的预处理流程，将原始查询统一转化为疑问句格式，确保了评估任务的一致性。其核心研究问题聚焦于如何在有限的计算资源下，对检索模型进行可靠、高效的性能测评，从而加速模型开发与比较研究，对推动检索技术的实用化进程具有显著意义。

当前挑战

NanoBEIR-en数据集旨在解决信息检索领域模型评估效率与成本高昂的挑战。传统大规模检索基准如BEIR，虽然全面但计算开销巨大，阻碍了快速原型开发与广泛实验。该数据集通过构建微型化但多样化的子集，试图在保持任务代表性的同时，大幅降低评估所需的计算与时间成本。在构建过程中，挑战主要集中于数据转换与质量保障。原始查询格式多样，包含陈述句、关键词和疑问句，需通过大语言模型进行自动分类与格式统一，此过程需确保语义保真度，避免引入偏差或错误。同时，从庞杂的原始数据中筛选出具有代表性和平衡性的微型子集，并建立准确的查询-文档相关性标注，亦是构建过程中的关键难题。

常用场景

经典使用场景

在信息检索领域，NanoBEIR-en数据集作为轻量级基准测试工具，其经典使用场景集中于评估密集检索模型的性能。该数据集通过整合多个知名检索任务的小规模子集，如NanoMSMARCO和NanoNQ，为研究人员提供了一个高效且多样化的评估平台。在模型开发初期，学者们常利用这些精心预处理的查询与文档对，快速验证检索算法在跨领域文本匹配任务中的泛化能力与准确性，从而优化模型架构与训练策略。

衍生相关工作

围绕NanoBEIR-en数据集，已衍生出一系列专注于高效检索的经典研究工作。这些工作主要探索如何在有限数据下训练高性能的句子编码器与双塔检索模型。例如，部分研究利用该数据集的多样化子集进行多任务联合训练，以提升模型的领域鲁棒性；另一些工作则将其作为标准测试床，用于验证新型负采样策略或损失函数的有效性，推动了密集检索方法在资源受限环境下的创新与发展。

数据集最近研究