NanoBEIR-ja
收藏Hugging Face2025-12-20 更新2025-12-21 收录
下载链接:
https://huggingface.co/datasets/sionic-ai/NanoBEIR-ja
下载链接
链接失效反馈官方服务:
资源简介:
NanoBEIR-ja是一个日语信息检索评估基准数据集,包含预处理后的查询,属于NanoBEIR系列。数据集分为三个配置:'corpus'(语料库)、'qrels'(查询相关度标签)和'queries'(查询),每个配置下又包含多个子集,如NanoClimateFEVER、NanoDBPedia等。预处理流程包括格式检测与转换(使用Gemini 2.5 Flash)以及质量验证与修正(使用GPT-4o)。该数据集适用于文本检索任务,与句子转换器和检索应用相关。
提供机构:
sionic-ai
创建时间:
2025-12-20
原始信息汇总
NanoBEIR-ja 数据集概述
数据集基本信息
- 数据集名称: NanoBEIR-ja (Preprocessed)
- 托管地址: https://huggingface.co/datasets/sionic-ai/NanoBEIR-ja
- 主要语言: 日语 (ja)
- 任务类别: 文本检索 (text-retrieval)
- 相关标签: sentence-transformers, NanoBEIR, retrieval
数据集结构与配置
数据集包含三个独立的配置,每个配置下包含13个相同命名的子集划分。
1. 语料库配置 (corpus)
- 用途: 存储检索文档。
- 特征:
_id: 字符串类型,文档标识符。text: 字符串类型,文档文本内容。
- 子集划分与规模:
- NanoClimateFEVER: 3,408 个样本,3,661,197 字节。
- NanoDBPedia: 6,045 个样本,1,760,438 字节。
- NanoFEVER: 4,996 个样本,4,594,974 字节。
- NanoFiQA2018: 4,598 个样本,3,000,661 字节。
- NanoHotpotQA: 5,090 个样本,1,509,961 字节。
- NanoMSMARCO: 5,043 个样本,1,275,499 字节。
- NanoNFCorpus: 2,953 个样本,2,659,802 字节。
- NanoNQ: 5,035 个样本,2,076,931 字节。
- NanoQuoraRetrieval: 5,046 个样本,296,865 字节。
- NanoSCIDOCS: 2,210 个样本,1,386,292 字节。
- NanoArguAna: 3,635 个样本,2,523,220 字节。
- NanoSciFact: 2,919 个样本,2,611,209 字节。
- NanoTouche2020: 5,745 个样本,7,918,546 字节。
- 总下载大小: 35,275,595 字节。
- 总数据集大小: 35,275,595 字节。
2. 查询配置 (queries)
- 用途: 存储检索查询。
- 特征:
_id: 字符串类型,查询标识符。text: 字符串类型,查询文本内容。
- 子集划分与规模:
- NanoClimateFEVER: 50 个样本,7,768 字节。
- NanoDBPedia: 50 个样本,4,775 字节。
- NanoFEVER: 50 个样本,5,168 字节。
- NanoFiQA2018: 50 个样本,5,185 字节。
- NanoHotpotQA: 50 个样本,7,432 字节。
- NanoMSMARCO: 50 个样本,5,035 字节。
- NanoNFCorpus: 50 个样本,3,556 字节。
- NanoNQ: 50 个样本,6,408 字节。
- NanoQuoraRetrieval: 50 个样本,4,998 字节。
- NanoSCIDOCS: 50 个样本,7,718 字节。
- NanoArguAna: 50 个样本,52,445 字节。
- NanoSciFact: 50 个样本,6,921 字节。
- NanoTouche2020: 49 个样本,4,246 字节。
- 总下载大小: 121,655 字节。
- 总数据集大小: 121,655 字节。
3. 相关性标注配置 (qrels)
- 用途: 存储查询与文档之间的相关性判断。
- 特征:
query-id: 字符串类型,查询标识符。corpus-id: 字符串类型,语料库文档标识符。
- 子集划分与规模:
- NanoClimateFEVER: 148 个样本,4,217 字节。
- NanoDBPedia: 1,158 个样本,22,607 字节。
- NanoFEVER: 57 个样本,3,188 字节。
- NanoFiQA2018: 123 个样本,3,118 字节。
- NanoHotpotQA: 100 个样本,3,861 字节。
- NanoMSMARCO: 50 个样本,2,571 字节。
- NanoNFCorpus: 2,518 个样本,13,680 字节。
- NanoNQ: 57 个样本,2,493 字节。
- NanoQuoraRetrieval: 70 个样本,2,749 字节。
- NanoSCIDOCS: 244 个样本,14,384 字节。
- NanoArguAna: 50 个样本,3,816 字节。
- NanoSciFact: 56 个样本,2,562 字节。
- NanoTouche2020: 932 个样本,18,062 字节。
- 总下载大小: 97,308 字节。
- 总数据集大小: 97,308 字节。
数据预处理流程
数据集中的查询经过了特定的预处理流程:
- 第一阶段:格式检测与转换
- 使用 Gemini 2.5 Flash 模型对查询格式进行分类:QUESTION(问题)、KEYWORD(关键词)或 STATEMENT(陈述句)。
- 将 STATEMENT 格式的查询转换为 QUESTION 格式。
- 第二阶段:质量验证与修正
- 使用 GPT-4o 模型检测不恰当的修改并进行重新修正。
使用示例
加载数据集的代码示例如下: python from datasets import load_dataset queries = load_dataset("sionic-ai/NanoBEIR-ja", "queries", split="NanoClimateFEVER") corpus = load_dataset("sionic-ai/NanoBEIR-ja", "corpus", split="NanoClimateFEVER") qrels = load_dataset("sionic-ai/NanoBEIR-ja", "qrels", split="NanoClimateFEVER")
预处理示例
| 子集 | 原始查询 | 预处理后查询 |
|---|---|---|
| NanoClimateFEVER | 海氷は科学者や気候モデルが予想したよりもはるかに速いペースで減少している。 | 海氷は科学者や気候モデルが予想したよりもはるかに速いペースで減少しているのですか? |
| NanoClimateFEVER | ライム病は、アメリカの南部の温暖な地域よりも、北部の寒冷な地域ではるかに一般的です。 | ライム病は、アメリカの南部の温暖な地域よりも、北部の寒冷な地域で一般的ですか? |
| NanoClimateFEVER | 海面上昇は、予想外の速さで氷が溶けているため、予測を上回るペースで進行している。 | 海面上昇は予想外の速さで氷が溶けているため、予測を上回るペースで進行しているのか? |
| NanoClimateFEVER | 海洋の酸性化とは、人間が大気中に放出し続けてきた二酸化炭素が海水と反応し、巨大な酸性の浴槽のような状態を引き起こすかもしれない、恐ろしい脅威のことである。 | 海洋の酸性化とは何ですか? |
搜集汇总
数据集介绍

构建方式
在信息检索领域,构建高质量的基准数据集对于评估模型性能至关重要。NanoBEIR-ja数据集通过精心的预处理流程构建而成,其核心在于对原始查询语句进行格式转换与质量优化。该流程分为两个阶段:首先利用Gemini 2.5 Flash模型对查询格式进行检测与分类,将其划分为问题、关键词或陈述句等类别,并将陈述句统一转换为疑问句式;随后借助GPT-4o模型对转换结果进行质量验证与修正,确保语义的准确性与自然性。这种构建方式旨在提升查询语句的规范性与一致性,为检索任务提供结构清晰的输入。
特点
作为面向日语信息检索的基准数据集,NanoBEIR-ja展现出多方面的显著特点。数据集涵盖十三个子集,如NanoClimateFEVER、NanoDBPedia等,每个子集均包含语料库、查询语句及相关性标注,全面覆盖气候、科学、百科等多个领域。其查询语句经过标准化预处理,统一以疑问句形式呈现,增强了检索任务的针对性与可评估性。数据规模适中,语料库条目从数千到数万不等,兼顾了实验效率与评估需求,为日语检索模型的开发与比较提供了可靠的基础。
使用方法
在信息检索研究中,NanoBEIR-ja数据集的使用方法清晰而便捷。研究者可通过Hugging Face的datasets库直接加载数据,分别获取queries、corpus和qrels三个配置。每个子集均可独立加载,例如针对NanoClimateFEVER子集,可分别加载其查询、语料及相关性标注,进而构建检索评估任务。数据集适用于句子编码模型、检索器性能测试等场景,用户可基于标准化查询与语料进行检索匹配,并利用标注数据计算召回率、准确率等指标,从而系统评估模型在日语环境下的检索能力。
背景与挑战
背景概述
在信息检索与自然语言处理领域,日文基准数据集的构建对于评估模型在特定语言与文化背景下的性能至关重要。NanoBEIR-ja数据集应运而生,由Sionic AI等机构的研究人员创建,旨在为日文密集检索模型提供一个轻量级、高质量的评估基准。该数据集整合了多个经典检索任务子集,如ClimateFEVER、HotpotQA和MSMARCO的日文纳米版本,核心研究问题聚焦于如何高效、精准地评估模型在跨领域日文文本中的语义匹配与信息定位能力。其出现显著推动了日语检索模型的标准化评测进程,为研究者提供了一个便捷且可靠的实验平台。
当前挑战
该数据集致力于解决日文信息检索领域的核心挑战,即如何在不同领域与复杂查询类型下实现精准的语义匹配。具体而言,其面临的挑战包括处理日文特有的语言现象(如敬语、助词省略)所带来的语义歧义,以及应对科学论证、事实核查、开放域问答等多种任务形式的泛化需求。在构建过程中,挑战主要集中于数据预处理环节,例如将原始陈述句或关键词查询统一转化为规范的疑问句格式,这一过程需要借助大语言模型进行格式检测与转换,并确保转换后的查询在保持原意的同时符合自然语言习惯,避免引入噪声或扭曲语义,这对自动化流程的准确性与鲁棒性提出了较高要求。
常用场景
经典使用场景
在信息检索领域,NanoBEIR-ja数据集作为日文检索评估的基准工具,其经典使用场景聚焦于密集检索模型的性能评测与对比分析。该数据集通过整合多个子集,如NanoClimateFEVER和NanoSciFact,构建了涵盖气候科学、学术论证等多元主题的查询-文档对,为研究者提供了标准化的测试环境,以系统评估检索模型在跨领域日文文本中的语义匹配能力。
实际应用
在实际应用层面,NanoBEIR-ja能够支撑智能问答系统、学术文献检索平台以及专业领域知识库的构建与优化。例如,在气候科学或医疗健康领域的日文信息系统中,利用其预处理的查询-文档对,可快速训练或微调检索模型,提升系统对复杂专业查询的响应精度,从而增强搜索引擎、客服机器人等实际服务的效率与准确性。
衍生相关工作
围绕NanoBEIR-ja衍生的经典工作主要包括基于句子嵌入的密集检索方法探索,如Sentence-BERT在日文语境下的适配研究,以及跨语言检索模型的微调策略。这些工作常以该数据集为评估基准,验证模型在纳米尺度多任务检索中的泛化性能,进而催生了针对低资源语言的轻量级检索架构,促进了多语言信息检索技术的均衡发展。
以上内容由遇见数据集搜集并总结生成



