NanoBEIR-th

Name: NanoBEIR-th
Creator: sionic-ai
Published: 2025-12-20 01:29:02
License: 暂无描述

Hugging Face2025-12-20 更新2025-12-21 收录

下载链接：

https://huggingface.co/datasets/sionic-ai/NanoBEIR-th

下载链接

链接失效反馈

官方服务：

资源简介：

NanoBEIR-th数据集是从英语NanoBEIR基准数据集翻译而来的泰语版本，用于信息检索评估。包含三种配置：语料库（corpus）、查询相关标签（qrels）和查询（queries），每种配置都有多个子集，如NanoClimateFEVER、NanoDBPedia等。该数据集适用于文本检索任务，标记有sentence-transformers和retrieval等相关类别。翻译使用GPT-4o-mini完成，并由GPT-4o进行质量验证。提供了多个子集从英语到泰语的翻译示例。

提供机构：

sionic-ai

创建时间：

2025-12-20

原始信息汇总

NanoBEIR-th (Thai Translation) 数据集概述

数据集基本信息

数据集名称: NanoBEIR-th (Thai Translation)
托管地址: https://huggingface.co/datasets/sionic-ai/NanoBEIR-th
语言: 泰语 (th)
主要任务类别: 文本检索 (text-retrieval)
标签: sentence-transformers, NanoBEIR, retrieval, translation

数据集构成与配置

数据集包含三个主要配置，每个配置下包含13个子集。

1. 语料库配置 (corpus)

特征:
- _id: 字符串类型
- text: 字符串类型
子集与规模:
- NanoClimateFEVER: 3,408 个样本，4,960,982 字节
- NanoDBPedia: 6,045 个样本，2,234,225 字节
- NanoFEVER: 4,996 个样本，5,804,112 字节
- NanoFiQA2018: 4,598 个样本，3,699,464 字节
- NanoHotpotQA: 5,090 个样本，1,902,892 字节
- NanoMSMARCO: 5,043 个样本，1,654,969 字节
- NanoNFCorpus: 2,953 个样本，3,882,451 字节
- NanoNQ: 5,035 个样本，2,646,393 字节
- NanoQuoraRetrieval: 5,046 个样本，348,398 字节
- NanoSCIDOCS: 2,210 个样本，1,919,333 字节
- NanoArguAna: 3,635 个样本，3,237,013 字节
- NanoSciFact: 2,919 个样本，3,771,234 字节
- NanoTouche2020: 5,745 个样本，8,349,485 字节
总下载大小: 44,410,951 字节
总数据集大小: 44,410,951 字节

2. 查询-相关文档对配置 (qrels)

特征:
- query-id: 字符串类型
- corpus-id: 字符串类型
子集与规模:
- NanoClimateFEVER: 148 个样本，4,217 字节
- NanoDBPedia: 1,158 个样本，22,607 字节
- NanoFEVER: 57 个样本，3,188 字节
- NanoFiQA2018: 123 个样本，3,118 字节
- NanoHotpotQA: 100 个样本，3,861 字节
- NanoMSMARCO: 50 个样本，2,571 字节
- NanoNFCorpus: 2,518 个样本，13,680 字节
- NanoNQ: 57 个样本，2,493 字节
- NanoQuoraRetrieval: 70 个样本，2,749 字节
- NanoSCIDOCS: 244 个样本，14,384 字节
- NanoArguAna: 50 个样本，3,816 字节
- NanoSciFact: 56 个样本，2,562 字节
- NanoTouche2020: 932 个样本，18,062 字节
总下载大小: 97,308 字节
总数据集大小: 97,308 字节

3. 查询配置 (queries)

特征:
- _id: 字符串类型
- text: 字符串类型
子集与规模:
- NanoClimateFEVER: 50 个样本，10,792 字节
- NanoDBPedia: 50 个样本，5,082 字节
- NanoFEVER: 50 个样本，6,017 字节
- NanoFiQA2018: 50 个样本，6,401 字节
- NanoHotpotQA: 50 个样本，8,990 字节
- NanoMSMARCO: 50 个样本，4,914 字节
- NanoNFCorpus: 50 个样本，4,289 字节
- NanoNQ: 50 个样本，5,564 字节
- NanoQuoraRetrieval: 50 个样本，6,044 字节
- NanoSCIDOCS: 50 个样本，9,328 字节
- NanoArguAna: 50 个样本，55,442 字节
- NanoSciFact: 50 个样本，8,846 字节
- NanoTouche2020: 49 个样本，5,262 字节
总下载大小: 136,971 字节
总数据集大小: 136,971 字节

数据文件路径结构

每个配置下的数据文件均按子集组织在相应目录下：

语料库文件路径模式: corpus/{子集名称}-*
查询-相关文档对文件路径模式: qrels/{子集名称}-*
查询文件路径模式: queries/{子集名称}-*

数据集描述与用途

描述: 从英语翻译而来的泰语NanoBEIR基准数据集，用于信息检索评估。
翻译流程:
- 翻译模型: GPT-4o-mini
- 质量验证模型: GPT-4o

使用示例

python from datasets import load_dataset queries = load_dataset("sionic-ai/NanoBEIR-th", "queries", split="NanoClimateFEVER") corpus = load_dataset("sionic-ai/NanoBEIR-th", "corpus", split="NanoClimateFEVER") qrels = load_dataset("sionic-ai/NanoBEIR-th", "qrels", split="NanoClimateFEVER")

搜集汇总

数据集介绍

构建方式

在信息检索领域，构建高质量的多语言评估基准对于推动跨语言检索技术的发展至关重要。NanoBEIR-th数据集的构建采用了系统化的翻译流程，其核心是将英文原版的NanoBEIR基准数据集转化为泰语版本。具体而言，该过程首先利用GPT-4o-mini模型进行初步的机器翻译，随后引入更强大的GPT-4o模型对翻译结果进行质量验证与精校，以确保译文的准确性与语言的自然流畅。这种两阶段的构建方法，旨在生成一个既忠实于原文语义、又符合泰语语言习惯的标准化检索测试集。

使用方法

在实践应用中，该数据集为泰语检索模型的训练与评估提供了标准化接口。研究人员可通过Hugging Face的`datasets`库，分别加载指定子集的查询集、文档库和相关性标注。例如，针对`NanoClimateFEVER`子集，可独立加载其查询、语料和qrels文件，进而开展检索模型的性能评测。这种清晰的数据分离与组织方式，允许研究者灵活地构建检索任务流水线，或进行跨子集的对比实验，从而系统化地推动泰语检索模型的技术进步与性能优化。

背景与挑战

背景概述

NanoBEIR-th数据集是信息检索领域的一项创新资源，专为泰语环境下的检索模型评估而设计。该数据集由Sionic AI团队构建，其核心研究问题聚焦于解决多语言信息检索中泰语语料稀缺的困境，通过将广泛使用的英文NanoBEIR基准翻译为泰语，为跨语言检索系统提供了标准化的测试平台。这一工作不仅促进了泰语自然语言处理技术的发展，也为低资源语言的信息检索研究注入了新的活力，推动了检索模型在多样化语言场景中的泛化能力评估。

当前挑战

在信息检索领域，该数据集旨在应对泰语检索模型缺乏高质量评估基准的挑战，其构建过程面临多重困难。首先，翻译质量的控制至关重要，需确保泰语译文在语义上忠实于原文，同时保持自然流畅，这对机器翻译模型提出了较高要求。其次，数据集的多样性维护是一大难题，需涵盖多个子集如NanoClimateFEVER、NanoDBPedia等，以模拟真实检索场景的复杂性。此外，跨语言对齐的精确性也是构建中的关键挑战，涉及查询与文档之间的关联映射在翻译过程中可能出现的偏差，需要人工或自动化手段进行细致校验。

常用场景

经典使用场景

在信息检索领域，NanoBEIR-th数据集作为泰语检索任务的基准测试工具，其经典使用场景聚焦于评估跨语言检索模型的性能。该数据集通过将多个英文检索基准翻译为泰语，构建了涵盖科学文献、事实核查、问答等多种主题的微型语料库，为研究者提供了标准化的测试环境。在检索系统开发中，研究人员利用该数据集训练和微调双编码器或密集检索模型，以优化模型在泰语语境下的语义匹配能力，从而推动低资源语言检索技术的发展。

解决学术问题

该数据集有效解决了信息检索研究中低资源语言评估数据匮乏的学术难题。传统检索基准多以英语为中心，限制了非英语语言检索模型的进展。NanoBEIR-th通过高质量机器翻译构建泰语检索数据集，为跨语言检索、多语言表示学习等研究方向提供了可靠的评估框架。其意义在于促进了检索模型的公平性比较，推动了语言多样性在信息检索领域的关注，为低资源语言的技术发展奠定了数据基础。

实际应用

在实际应用层面，NanoBEIR-th数据集可服务于泰语搜索引擎、智能客服系统以及教育科技平台。例如，在泰语地区的在线教育中，该系统能够快速从科学文档中检索相关知识片段，辅助学生高效学习。在商业领域，企业可利用该数据集开发的检索模型构建本地化的产品问答系统，提升用户体验。这些应用不仅增强了信息服务的可及性，也推动了人工智能技术在东南亚地区的本土化落地。

数据集最近研究