NanoBEIR-vi
收藏Hugging Face2025-12-20 更新2025-12-21 收录
下载链接:
https://huggingface.co/datasets/sionic-ai/NanoBEIR-vi
下载链接
链接失效反馈官方服务:
资源简介:
NanoBEIR-vi是从英语翻译成越南语的NanoBEIR基准数据集,用于信息检索评估。数据集包含三个主要部分:语料库(corpus)、查询相关文档(qrels)和查询(queries),每个部分下又包含多个子集(如NanoClimateFEVER、NanoDBPedia等)。数据集通过GPT-4o-mini进行翻译,并由GPT-4o进行质量验证。
提供机构:
sionic-ai
创建时间:
2025-12-20
原始信息汇总
NanoBEIR-vi 数据集概述
数据集基本信息
- 数据集名称: NanoBEIR-vi (Vietnamese Translation)
- 托管地址: https://huggingface.co/datasets/sionic-ai/NanoBEIR-vi
- 语言: 越南语 (vi)
- 主要任务类别: 文本检索 (text-retrieval)
- 标签: sentence-transformers, NanoBEIR, retrieval, translation
数据集描述
该数据集是从英语翻译而来的越南语NanoBEIR基准数据集,用于信息检索评估。
数据集配置与结构
数据集包含三个主要配置,每个配置下包含多个子集。
1. 语料库配置 (corpus)
- 特征:
_id: 字符串类型text: 字符串类型
- 子集与规模:
- NanoClimateFEVER: 3,408 个样本,3,543,264 字节
- NanoDBPedia: 6,045 个样本,1,615,771 字节
- NanoFEVER: 4,996 个样本,4,262,830 字节
- NanoFiQA2018: 4,598 个样本,2,760,048 字节
- NanoHotpotQA: 5,090 个样本,1,379,601 字节
- NanoMSMARCO: 5,043 个样本,1,215,291 字节
- NanoNFCorpus: 2,953 个样本,2,692,664 字节
- NanoNQ: 5,035 个样本,1,936,072 字节
- NanoQuoraRetrieval: 5,046 个样本,262,466 字节
- NanoSCIDOCS: 2,210 个样本,1,370,595 字节
- NanoArguAna: 3,635 个样本,2,286,372 字节
- NanoSciFact: 2,919 个样本,2,599,246 字节
- NanoTouche2020: 5,745 个样本,6,190,680 字节
- 总下载大小: 32,114,900 字节
- 总数据集大小: 32,114,900 字节
2. 查询-相关文档对配置 (qrels)
- 特征:
query-id: 字符串类型corpus-id: 字符串类型
- 子集与规模:
- NanoClimateFEVER: 148 个样本,4,217 字节
- NanoDBPedia: 1,158 个样本,22,607 字节
- NanoFEVER: 57 个样本,3,188 字节
- NanoFiQA2018: 123 个样本,3,118 字节
- NanoHotpotQA: 100 个样本,3,861 字节
- NanoMSMARCO: 50 个样本,2,571 字节
- NanoNFCorpus: 2,518 个样本,13,680 字节
- NanoNQ: 57 个样本,2,493 字节
- NanoQuoraRetrieval: 70 个样本,2,749 字节
- NanoSCIDOCS: 244 个样本,14,384 字节
- NanoArguAna: 50 个样本,3,816 字节
- NanoSciFact: 56 个样本,2,562 字节
- NanoTouche2020: 932 个样本,18,062 字节
- 总下载大小: 97,308 字节
- 总数据集大小: 97,308 字节
3. 查询配置 (queries)
- 特征:
_id: 字符串类型text: 字符串类型
- 子集与规模:
- NanoClimateFEVER: 50 个样本,8,044 字节
- NanoDBPedia: 50 个样本,4,101 字节
- NanoFEVER: 50 个样本,4,809 字节
- NanoFiQA2018: 50 个样本,5,225 字节
- NanoHotpotQA: 50 个样本,7,375 字节
- NanoMSMARCO: 50 个样本,4,118 字节
- NanoNFCorpus: 50 个样本,3,610 字节
- NanoNQ: 50 个样本,4,551 字节
- NanoQuoraRetrieval: 50 个样本,5,279 字节
- NanoSCIDOCS: 50 个样本,7,672 字节
- NanoArguAna: 50 个样本,40,576 字节
- NanoSciFact: 50 个样本,6,698 字节
- NanoTouche2020: 49 个样本,4,237 字节
- 总下载大小: 106,295 字节
- 总数据集大小: 106,295 字节
翻译流程
- 翻译模型: GPT-4o-mini
- 质量验证模型: GPT-4o
使用示例
python from datasets import load_dataset queries = load_dataset("sionic-ai/NanoBEIR-vi", "queries", split="NanoClimateFEVER") corpus = load_dataset("sionic-ai/NanoBEIR-vi", "corpus", split="NanoClimateFEVER") qrels = load_dataset("sionic-ai/NanoBEIR-vi", "qrels", split="NanoClimateFEVER")
翻译示例
| 子集 | 原文 (英语) | 译文 (越南语) |
|---|---|---|
| NanoClimateFEVER | In Alaska, brown bears are changing their feeding habits to eat elderberries that ripen earlier. | Tại Alaska, gấu nâu đang thay đổi thói quen ăn uống để ăn quả elderberry chín sớm hơn. |
| NanoDBPedia | 1994 short story collection Alice Munro is Open | Tập truyện ngắn năm 1994 của Alice Munro là Mở |
| NanoFEVER | Caesar is an original play by Orson Welles. | Caesar có phải là một vở kịch gốc của Orson Welles không? |
| NanoFiQA2018 | Why big clients want the contractor to be incorporated before giving them work | Tại sao các khách hàng lớn muốn nhà thầu phải được thành lập trước khi giao việc cho họ |
| NanoHotpotQA | Which of the campaign that brought out the term Vichy Republican on social media was launched? | Chiến dịch nào đã đưa ra thuật ngữ Cộng hòa Vichy trên mạng xã hội được khởi động? |
搜集汇总
数据集介绍

构建方式
在信息检索领域,构建高质量的多语言基准数据集对于评估模型跨语言性能至关重要。NanoBEIR-vi数据集通过精心设计的翻译流程构建而成,其核心方法是将英文原版NanoBEIR基准翻译为越南语版本。翻译工作由先进的GPT-4o-mini模型执行,确保了语义的准确转换,随后由更强大的GPT-4o模型进行质量验证,以保证翻译文本的流畅性与忠实度。该数据集涵盖了十三个经典检索任务子集,每个子集均包含语料库、查询及关联标注,形成了结构化的评估框架。
特点
该数据集作为越南语信息检索的微型基准,展现出鲜明的特色。其覆盖范围广泛,囊括了从气候事实核查到科学文献检索等十三个多样化的任务场景,如NanoClimateFEVER、NanoSciFact等,提供了丰富的领域代表性。数据集规模精巧但结构完整,每个子集均包含数千条文本条目,在保证评估效率的同时,具备了足够的统计可靠性。所有内容均经过高质量的机器翻译与验证,确保了越南语文本的语义准确性与自然度,为跨语言检索模型的性能测评提供了坚实的数据基础。
使用方法
为有效利用该数据集进行信息检索研究,研究者可通过Hugging Face的`datasets`库便捷加载。使用方法清晰直观,需分别指定配置名称与目标子集以加载查询、语料库及关联标注数据。例如,加载NanoClimateFEVER子集时,可分别调用`queries`、`corpus`和`qrels`配置。这种模块化的数据组织方式便于研究者针对特定任务进行模型训练与评估,能够快速构建检索系统原型,并在统一的越南语基准上比较不同模型的性能表现。
背景与挑战
背景概述
在信息检索领域,基准数据集对于评估模型性能至关重要。NanoBEIR-vi数据集由Sionic AI等机构构建,作为NanoBEIR基准的越南语翻译版本,旨在解决跨语言信息检索中的评估难题。该数据集整合了多个知名检索任务子集,如ClimateFEVER、DBPedia和MSMARCO,通过高质量机器翻译将英语语料转化为越南语,为越南语检索模型提供了标准化测试平台。其核心研究问题聚焦于如何在小规模但多样化的数据上有效评估检索模型的泛化能力与跨语言适应性,对推动低资源语言的信息检索技术发展具有显著影响力。
当前挑战
NanoBEIR-vi数据集面临的挑战主要体现在两个方面:在领域问题层面,跨语言信息检索要求模型不仅理解查询与文档的语义匹配,还需克服语言差异带来的语义漂移,例如文化特定表达与术语的准确翻译;同时,小规模数据评估需在有限样本中捕捉模型鲁棒性,避免过拟合与评估偏差。在构建过程中,挑战包括确保机器翻译的语义保真度与流畅性,尤其是处理专业术语与复杂句式;此外,协调多个异构子集的数据格式与质量统一,以及验证翻译后查询-文档对的相关性标签一致性,均需精细的质量控制流程。
常用场景
经典使用场景
在信息检索领域,NanoBEIR-vi数据集作为越南语检索基准,其经典使用场景聚焦于跨语言检索模型的评估与优化。该数据集通过提供多个子集如NanoClimateFEVER、NanoDBPedia等,涵盖了气候、百科、问答等多样化主题,使得研究者能够在统一的越南语环境下,系统测试检索算法在查询与文档匹配任务中的性能。这种设计不仅支持端到端的检索实验,还促进了模型在低资源语言场景下的泛化能力分析,为跨语言信息检索研究提供了标准化的评估平台。
解决学术问题
NanoBEIR-vi数据集解决了跨语言信息检索中越南语资源稀缺的核心学术问题。传统上,越南语检索研究常受限于数据规模不足或质量参差,该数据集通过高质量机器翻译,将英语基准转化为越南语版本,填补了该语言在标准化评估工具上的空白。其意义在于为学术界提供了可复现的实验基础,推动了跨语言模型在语义对齐、翻译鲁棒性等方面的深入探索,对低资源语言的信息检索技术发展产生了深远影响。
衍生相关工作
围绕NanoBEIR-vi数据集,衍生了一系列跨语言检索领域的经典研究工作。这些工作主要集中于改进翻译增强的检索模型,例如利用该数据集评估多语言嵌入表示在越南语上的迁移效果,或开发针对低资源语言的微调策略。相关研究还探索了子集间的领域适应性,如在科学文献(NanoSciFact)与论证分析(NanoArguAna)等特定任务上的性能优化,推动了跨语言检索技术向更细粒度、更专业化的方向发展。
以上内容由遇见数据集搜集并总结生成



