ms-marco-norwegian

Hugging Face2026-04-11 更新2026-04-12 收录

下载链接：

https://huggingface.co/datasets/thivy/ms-marco-norwegian

下载链接

链接失效反馈

官方服务：

资源简介：

MS MARCO Norwegian 是 MS MARCO 段落排名数据集的挪威语翻译版本，旨在用于训练挪威语 SPLADE 稀疏检索模型。数据集包含两个主要配置：'queries'（查询）和 'corpus'（语料库）。'queries' 配置包含 808,731 条查询，每条查询包含 'query_id' 和 'query' 两个字段，目前已完成翻译。'corpus' 配置包含 8,841,823 条段落，每条段落包含 'passage_id' 和 'passage' 两个字段，翻译工作仍在进行中（目前已完成约 344,000 条）。数据集的翻译使用 TranslateGemma 12B 模型，通过 vLLM 在 NVIDIA DGX Spark 上进行推理，并对截断和失败的翻译进行了重新处理。数据集的使用示例和结构信息也在 README 中提供。

创建时间：

2026-04-08

搜集汇总

数据集介绍

构建方式

在信息检索领域，跨语言数据资源的构建对于推动多语言模型的发展至关重要。MS MARCO Norwegian数据集通过先进的神经机器翻译技术，将经典的英文MS MARCO段落排序数据集转化为挪威语版本。具体而言，该数据集采用TranslateGemma 12B模型，并辅以FP8量化技术，在NVIDIA DGX Spark平台上通过vLLM服务进行高效翻译。翻译过程中，针对截断或失败的译文，系统会以更高的令牌限制重新处理，确保译文质量。数据集的构建以分片形式逐步推进，语料库部分目前已完成部分分片的翻译，并持续增量更新。

特点

该数据集作为挪威语信息检索任务的重要资源，其显著特点在于严格遵循原始MS MARCO数据集的结构，包含查询和语料库两个独立配置。查询部分已完整涵盖超过80万条挪威语查询，而语料库部分则计划翻译约884万条段落，目前翻译工作仍在进行中。数据集的设计保持了与原始数据集ID的一致性，使得基于查询-段落相关性的三元组映射可以直接沿用，确保了跨语言实验的可行性与可比性。这种结构上的镜像特性，为研究者提供了无缝衔接的多语言实验基础。

使用方法

对于希望利用该数据集进行挪威语稀疏检索模型训练的研究者，其使用方法直观且高效。通过Hugging Face的datasets库，可以分别加载查询集和语料库集。查询集作为已完成部分可直接用于模型训练或评估，而语料库集则需关注其增量更新的状态。在实际应用中，研究者可以结合原始MS MARCO数据集提供的相关性三元组信息，构建挪威语环境下的训练样本。这种使用方法既保留了原始数据集的评估框架，又为SPLADE等稀疏检索模型在挪威语上的适配与优化提供了直接支持。

背景与挑战

背景概述

MS MARCO Norwegian数据集是信息检索领域的一项关键资源，由研究人员Thivyesh基于微软的MS MARCO数据集构建，旨在为挪威语稀疏检索模型SPLADE提供训练支持。该数据集通过TranslateGemma 12B模型将英文原版翻译为挪威语，涵盖了查询和文档语料，自2024年起逐步发布，其核心研究问题聚焦于跨语言信息检索中的语义匹配与排名优化，对提升低资源语言的信息处理能力具有显著推动作用，促进了多语言检索系统的公平性与泛化性能发展。

当前挑战

该数据集致力于解决挪威语信息检索中的领域挑战，包括跨语言语义对齐的复杂性、低资源语言下检索模型性能的优化，以及用户查询与文档间相关性评估的精准度问题。在构建过程中，面临翻译质量控制的难题，如机器翻译可能引入的语义偏差或文化语境丢失；同时，大规模语料（约884万文档）的增量翻译与验证过程耗时且资源密集，需依赖高性能计算平台如NVIDIA DGX Spark，并需处理翻译失败或截断文本的重新处理，确保数据一致性与可用性。

常用场景

经典使用场景

在信息检索领域，跨语言稀疏检索模型的训练常面临高质量平行语料稀缺的挑战。MS MARCO Norwegian数据集通过将经典的MS MARCO段落排序数据集翻译为挪威语，为挪威语信息检索研究提供了宝贵的资源。该数据集最经典的使用场景是训练和评估挪威语SPLADE稀疏检索模型，使研究人员能够在挪威语语境下探索查询与段落之间的语义匹配，从而推动跨语言检索技术的发展。

衍生相关工作

围绕该数据集，已衍生出多项经典研究工作，主要集中在跨语言稀疏检索模型的扩展与优化。例如，基于SPLADE架构的挪威语变体模型探索了语言特定词汇扩展和语义编码策略。此外，研究人员利用该数据集进行多语言检索基准测试，比较不同翻译方法对检索性能的影响，并推动了低资源语言检索中数据增强和迁移学习方法的创新，为后续跨语言信息检索研究提供了重要参考。

数据集最近研究