five

thivy/ms-marco-norwegian

收藏
Hugging Face2026-05-02 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/thivy/ms-marco-norwegian
下载链接
链接失效反馈
官方服务:
资源简介:
MS MARCO挪威语翻译数据集是MS MARCO passage ranking数据集的挪威语版本,用于训练挪威语的SPLADE稀疏检索模型。数据集包含查询(queries)和语料库(corpus)两部分,查询部分已完成翻译(808K条),语料库部分正在逐步翻译中(已完成约344K/8.8M条)。数据通过TranslateGemma 12B模型进行翻译,并使用vLLM在NVIDIA DGX Spark上进行推理。

Norwegian translation of the MS MARCO passage ranking dataset for training Norwegian SPLADE sparse retrieval models. The dataset includes queries (808K, complete) and corpus (in progress, ~344K/8.8M passages done). Translated using TranslateGemma 12B with FP8 quantization, served via vLLM on NVIDIA DGX Spark.
提供机构:
thivy
搜集汇总
数据集介绍
main_image_url
构建方式
在信息检索领域,跨语言数据资源的构建对于提升非英语语种检索模型的性能至关重要。MS MARCO Norwegian数据集通过将经典的MS MARCO英文段落排序数据集翻译为挪威语而形成,其构建过程采用了先进的TranslateGemma 12B模型,并辅以FP8量化技术,通过vLLM框架在NVIDIA DGX Spark平台上高效执行。翻译过程中,针对截断或失败的翻译结果,系统会以更高的令牌限制进行重译,确保了译文质量。数据以分片形式逐步翻译和上传,目前查询部分已完成,语料库部分仍在持续更新中。
特点
该数据集作为挪威语信息检索研究的重要资源,其核心特征在于完整保留了原始MS MARCO数据集的结构与相关性映射。数据集包含查询和语料库两个独立配置,查询部分包含超过80万条挪威语查询,已全部完成;语料库部分计划包含约884万条段落,正以分片形式增量发布。其三元组相关性标注与语言无关,可直接沿用原始数据集,为训练挪威语SPLADE等稀疏检索模型提供了高质量的平行语料。数据规模介于百万至千万级别,专为挪威语检索任务设计。
使用方法
研究人员可利用该数据集高效地训练和评估挪威语信息检索模型。使用Hugging Face的datasets库,通过指定配置名称即可分别加载查询集与语料库。查询部分已全部就绪,语料库则随着翻译进度动态更新。由于三元组标注与语言无关,开发者需结合原始MS MARCO数据集中的相关性映射文件,将挪威语查询和段落与对应的标注关联,进而构建完整的训练与评估流水线,适用于稀疏表示学习、跨语言检索对齐等多种实验场景。
背景与挑战
背景概述
MS MARCO Norwegian数据集是信息检索领域的一项衍生资源,由研究社区基于著名的MS MARCO(Microsoft Machine Reading Comprehension)数据集构建而成。该数据集旨在为挪威语的信息检索任务提供高质量的语料支持,其核心研究问题聚焦于跨语言检索与稀疏检索模型的训练。通过将原始的英文查询与文档大规模翻译为挪威语,该数据集为开发适应低资源语言的检索系统奠定了基础,推动了多语言信息处理技术的发展,尤其对北欧语言的信息检索研究具有显著的促进作用。
当前挑战
该数据集面临的挑战主要体现在两个方面:在领域问题层面,信息检索任务要求模型能够精准理解挪威语的语义细微差异与复杂查询意图,这对跨语言迁移学习与稀疏表示提出了较高要求;在构建过程中,大规模语料的机器翻译需保持原文的信息完整性与语言流畅性,同时需应对翻译模型可能引入的误差与一致性难题,确保翻译质量足以支撑后续检索模型的训练与评估。
常用场景
经典使用场景
在信息检索领域,跨语言数据资源的稀缺性长期制约着非英语语种模型的发展。MS MARCO Norwegian数据集通过将经典的MS MARCO段落排序数据集翻译为挪威语,为挪威语信息检索研究提供了高质量的基准资源。该数据集最经典的使用场景是训练和评估挪威语稀疏检索模型,特别是SPLADE架构,模型能够学习挪威语查询与相关段落之间的语义匹配关系,从而优化检索性能。
实际应用
在实际应用中,MS MARCO Norwegian数据集能够直接赋能面向挪威语用户的搜索引擎、智能问答系统和文档检索平台。通过基于该数据集训练的模型,系统可以更精准地理解挪威语自然语言查询意图,并从海量挪威语文档中快速定位相关信息,显著提升挪威语地区数字服务的信息获取效率和用户体验。
衍生相关工作
该数据集的构建理念衍生自MS MARCO系列多语言扩展的经典范式。其直接相关的工作包括用于翻译的TranslateGemma模型以及SPLADE稀疏检索架构的挪威语适配。此外,它也促进了后续针对其他北欧语言或低资源语言的类似数据集创建项目,为构建更全面的多语言检索生态系统提供了可复制的技术路径和参考基准。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作