five

ms-marco-norwegian

收藏
Hugging Face2026-04-11 更新2026-04-12 收录
下载链接:
https://huggingface.co/datasets/thivy/ms-marco-norwegian
下载链接
链接失效反馈
官方服务:
资源简介:
MS MARCO Norwegian 是 MS MARCO 段落排名数据集的挪威语翻译版本,旨在用于训练挪威语 SPLADE 稀疏检索模型。数据集包含两个主要配置:'queries'(查询)和 'corpus'(语料库)。'queries' 配置包含 808,731 条查询,每条查询包含 'query_id' 和 'query' 两个字段,目前已完成翻译。'corpus' 配置包含 8,841,823 条段落,每条段落包含 'passage_id' 和 'passage' 两个字段,翻译工作仍在进行中(目前已完成约 344,000 条)。数据集的翻译使用 TranslateGemma 12B 模型,通过 vLLM 在 NVIDIA DGX Spark 上进行推理,并对截断和失败的翻译进行了重新处理。数据集的使用示例和结构信息也在 README 中提供。
创建时间:
2026-04-08
搜集汇总
数据集介绍
main_image_url
构建方式
在信息检索领域,跨语言数据资源的构建对于推动多语言模型的发展至关重要。MS MARCO Norwegian数据集通过先进的神经机器翻译技术,将经典的英文MS MARCO段落排序数据集转化为挪威语版本。具体而言,该数据集采用TranslateGemma 12B模型,并辅以FP8量化技术,在NVIDIA DGX Spark平台上通过vLLM服务进行高效翻译。翻译过程中,针对截断或失败的译文,系统会以更高的令牌限制重新处理,确保译文质量。数据集的构建以分片形式逐步推进,语料库部分目前已完成部分分片的翻译,并持续增量更新。
特点
该数据集作为挪威语信息检索任务的重要资源,其显著特点在于严格遵循原始MS MARCO数据集的结构,包含查询和语料库两个独立配置。查询部分已完整涵盖超过80万条挪威语查询,而语料库部分则计划翻译约884万条段落,目前翻译工作仍在进行中。数据集的设计保持了与原始数据集ID的一致性,使得基于查询-段落相关性的三元组映射可以直接沿用,确保了跨语言实验的可行性与可比性。这种结构上的镜像特性,为研究者提供了无缝衔接的多语言实验基础。
使用方法
对于希望利用该数据集进行挪威语稀疏检索模型训练的研究者,其使用方法直观且高效。通过Hugging Face的datasets库,可以分别加载查询集和语料库集。查询集作为已完成部分可直接用于模型训练或评估,而语料库集则需关注其增量更新的状态。在实际应用中,研究者可以结合原始MS MARCO数据集提供的相关性三元组信息,构建挪威语环境下的训练样本。这种使用方法既保留了原始数据集的评估框架,又为SPLADE等稀疏检索模型在挪威语上的适配与优化提供了直接支持。
背景与挑战
背景概述
MS MARCO Norwegian数据集是信息检索领域的一项关键资源,由研究人员Thivyesh基于微软的MS MARCO数据集构建,旨在为挪威语稀疏检索模型SPLADE提供训练支持。该数据集通过TranslateGemma 12B模型将英文原版翻译为挪威语,涵盖了查询和文档语料,自2024年起逐步发布,其核心研究问题聚焦于跨语言信息检索中的语义匹配与排名优化,对提升低资源语言的信息处理能力具有显著推动作用,促进了多语言检索系统的公平性与泛化性能发展。
当前挑战
该数据集致力于解决挪威语信息检索中的领域挑战,包括跨语言语义对齐的复杂性、低资源语言下检索模型性能的优化,以及用户查询与文档间相关性评估的精准度问题。在构建过程中,面临翻译质量控制的难题,如机器翻译可能引入的语义偏差或文化语境丢失;同时,大规模语料(约884万文档)的增量翻译与验证过程耗时且资源密集,需依赖高性能计算平台如NVIDIA DGX Spark,并需处理翻译失败或截断文本的重新处理,确保数据一致性与可用性。
常用场景
经典使用场景
在信息检索领域,跨语言稀疏检索模型的训练常面临高质量平行语料稀缺的挑战。MS MARCO Norwegian数据集通过将经典的MS MARCO段落排序数据集翻译为挪威语,为挪威语信息检索研究提供了宝贵的资源。该数据集最经典的使用场景是训练和评估挪威语SPLADE稀疏检索模型,使研究人员能够在挪威语语境下探索查询与段落之间的语义匹配,从而推动跨语言检索技术的发展。
衍生相关工作
围绕该数据集,已衍生出多项经典研究工作,主要集中在跨语言稀疏检索模型的扩展与优化。例如,基于SPLADE架构的挪威语变体模型探索了语言特定词汇扩展和语义编码策略。此外,研究人员利用该数据集进行多语言检索基准测试,比较不同翻译方法对检索性能的影响,并推动了低资源语言检索中数据增强和迁移学习方法的创新,为后续跨语言信息检索研究提供了重要参考。
数据集最近研究
最新研究方向
在信息检索领域,跨语言稀疏检索模型的优化正成为前沿热点,MS MARCO Norwegian数据集的构建为此提供了关键资源。该数据集通过高效机器翻译技术将经典英文检索基准转化为挪威语版本,旨在支持挪威语SPLADE等稀疏检索模型的训练与评估。当前研究聚焦于利用此类多语言数据集推动低资源语言的信息检索性能,探索翻译质量对检索效果的影响,并促进跨语言模型在真实场景中的部署。这一进展不仅丰富了非英语检索系统的开发基础,也为全球多语言人工智能应用提供了重要参考。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作