NbAiLab/maalfrid_parallel
收藏Hugging Face2026-05-05 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/NbAiLab/maalfrid_parallel
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含挪威布克莫尔语(Norwegian Bokmål)、挪威尼诺斯克语(Norwegian Nynorsk)和英语的平行数据。数据集分为三个语言对配置:nob_nno(挪威布克莫尔语与挪威尼诺斯克语)、nob_eng(挪威布克莫尔语与英语)和nno_eng(挪威尼诺斯克语与英语)。每个配置都有训练集、验证集和测试集划分,且各划分之间没有源域的重叠。数据来源于Målfrid项目,该项目通过爬取.no政府网站来报告语言使用情况。文档对通过[NbAiLab/nb-sbert-v2-base](https://huggingface.co/NbAiLab/nb-sbert-v2-base)和sentence-transformers库进行对齐,英语-挪威语平行数据的最小余弦相似度阈值为0.80,挪威语平行数据为0.95。数据集采用挪威开放政府数据许可证(NLOD)。
This dataset contains parallel data for the following languages: Norwegian Bokmål, Norwegian Nynorsk, English. The dataset is organized by the three language pairs nob_nno (Norwegian Bokmål, Norwegian Nynorsk), nob_eng (Norwegian Bokmål, English) and nno_eng (Norwegian Nynorsk, English). Each division has a train, val, test split, and there is no overlap of source domains between the splits. The source data is from the Målfrid project, which involves scraping .no governmental web sites to report language use. The document pairs were aligned per website with [NbAiLab/nb-sbert-v2-base](https://huggingface.co/NbAiLab/nb-sbert-v2-base) and the sentence-transformers library. For English-Norwegian parallel data, the minimum cosine similarity threshold is 0.80, and for Norwegian parallel data it is 0.95. The dataset uses the Norwegian Licence for Open Government Data (NLOD).
提供机构:
NbAiLab
搜集汇总
数据集介绍

构建方式
在自然语言处理领域,平行语料库是机器翻译与跨语言信息检索的核心基石。Målfrid Parallel 数据集源自挪威国家图书馆主导的 Målfrid 项目,该项目通过系统抓取 .no 域名下的政府网站文本,旨在监测挪威官方语言的分布与使用。数据构建整合了 2021 至 2025 年间的五个资源目录,涵盖书面挪威语(Bokmål)、新挪威语(Nynorsk)与英语三种语言。文档对齐采用基于 NbAiLab/nb-sbert-v2-base 模型的语义相似度计算方法,针对每一网站内的文档对进行匹配;英语与挪威语平行对的最低余弦相似度阈值为 0.80,挪威语内部平行对则设定为 0.95,以确保对齐的准确性。
特点
该数据集以语言对为基本组织单元,细分为 nob_eng、nno_eng 与 nob_nno 三个配置,每个配置均包含训练集、验证集与测试集,且各划分间源域不重叠,保障了评估的公正性。数据总量逾 8.4 GB,其中 nob_eng 配置规模最大,包含超过 15.7 万训练样本;nno_eng 与 nob_nno 分别约为 3.09 万与 3.14 万训练样本。每条记录除保存双语全文列表外,还附带来源 URL、域名、采集时间及 MIME 类型等元信息,便于追踪数据来源与进行细粒度过滤。
使用方法
开发者可通过 Hugging Face Datasets 库便捷加载该数据集,只需指定配置名称即可获取对应语言对的平行数据。例如,加载新挪威语-英语平行对时,执行 load_dataset("NbAiLab/maalfrid_parallel", name="nno_eng") 即可自动下载并拆分训练、验证与测试子集。该数据集采用挪威开放政府数据许可证(NLOD 2.0),允许自由使用、修改与再分发,仅要求注明来源。其鲜明的领域特征与高质量对齐标准,使其尤其适用于政府文档翻译、低资源语言建模及北欧语言跨语言迁移学习等研究场景。
背景与挑战
背景概述
Målfrid Parallel数据集由挪威国家图书馆(Nasjonalbiblioteket)与挪威语言银行(Språkbanken)联合创建,首次发布于2021年,并在后续年份持续迭代至2025年。该数据集聚焦于低资源语言对——挪威语(包括书面挪威语Bokmål与新挪威语Nynorsk)与英语之间的平行语料构建,旨在为机器翻译、跨语言信息检索及多语言自然语言处理研究提供高质量的对齐数据。其核心研究问题在于如何利用政府网站中多语言文档的天然平行性,通过自动化方法实现大规模、高精度的语料对齐。数据集涵盖了三个语言对(nob_eng、nno_eng、nob_nno),总计超过20万对文档,训练、验证与测试集划分清晰且无领域重叠,为挪威语族语言的跨语言研究奠定了重要基础,尤其在促进北欧语言资源的数字化与多语言技术发展方面具有显著影响力。
当前挑战
该数据集所应对的领域挑战主要源于北欧低资源语言对平行语料严重匮乏的现状,传统的机器翻译与跨语言模型常因缺乏充分对齐数据而在挪威语上表现不佳,尤其新挪威语作为少数语言资源更为稀缺。构建过程中面临的核心技术挑战包括:如何从.gov域名网页的海量非结构化文本中精准识别多语言版本文档,利用NbAiLab/nb-sbert-v2-base模型进行语义对齐时需设置严格的余弦相似度阈值(英-挪≥0.80、挪-挪≥0.95)以平衡召回率与精度,同时需避免同一网站下不同语言页面因内容非完全对应而引入噪声编码。此外,跨年度数据(2021—2025)的格式统一、时间戳对齐以及领域代码的覆盖完整性也构成了显著的工程难点。
常用场景
经典使用场景
在自然语言处理与机器翻译的研究版图中,平行语料库始终是支撑跨语言模型训练的基石。maalfrid_parallel数据集专注于挪威语两大书面变体——书面挪威语(Bokmål)与新挪威语(Nynorsk),以及英语之间的语言对,提供了精细对齐的文档级平行数据。其经典应用场景在于训练和评估神经机器翻译系统,尤其针对资源相对较少的挪威语变体。研究者可利用该数据集的nob_eng、nno_eng和nob_nno三个子集,分别构建英语-挪威语及挪威语内部变体间的翻译模型,从而推动低资源语言翻译技术的突破。
衍生相关工作
该数据集的构建方法与资源本身已催生了一系列经典衍生工作。其采用的基于nb-sbert-v2-base模型和执行优化的对齐策略,为低资源语言对的高效平行语料自动构建提供了可复现的技术范本。后续研究在此基础上,或使用该数据集微调多语言预训练模型以提升挪威语语义理解能力,或将其作为验证集对比不同对齐算法的性能。此外,maalfrid_parallel还与Målfrid系列语料库联合使用,推动了挪威语语言变体识别、语言模型跨方言迁移等方向的研究进展。
数据集最近研究
最新研究方向
该数据集聚焦于挪威语双语种(Bokmål与Nynorsk)及英-挪平行语料的构建,其前沿研究方向体现在两个关键层面:一是利用高精度语义相似度模型(如NbAiLab/nb-sbert-v2-base)对政府网站文档进行跨语言对齐,最低余弦相似度阈值设定达0.95(挪威语内部)与0.80(英-挪),确保了平行语料的语义对齐质量;二是其数据来源覆盖2021至2025年的挪威政府网站爬取,形成了跨年度、多领域的动态语料库。这一资源为低资源语言机器翻译、跨语言信息检索及语言变体研究提供了高质量训练数据,尤其在当前多语言NLP模型向小语种拓展的国际浪潮下,maalfrid_parallel的推出为北欧语言的技术落地与语言多样性保护提供了关键数据支撑。
以上内容由遇见数据集搜集并总结生成



