maalfrid_parallel
收藏Hugging Face2026-04-30 更新2026-05-01 收录
下载链接:
https://huggingface.co/datasets/NbAiLab/maalfrid_parallel
下载链接
链接失效反馈官方服务:
资源简介:
Målfrid平行数据集包含挪威语布克莫尔(Norwegian Bokmål)、挪威语尼诺斯克(Norwegian Nynorsk)和英语的平行数据。数据集分为三个语言对:nob_nno(挪威语布克莫尔与尼诺斯克)、nob_eng(挪威语布克莫尔与英语)和nno_eng(挪威语尼诺斯克与英语)。每个语言对包含训练集、验证集和测试集,且各分割之间的源域无重叠。数据来源于Målfrid项目,该项目通过爬取.no政府网站来报告语言使用情况。文档对使用NbAiLab/nb-sbert-v2-base和sentence-transformers库进行对齐,英语-挪威语平行数据的最小余弦相似度阈值为0.80,挪威语平行数据为0.95。数据集采用挪威开放政府数据许可(NLOD)2.0版本。
The Målfrid parallel dataset contains parallel data for Norwegian Bokmål, Norwegian Nynorsk, and English. The dataset is divided into three language pairs: nob_nno (Norwegian Bokmål and Nynorsk), nob_eng (Norwegian Bokmål and English), and nno_eng (Norwegian Nynorsk and English). Each language pair includes training, validation, and test sets, with no overlap in source domains between the splits. The data originates from the Målfrid project, which crawls .no government websites to report on language usage. The documentation aligns using the NbAiLab/nb-sbert-v2-base and sentence-transformers libraries, with a minimum cosine similarity threshold of 0.80 for English-Norwegian parallel data and 0.95 for Norwegian parallel data. The dataset is licensed under the Norwegian Open Government Data License (NLOD) version 2.0.
提供机构:
Nasjonalbiblioteket AI Lab
创建时间:
2026-04-30
原始信息汇总
数据集概述:Målfrid parallel
该数据集是一个包含挪威语(书面挪威语和新挪威语)与英语平行语料的数据集,由挪威国家图书馆的Målfrid项目构建,面向双语平行文本研究。
数据集结构
数据集按语言对分为三个配置(config),每个配置均包含训练、验证和测试三个切分,各切分之间源领域无重叠:
| 配置名称 | 源语言 | 目标语言 | 训练集大小(样本数/字节数) | 验证集大小 | 测试集大小 |
|---|---|---|---|---|---|
| nno_eng | 新挪威语 | 英语 | 30,901 / 646,281,627 | 3,796 / 95,154,486 | 3,795 / 63,384,295 |
| nob_eng | 书面挪威语 | 英语 | 157,044 / 2,848,150,425 | 19,720 / 719,824,219 | 19,720 / 1,741,602,646 |
| nob_nno | 书面挪威语 | 新挪威语 | 31,434 / 250,275,694 | 3,928 / 65,213,354 | 3,929 / 65,580,255 |
- 总下载大小:2,257,231,595 字节(约2.1GB)
- 总数据集大小:5,309,577,290 字节(约4.9GB)
数据特征
每个配置中的每条样本均包含对应语言对的文档级特征,具体字段如下:
doc_hash_*:文档哈希值(字符串)lang_*:语言代码(字符串)url_*:来源URL(字符串)domain_*:域名(字符串)date_*:时间戳(时间戳类型)mimetype_*:MIME类型(字符串)fulltext_*:全文文本(字符串列表)
其中 * 表示语言后缀,如 _nno、_nob、_eng。
数据来源
数据来自Målfrid项目的历年资源,即对挪威政府网站(.no域)进行爬取所获的语料,具体包含以下资源目录:
- Målfrid 2021
- Målfrid 2022
- Målfrid 2023
- Målfrid 2024
- Målfrid 2025
对齐方法
文档对通过每个网站内部使用NbAiLab/nb-sbert-v2-base预训练模型和sentence-transformers库进行对齐:
- 对于英语-挪威语平行数据:最小余弦相似度阈值为0.80
- 对于挪威语内部平行数据(新挪威语-书面挪威语):最小余弦相似度阈值为0.95
许可协议
数据集采用挪威开放政府数据许可协议(NLOD 2.0)。
加载方式
使用Hugging Face的datasets库加载,通过name参数指定配置,示例:
python
from datasets import load_dataset
ds = load_dataset("NbAiLab/maalfrid_parallel", name="nno_eng")
搜集汇总
数据集介绍

构建方式
在自然语言处理领域,平行语料库对于机器翻译与跨语言信息检索等任务具有不可替代的价值。Målfrid Parallel数据集正是为此而生,它汇聚了挪威语(书面挪威语与新挪威语)与英语的高质量平行文本。其构建源于Målfrid项目对挪威政府网站的系统性爬取,整合了2021至2025年间五个年度的语言使用报告。随后,研究者利用基于NbAiLab/nb-sbert-v2-base模型的句向量技术,对每个网站内的文档进行语义对齐。针对挪威语-英语配对,余弦相似度阈值设定为0.80;而挪威语内部配对则采用更为严格的0.95阈值,以确保对齐的精确性。
特点
该数据集的一项显著特征在于其精细的语种划分与结构设计。它提供了三种配置:书面挪威语-英语、新挪威语-英语以及书面挪威语-新挪威语,每种配置均被划分为训练集、验证集和测试集,且各分集之间的来源域无重叠,有效避免了数据泄露。每个样本包含了丰富的元数据字段,如文档哈希值、语言标识、来源URL、域名、日期、MIME类型以及全文内容(以列表形式存储),为下游任务提供了全面的信息支撑。
使用方法
调用该数据集时,用户可借助Hugging Face的datasets库实现便捷加载。通过指定name参数为'nno_eng'、'nob_eng'或'nob_nno',即可精准获取所需语种对的数据。每个配置下均含有'train'、'validation'和'test'三个分割,可直接用于模型训练、超参数调优与性能评估。数据遵循挪威开放政府数据许可证,允许在科研与工业场景中自由使用与再分发。
背景与挑战
背景概述
机器翻译与跨语言自然语言处理研究依赖于大规模、高质量的双语平行语料库,尤其是在低资源语言场景下。Målfrid Parallel数据集由挪威国家图书馆(Nasjonalbiblioteket)于2025年前后构建,基于Målfrid项目历年(2021-2025)对挪威政府网站(.no域名)的爬取成果,旨在提供挪威书面语两大标准变体——书面挪威语(Bokmål)和新挪威语(Nynorsk)与英语之间的平行文本。该数据集包含三个语言对子集(nob_eng、nno_eng、nob_nno),共计约26万文档对,为挪威语内部的方言翻译及挪威语与其他语言的跨语言研究提供了关键基础资源,对推动斯堪的纳维亚语言处理技术发展具有重要意义。
当前挑战
该数据集所解决的领域核心挑战在于挪威语内部两种标准变体之间的细微差异以及挪威语与英语在句法结构上的显著不对齐。由于新挪威语与书面挪威语在词汇形态和语法规则上存在系统性变异,且两者作为官方语言在政府文本中常混合使用,构建高精度平行语料需要克服跨变体对齐的困难。在构建过程中,Målfrid Parallel面临的主要挑战包括:对政府网站爬取结果中多语言混杂文档的精确过滤,以及使用基于挪威语句子嵌入的SBERT模型进行文档级对齐时,需在挪威语内部对(阈值为0.95)和跨语言对(阈值为0.80)之间平衡召回率与精确率,避免因语言相似性过高或过低导致错误配对。
常用场景
经典使用场景
在北欧语言信息处理领域,målfrid_parallel数据集为跨语言自然语言处理任务提供了弥足珍贵的双语对齐语料。该数据集涵盖了挪威语(包括书面挪威语和新挪威语)与英语之间的三种平行语料组合,其文档级别的对齐方式基于高精度的语义相似度模型实现,使得研究者能够直接利用这些高质量的平行语料进行神经机器翻译模型的训练与评估。无论是经典Transformer架构的微调,还是基于预训练语言模型的多语言翻译系统的构建,该数据集凭借其大规模、真实场景的特点,成为挪威语与英语间翻译研究不可多得的基石资源。
解决学术问题
该数据集着力解决了小语种与主流语言间平行语料稀缺这一长期困扰学术界的难题。由于挪威语属于低资源语言,此前可用于机器翻译研究的双语语料规模有限且领域分布不均,严重制约了翻译模型的泛化能力。målfrid_parallel数据集系统性地采集了挪威政府网站的多语言内容,通过严谨的对齐策略生成大规模双语平行数据,为低资源机器翻译、双语词典构建、跨语言信息检索等学术问题提供了坚实的实验基础。其意义在于打破了小语种NLP研究的数据瓶颈,推动了多语言自然语言处理技术的普惠发展。
衍生相关工作
围绕målfrid_parallel数据集,已经衍生出一系列具有代表性的学术工作。研究者利用该数据集微调了挪威语专用的多语言预训练模型如NorBERT和mT5,在翻译质量评测中取得了显著优于通用模型的性能。此外,基于该数据集的句子级对齐方法被改进用于构建更细粒度的双语知识库,催生了面向挪威语的跨语言语义匹配与信息抽取新范式。这些衍生工作不仅拓展了数据集的应用边界,更为低资源语言的人工智能研究提供了可复现的标准化基准,持续推动北欧语言技术生态的成熟与繁荣。
以上内容由遇见数据集搜集并总结生成



