norsumm-nob-nno-translation
收藏Hugging Face2026-02-07 更新2026-02-09 收录
下载链接:
https://huggingface.co/datasets/ltg/norsumm-nob-nno-translation
下载链接
链接失效反馈官方服务:
资源简介:
Nynorsk-Bokmål 翻译对数据集是一个多句平行语料库,包含手动翻译的 Nynorsk-Bokmål 翻译对。这些翻译对是从 SamiaT/NorSumm 数据集中提取的。数据集适用于机器翻译任务,特别是针对挪威语的 Nynorsk 和 Bokmål 两种书面变体之间的翻译。数据集的语言包括挪威博克马尔语(nb)、新挪威语(nn)和挪威语(no)。数据集的许可证为 cc0-1.0,允许自由使用和分发。更多关于原始数据集创建过程的详细信息可以参考相关论文《Benchmarking Abstractive Summarisation: A Dataset of Human-authored Summaries of Norwegian News Articles》。
提供机构:
Language Technology Group (University of Oslo)
创建时间:
2026-02-07
搜集汇总
数据集介绍

构建方式
在挪威语自然语言处理领域,norsumm-nob-nno-translation数据集通过精心的人工翻译流程构建而成。该数据集源自NorSumm摘要数据集,研究人员从中提取了多句平行语料,专门聚焦于尼诺斯克语与博克马尔语之间的翻译对。构建过程中,翻译工作由专业语言学家手动完成,确保了语言转换的准确性与文化适配性,为挪威语的双语研究提供了高质量的基准资源。
特点
该数据集的核心特点在于其专注于挪威两种官方书面语言变体——尼诺斯克语和博克马尔语之间的翻译对应关系。语料全部来源于真实新闻文本,涵盖了多样化的主题与语言风格,呈现出丰富的语言变体特征。作为人工翻译的平行语料,它在语言准确性和文化恰当性方面具有显著优势,为机器翻译模型训练与评估提供了可靠的语言对照基础。
使用方法
研究人员可将该数据集应用于挪威语双语机器翻译系统的开发与优化,尤其适用于尼诺斯克语与博克马尔语之间的相互转换任务。通过加载HuggingFace平台上的数据集,用户能够直接访问对齐的翻译对,用于模型训练、微调或性能评估。该资源还可服务于语言对比研究,深入分析挪威语两种变体在语法结构、词汇选择及表达习惯上的系统性差异。
背景与挑战
背景概述
在挪威语自然语言处理领域,书面挪威语(Bokmål)与新挪威语(Nynorsk)作为两种官方书面变体,其间的自动翻译与语言资源构建一直是关键研究方向。norsumm-nob-nno-translation数据集由Samia Touileb等研究人员于2025年创建,源自NorSumm摘要数据集中的手工翻译对。该数据集的核心研究问题在于为挪威语多方言机器翻译提供高质量、人工标注的平行语料,以支持语言技术在这两种变体间的平衡发展,对促进挪威语信息处理及语言资源公平性具有重要影响力。
当前挑战
该数据集旨在解决挪威语内部方言机器翻译的挑战,具体包括处理两种书面变体在词汇、句法及语用层面的系统性差异,确保翻译模型能够准确捕捉语言变体间的细微语义对应。在构建过程中,挑战主要源于手工翻译流程的质量控制与一致性维护,需要语言学专家进行精细的跨方言对齐,并克服新闻文本中领域特定表达与文化语境带来的翻译复杂性,以构建可靠的多句子平行语料。
常用场景
衍生相关工作
基于该数据集衍生的经典工作主要包括挪威语抽象摘要生成系统的优化与跨变体翻译模型的创新研究。例如,原NorSumm数据集的研究团队进一步利用这些翻译对探索摘要任务中的语言变体适应性,推动了挪威语自然语言处理基准的发展。后续研究也围绕该语料库开展了多任务学习框架的构建,将翻译与摘要任务相结合,拓展了数据集在多层次语言理解中的应用价值。
数据集最近研究
最新研究方向
在挪威语自然语言处理领域,多语言平行语料库的构建正成为推动机器翻译与摘要生成技术发展的关键。norsumm-nob-nno-translation数据集作为挪威语书面变体尼诺斯克语与博克马尔语之间的人工翻译对集合,其源自NorSumm摘要数据集,为低资源语言变体的互译研究提供了高质量基准。当前前沿研究聚焦于利用此类精细标注数据训练跨变体神经机器翻译模型,以应对挪威语内部语言变体间的语法与词汇差异挑战。相关热点事件包括欧洲多语言数字生态系统的建设,该数据集通过支持挪威语变体的自动化处理,促进了北欧地区语言技术的包容性发展,对保护语言多样性及提升多语言信息访问平等性具有深远意义。
以上内容由遇见数据集搜集并总结生成



