nynorsk_norm_200eval

Name: nynorsk_norm_200eval
Creator: Nasjonalbiblioteket AI Lab
Published: 2025-08-07 20:16:07
License: 暂无描述

Hugging Face2025-08-07 更新2025-08-08 收录

下载链接：

https://huggingface.co/datasets/NbAiLab/nynorsk_norm_200eval

下载链接

链接失效反馈

官方服务：

资源简介：

Nynorsk Norm 200eval是一个包含200对挪威Bokmål语和Nynorsk语句子的小型高质量平行语料库，这些句子从官方来源和公共机构收集而来。每个样本包括Bokmål原文句子、官方翻译的Nynorsk句子、按照内部风格改写的Nynorsk句子以及Bokmål和Nynorsk版本的来源链接。

提供机构：

Nasjonalbiblioteket AI Lab

创建时间：

2025-08-07

原始信息汇总

Nynorsk Norm 200eval 数据集概述

基本信息

语言: 挪威书面语（Bokmål 和 Nynorsk）
许可证: CC-BY-4.0
数据规模: 1K<n<10K
多语言性: 翻译
任务类别: 翻译
任务ID: text2text-generation
注释创建者: 专家生成
语言创建者: 专家生成
源数据集: 原始数据

数据集内容

数据量: 200个挪威Bokmål–Nynorsk句子对
字段说明:
- nb: Bokmål原始句子
- nn_original: 官方翻译的Nynorsk句子
- nn_husnorm: 按照内部“husnorm”（内部风格）重写的Nynorsk句子
- nb_source, nn_source: Bokmål和Nynorsk版本的来源URL

基准测试

目标: `nn_original` (官方Nynorsk)

模型评估指标: BLEU, chrF
备注: 官方翻译基线

目标: `nn_husnorm` (内部风格Nynorsk)

模型评估指标: BLEU, chrF
备注: 风格规范化

用途

评估Bokmål到Nynorsk的翻译系统
研究Nynorsk的文体变化
风格转换和规范化实验

数据格式

格式: UTF-8编码的JSON Lines (.jsonl)
示例: json { "nb": "Ledelsen ved NMBU disponerer i dag to elbiler som de kan bruke på møter i nærområdet.", "nn_original": "Leiinga ved NMBU disponerer i dag to elbilar som dei kan bruka på møte i nærområdet.", "nn_husnorm": "Leiinga ved NMBU disponerer i dag to elbilar som dei kan bruke på møte i nærområdet.", "nb_source": "https://www.nmbu.no/om/miljoarbeidet/milj-rsrapport-2020", "nn_source": "https://www.nmbu.no/om/miljoarbeidet/miljotiltak" }

Nynorsk内部风格（"husnorm"）

特点:
- 使用samsvarsbøying（一致性）
- 优先使用主动语态
- 使用e-infinitive（如å komme）
- 使用bli, blei, blitt
- 代词: vi, ho, henne
- 副词: nå, da, derfor, fordi
- 名词复数形式: gjestar, nadar, elver, helger
- 动词和名词的Bokmål-like变体: følge, givar, følgar
- 优先使用forelesing, foreslå
- 使用双辅音: komme, lønne
- 词汇选择: nødvendig, allmente

作者

Husnorm适应和语言质量控制: Arne Martinus Lidstad, Marie Røsok
数据集格式化和Hugging Face集成: Per Egil Kummervold

搜集汇总

数据集介绍

构建方式

在挪威语语言资源研究领域，nynorsk_norm_200eval数据集通过专业语言学家的精心构建，收录了200组高质量的挪威书面语（Bokmål）与新挪威语（Nynorsk）平行句对。该数据集严格筛选自政府机构和公共部门的官方文件，每个样本不仅包含原始文本，还特别标注了遵循内部规范的改写版本，并详细记录了各版本的来源URL，确保了数据的权威性和可追溯性。

特点

作为研究挪威语变体的重要资源，该数据集展现出鲜明的语言学特征。其核心价值在于同时提供官方标准翻译和机构内部改写版本，完整呈现了Nynorsk语在公共传播中的风格变异谱系。特别值得注意的是，改写版本严格遵循包含12项语法规范的机构内部标准，如动词变位、代词选择、副词形态等，为研究机构文体规范对语言形式的影响提供了珍贵样本。

使用方法

该数据集采用JSON Lines格式存储，研究者可直接加载进行多维度分析。在机器翻译评估方面，建议同时以官方版本和改写版本作为目标参考，全面测试模型对不同文体规范的适应能力。对于语言风格研究，可通过对比原始文本与改写文本的形态差异，量化分析机构文体规范对语言形式的具体影响。数据集配套的源URL信息为后续扩展研究提供了可靠的语料获取渠道。

背景与挑战

背景概述

nynorsk_norm_200eval数据集是挪威语言研究领域的一项重要资源，专注于挪威书面语的两种官方变体——博克马尔语（Bokmål）和新挪威语（Nynorsk）之间的翻译与风格转换。该数据集由语言专家团队精心构建，主要研究人员包括Arne Martinus Lidstad和Marie Røsok，他们在语言质量控制方面发挥了关键作用。数据集的核心研究问题在于探索如何在公共交流中实现语言风格的标准化，特别是针对新挪威语内部存在的方言变体。通过提供官方翻译和内部风格改写（husnorm）的双重标注，该数据集为机器翻译模型评估和语言风格研究提供了独特视角，对挪威语言技术的发展和公共机构的语言规范化实践具有重要影响。

当前挑战

该数据集面临的挑战主要体现在两个方面：领域问题的挑战方面，新挪威语作为一种较少资源的语言变体，其复杂的形态变化和方言多样性给机器翻译系统的性能评估带来了难度，特别是在捕捉细微风格差异（如官方标准与机构内部规范之间的差异）时表现尤为突出；数据构建挑战方面，专家团队需要平衡语言纯正性与实际应用需求，在husnorm改写过程中既要保持新挪威语的语法特征，又要兼顾公共文本的可读性和一致性，这种权衡需要通过大量人工校对和语言学专业知识来实现，使得数据集构建过程既耗时又需高度的专业性。

常用场景

经典使用场景

在挪威语翻译研究中，nynorsk_norm_200eval数据集作为高质量的小规模平行语料库，为研究者提供了官方来源的200个挪威博克马尔语-尼诺斯克语句对。这些语料不仅包含原始翻译版本，还提供了遵循内部风格指南的改写版本，为研究尼诺斯克语的风格变化提供了宝贵资源。

实际应用

在实际应用中，nynorsk_norm_200eval数据集被广泛用于公共机构的语言标准化工作。例如，政府文件或公共信息的翻译系统可以通过该数据集优化尼诺斯克语的表达，确保其符合特定的风格规范，从而提高信息的可读性和一致性。

衍生相关工作

围绕该数据集，已有研究聚焦于尼诺斯克语风格迁移和规范化。例如，部分工作尝试通过微调现有翻译模型，使其适应内部风格指南的要求；另一些研究则探索了如何在多语言环境下保持尼诺斯克语的语言特性，推动了挪威语机器翻译的进一步发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集