nynorsk_dpo
收藏Hugging Face2025-08-22 更新2025-08-23 收录
下载链接:
https://huggingface.co/datasets/NbAiLab/nynorsk_dpo
下载链接
链接失效反馈官方服务:
资源简介:
Bokmål–Nynorsk DPO是一个专注于Bokmål到Nynorsk翻译的直接偏好优化(DPO)训练数据集。每个示例包含一个挪威Bokmål语言的输入句子和两个Nynorsk语言的候选翻译,分别是一个优选翻译和一个不太优选的翻译。该数据集以UTF-8编码的JSON Lines格式提供,适用于模型微调和研究基于偏好的训练。
Bokmål–Nynorsk DPO is a direct preference optimization (DPO) training dataset dedicated to Bokmål-to-Nynorsk translation. Each sample contains a Norwegian Bokmål input sentence and two candidate Nynorsk translations: a preferred translation and a less preferred one. This dataset is provided in UTF-8 encoded JSON Lines format, suitable for model fine-tuning and preference-based training research.
提供机构:
Nasjonalbiblioteket AI Lab
创建时间:
2025-08-22
原始信息汇总
Bokmål–Nynorsk DPO 数据集概述
数据集基本信息
- 名称:Bokmål–Nynorsk DPO
- 语言:挪威书面语(Bokmål 和 Nynorsk)
- 许可证:CC-BY-4.0
- 多语言性:翻译
- 规模:1K 到 10K 条样本
- 任务类别:文本生成
- 任务 ID:文本到文本生成
数据集描述
Bokmål–Nynorsk DPO 是一个用于直接偏好优化(DPO)训练的数据集,专注于 Bokmål 到 Nynorsk 的翻译。每个样本包含一个 Bokmål 的提示和两个 Nynorsk 的候选翻译:
- prompt:Bokmål 的输入句子
- chosen:首选的 Nynorsk 翻译(质量更高,更接近目标规范)
- rejected:次选的 Nynorsk 翻译
预期用途
- 使用 DPO 对 Bokmål→Nynorsk 翻译模型进行微调
- 基于偏好的风格和语言质量训练研究
- 高质量和低质量输出之间的对齐和排序实验
数据格式
数据集以 UTF-8 编码的 JSON Lines(.jsonl)文件提供,每行包含三个字符串字段: json { "prompt": "Hvor er Marie og Arne?", "chosen": "Kvar er Marie og Arne?", "rejected": "Kor er Marie og Arne?" }
语言规范(Husnorm Nynorsk)
数据集采用接近 Bokmål 的 Nynorsk 变体,具体规范包括:
- 使用一致变形
- 主动语态优先于被动语态
- 从属格重构(使用介词、复合词或 sin、si 等)
- 使用 e-不定式(而非 a-不定式或分裂不定式)
- 使用 bli、blei、blitt(而非 verte、vart、vorte)
- 使用 ta、tar、tatt(而非 take、tek、teke)
- 特定代词和疑问词形式(如 vi 而非 me,kvar 用于地点,kor 用于程度)
- 特定词汇选择(如 derfor 而非 difor,fordi 而非 av di)
- 名词复数形式(如 gjest 的复数为 gjestar)
- 动词和名词的 Bokmål 接近变体(如 følge 而非 følgje,fylgje,fylge)
- 特定拼写规则(如 fore- 前缀词,双辅音动词,-leg 和 -rar 后缀选择)
作者信息
- 数据集创建和语言质量控制:Arne Martinus Lidstad 和 Marie Røsok
- 数据集格式化和 Hugging Face 集成:Per Egil Kummervold
搜集汇总
数据集介绍

构建方式
在挪威语翻译研究领域,nynorsk_dpo数据集通过专家生成方式构建,专注于博克马尔语至新挪威语的翻译任务。该数据集采用直接偏好优化(DPO)框架,每个样本包含源语言提示、优选翻译和次选翻译三个核心要素,通过人工标注形成高质量对比数据。构建过程中严格遵循语言规范,确保翻译结果符合新挪威语的语言特性和使用习惯。
特点
该数据集突出体现了多语言翻译任务中的风格化差异,涵盖词汇选择、语法结构和表达方式等语言学特征。其独特之处在于提供了明确的偏好对比,能够有效捕捉翻译质量中的细微差别。数据集规模适中,包含数千个精心标注的样本,每个样本都经过语言学专家的严格审核,确保了数据的一致性和可靠性。
使用方法
研究人员可利用该数据集进行直接偏好优化训练,通过对比学习提升翻译模型的性能。使用时需加载JSONL格式文件,其中每个条目包含提示文本、优选译文和次选译文。该数据集特别适用于研究翻译质量评估、风格迁移和语言偏好学习等任务,为自然语言生成领域的对齐研究提供重要资源。
背景与挑战
背景概述
在挪威语言技术领域,Bokmål–Nynorsk DPO数据集由语言学家Arne Martinus Lidstad和Marie Røsok主导构建,旨在通过直接偏好优化方法提升挪威书面语变体间的翻译质量。该数据集聚焦于Bokmål到Nynorsk的转换,反映了北欧语言计算处理中对低资源语言对标准化与风格一致性的核心研究需求。其设计遵循现代人机交互反馈机制,为斯堪的纳维亚语言模型对齐提供了重要实验基础,推动了多语言自然语言生成技术的发展。
当前挑战
该数据集需解决Nynorsk变体中方言形式与标准形式的语义对齐挑战,包括动词变位、名词复数形态及介词结构的规范性判断。构建过程中面临专家标注一致性难题,需平衡语言纯粹性与实际使用习惯,例如在‘kvar’与‘kor’的空间指示词选择中维持逻辑统一。此外,词汇偏好标注需克服挪威语内部方言连续体带来的梯度性差异,确保‘chosen’与‘rejected’样本间存在明确区分边界。
常用场景
经典使用场景
在挪威语翻译研究领域,该数据集为直接偏好优化(DPO)训练提供了标准化的语料支持。其经典应用场景包括训练神经机器翻译模型区分 Bokmål 到 Nynorsk 的高质量与低质量译文,通过对比学习提升模型对语言风格和语法规范的敏感度。该数据集特别适用于探究方言转换中的语义保持与形式适配问题,为低资源语言对的精准翻译提供了实验基础。
解决学术问题
该数据集有效解决了双语翻译中人类偏好建模的学术挑战,通过显式标注的偏好对(chosen/rejected),支持基于强化学习的翻译质量优化研究。其意义在于突破了传统逐句平行语料的局限,使模型能够学习细微的语言规范差异(如词形选择、语法结构),推动了翻译质量评估与生成对齐领域的方法创新,尤其为少资源语言对的风格化翻译提供了实证研究基础。
衍生相关工作
该数据集衍生了多个经典研究方向,包括基于人类反馈的翻译模型微调框架(如结合DPO的低资源机器翻译)、方言间风格迁移的量化评估方法,以及多标准翻译偏好建模的交叉研究。相关成果进一步推动了北欧语言技术社区对语言变体处理规范的标准化,并激发了类似语言对(如瑞典语与芬兰瑞典语)的偏好数据集构建工作。
以上内容由遇见数据集搜集并总结生成



