oliverkinch/danish-university-portals-bt
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/oliverkinch/danish-university-portals-bt
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含通过回译风格生成的人工丹麦指令遵循示例,这些示例来自段落级的源材料。
- **行数**: 4,505
- **源数据集**: `oliverkinch/danish-university-portals-cc-by`
每行包括:
- `id`: 唯一示例ID
- `prompt`: 人工指令/请求
- `target`: 取自人工编写的源材料的段落
- `sources`: 源跟踪元数据
- `meta`: 额外的生成元数据
- `checks`: 验证标志
This dataset contains synthetic Danish instruction-following examples created with backtranslation-style generation from passage-level source material.
- **Rows**: 4,505
- **Source dataset**: `oliverkinch/danish-university-portals-cc-by`
Each row includes:
- `id`: unique example id
- `prompt`: synthetic instruction / request
- `target`: passage taken from a human-written source
- `sources`: source trace metadata
- `meta`: additional generation metadata
- `checks`: verification flags
提供机构:
oliverkinch
搜集汇总
数据集介绍

构建方式
本数据集基于回译(backtranslation)策略构建,从现有的丹麦语大学门户网站语料库中提取段落级源材料,通过合成指令生成技术,将原文转化为指令与响应对。每条记录包含唯一标识符(id)、合成指令(prompt)、源自人类撰写的目标段落(target)、溯源元数据(sources)、生成元数据(meta)以及验证标记(checks),确保了数据的可追溯性与质量可控性。
特点
该数据集专注于丹麦语指令微调任务,包含4,505条高质量合成样例,覆盖学术门户语境。其核心特点在于采用回译式生成,既保留了原始段落的语义完整性,又通过指令化重构提升了实用性。每条数据均附带多重验证标志,便于筛选过滤,同时标签明确指示为合成数据,强调了其人工生成属性与领域限定性。
使用方法
本数据集适用于丹麦语文本生成模型的指令微调,可直接加载train.parquet文件进行训练。用户可根据checks字段中的验证标志筛选高置信度样本,或结合sources与meta信息进行领域适应。建议作为少样本微调或数据增强的补充资源,配合其他丹麦语数据集使用,以提升模型在学术指令场景下的表现。
背景与挑战
背景概述
在自然语言处理领域,高质量指令微调数据的稀缺性长期制约着低资源语言(如丹麦语)大语言模型的发展。为此,相关研究团队于近期构建了丹麦大学门户反向翻译数据集(Danish University Portals Backtranslation),由主要研究人员Oliver Kinch及其机构基于CC-BY许可的源材料创作。该数据集聚焦于通过反向翻译技术从人工撰写的高质量段落中合成丹麦语指令遵循样例,包含4,505个样本,旨在弥合丹麦语在文本生成任务中的数据鸿沟,为低资源语言的指令微调提供可复现的基准资源。
当前挑战
该数据集面临的核心挑战在于双重重构。首先,在领域问题层面,丹麦语作为低资源语言缺乏大规模人工标注的指令数据集,现有模型难以精准理解丹麦语境下的复杂请求,导致生成质量受限。其次,构建过程中,反向翻译合成方法需确保合成指令与原始段落语义对齐,但自动生成可能引入噪声或语义偏差,例如指令意图与目标片段匹配度不足、语言地道性损失等。此外,源数据仅覆盖大学门户领域,缺乏多领域泛化能力,且验证标识(checks)仅提供基础过滤,难以彻底消除低质量或重复样本,对后续模型鲁棒性构成潜在挑战。
常用场景
经典使用场景
在低资源语言自然语言处理领域,丹麦语因其语料稀缺而长期受限。该数据集通过回译技术,从人工撰写的大学门户文本段落中自动生成指令跟随样本,为丹麦语大语言模型的指令微调提供了高质量的合成数据。其经典使用场景是作为监督微调(SFT)阶段的训练集,帮助模型学习理解丹麦语任务指令并生成符合要求的回复,尤其适用于学术摘要、信息检索和问答等以段落为核心的任务场景。
解决学术问题
该数据集直面非英语语言大模型训练中指令数据匮乏的瓶颈问题。通过将真实的人类书面段落转化为指令-目标对,它有效缓解了丹麦语模型在监督微调时数据量不足、多样性有限的困境。其意义在于证明了回译策略在低资源语言上的可行性,推动了多语言NLP研究向丹麦语等小众语种拓展,为构建更具包容性的多语言智能系统奠定了数据基础。
衍生相关工作
该数据集衍生了一系列基于回译策略的低资源语言指令数据生成工作,激发了对丹麦语大模型(Llama、Mistral等架构)的微调研究。相关经典工作包括探索不同回译模板对指令质量的影响、将源数据进行多轮扩展以提升多样性,以及将其与人工标注数据混合使用以平衡合成数据与真实数据的优势。这些研究共同推动了丹麦语NLP从无到有的跨越式发展。
以上内容由遇见数据集搜集并总结生成



