Ilia-Iliev/romani_compasito
收藏Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/Ilia-Iliev/romani_compasito
下载链接
链接失效反馈官方服务:
资源简介:
Romani Prompts (Kompasito)数据集是基于《Kompasito — Manual on Human Rights Education for Children》(欧洲委员会出版)的罗马尼亚语翻译构建的,旨在通过SFT/DPO方法使大型语言模型适应罗马尼亚语。数据集包含英语指令和罗马尼亚语文本块的配对,每个文本块出现在连续的3行中,分别与理解、翻译或生成三种类型的指令配对。
The Romani Prompts (Kompasito) dataset is derived from *Kompasito — Manual on Human Rights Education for Children* (Council of Europe), translated into Romani, and built for adapting LLMs to Romani via SFT/DPO. It consists of English prompt/Romani context pairs, with each surviving chunk appearing in 3 consecutive rows paired with one prompt from each of three buckets: comprehension, translation, or generative.
提供机构:
Ilia-Iliev
搜集汇总
数据集介绍

构建方式
该数据集源自欧洲委员会发布的《Kompasito — 儿童人权教育手册》的罗姆语译本,专为适配大型语言模型在罗姆语场景下的监督微调与直接偏好优化而构建。数据集中每一行包含一个JSON对象,由英语指令(prompt)与罗姆语文本片段(context)组成。英语指令从理解、翻译和生成三类提示池中随机采样,而罗姆语文本则来自原始PDF,每段长度约为1000字符,相邻段落间保持150字符的重叠,确保上下文连贯。每个文本片段在数据集中连续出现三次,分别与三种不同类别的提示配对,形成结构化的多任务学习样本。
特点
该数据集的核心特点体现在其精细化的多任务设计和对罗姆语低资源生态的针对性适配。通过将英语提示与罗姆语上下文进行系统性配对,数据集不仅支持文本生成任务,还能有效推动跨语言翻译能力的提升。每段文本片段以重叠方式衔接,保证了数据的长程依赖性和语义完整性,适用于序列生成模型的训练。三类提示池的设计覆盖了从基础理解到创造性输出的认知层次,使模型能够习得多样化的语言处理能力,极大增强了数据集在低资源语言微调场景中的实用价值。
使用方法
使用该数据集时,研究人员可将其直接用于监督微调(SFT)流程,将prompt字段作为输入,context字段作为目标输出,训练模型生成符合罗姆语语法和语境的文本。此外,对于偏好对齐任务(DPO),可以通过构建正负样本对,基于同一语境搭配不同提示的生成结果进行偏好排序。建议在训练前对文本进行分词和清洗,确保罗姆语字符编码正确。对于翻译任务,可直接利用英语提示与罗姆语文本的平行结构进行序列到序列建模。该数据集还可扩展至评估环节,用于测试模型在低资源语言上的理解与生成能力。
背景与挑战
背景概述
romani_compasito数据集由致力于罗马尼语(Romani)语言资源开发的团队创建,旨在应对低资源语言在大型语言模型(LLM)适配中的边缘化问题。该数据集源于欧洲委员会出版的《Kompasito——儿童人权教育手册》,通过将其翻译为罗马尼语,构建了覆盖理解、翻译和生成三类指令的提示-上下文对。作为首个面向罗马尼语的LLM微调数据集,它直接服务于监督微调(SFT)和直接偏好优化(DPO)训练任务,为弥合罗马尼语与主流语言之间的数字鸿沟提供了基础性资源,推动了多语言NLP研究的包容性发展。
当前挑战
数据集面临的核心挑战是多维度交织的。在领域问题层面,罗马尼语作为低资源语言,缺乏充足的语料库和标注数据,导致模型难以习得高质量的语义表征,而现有NLP系统对其的忽视进一步加剧了语言技术的可用性鸿沟。在构建过程中,从PDF中提取文本面临格式混乱、特殊符号干扰等难题,通过设定约1000字符的滑动窗口与150字符重叠策略确保上下文完整性,但需平衡片段粒度与语义连贯性;翻译质量受限于专业术语(如人权教育法律概念)的准确转化,且生成的指令需覆盖理解、翻译、生成三类任务以适配不同微调范式,增加了数据多样性与一致性控制的难度。
常用场景
经典使用场景
在低资源语言处理的前沿探索中,romani_compasito数据集以其独特的双语对照结构,成为微调大语言模型适配罗姆语的经典训练语料。该数据集基于欧洲委员会出版的《Kompasito — 儿童人权教育手册》精心构建,将英文指令与罗姆语文段一一对应,尤其聚焦理解、翻译与生成三类核心任务。研究者通过监督微调或直接偏好优化,使模型在罗姆语场景下具备更稳健的语义理解与文本生成能力,为濒危语言的数字化生存开辟了可行路径。
解决学术问题
该数据集直面低资源语言领域长期存在的训练数据匮乏难题,系统缓解了罗姆语在自然语言处理中的零样本或少样本困境。通过精心设计的多任务提示模板,romani_compasito有效支撑了跨语言对齐、语义推理与文本延续等学术研究。其贡献在于,不仅增强了模型对罗姆语语法和语篇模式的捕捉能力,更推动了多语言模型公平性的探讨,为构建包容性更强的语言技术生态提供了实证依据。
衍生相关工作
基于romani_compasito的研究催生了多项衍生工作,包括针对低资源语言的指令微调方法优化、基于对比学习的跨语言表示增强,以及将数据集扩展至其他罗姆方言的迁移学习框架。部分工作进一步从数据增强角度,探索了回译与噪声注入策略对模型鲁棒性的提升效果。同时,该数据集也作为评测基准,被用于衡量不同预训练模型在极度匮乏资源条件下的知识迁移效率,进而推动了多语言NLP评测体系的完善。
以上内容由遇见数据集搜集并总结生成



