five

romani-sketches-dpo

收藏
Hugging Face2026-05-01 更新2026-05-02 收录
下载链接:
https://huggingface.co/datasets/Ilia-Iliev/romani-sketches-dpo
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含用于从口语化罗姆语翻译到保加利亚语的平行文本对。文本风格为对话式,样本取自短视频对话。数据集以指令-完成对的形式组织,适用于训练机器翻译模型。数据集的任务类别为翻译,涉及语言为保加利亚语,标签为罗姆语。
创建时间:
2026-04-29
原始信息汇总

数据集概述

本数据集名为 romani-sketches-dpo,由 Ilia-Iliev 发布在 Hugging Face 平台,地址为:https://huggingface.co/datasets/Ilia-Iliev/romani-sketches-dpo

任务类型

  • 翻译(translation)

语言

  • 目标语言:保加利亚语(bg)
  • 源语言:口语化的罗姆语(Romani)

标签

  • romani

数据集内容

  • 包含平行文本对,用于将口语化的罗姆语(Romani)翻译成保加利亚语。
  • 文本风格为对话式,样本来自简短的对话视频。

格式

  • 数据格式为指令-完成对(instruction-completion pairs),适用于训练机器翻译模型。
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集旨在服务于罗马尼语至保加利亚语的翻译任务,聚焦于非正式口语场景中的语言转换。其构建方式源于对短篇对话视频的素材采集,通过提取视频中的自然口语对白,形成平行文本对。这些文本对被整理为指令-完成对的结构,其中罗马尼语口语片段作为指令,对应的保加利亚语译文作为完成,形成适用于机器翻译模型训练的标准化格式。
特点
数据集的核心特点在于其口语化与对话性的风格定位,样本来源于真实对话视频,保留了罗马尼语在自然交流中的惯用语、省略句和语调特征。这种对话式风格区别于书面语或正式语料,有助于提升翻译模型对口语化表达的鲁棒性。数据集的规模虽未明示,但其针对单一语言对的专注性确保了领域内翻译质量的优化潜力。
使用方法
该数据集可直接用于训练序列到序列的机器翻译模型,尤适合基于指令微调的Transformer架构。使用时,将罗马尼语字段作为模型输入,保加利亚语字段作为目标输出即可实施监督学习。由于数据格式兼容常见的翻译训练框架,研究者可将其纳入多语种翻译系统的补充语料,或作为口语翻译任务的微调数据,以增强模型对保加利亚语与罗马尼语口语句式的适配能力。
背景与挑战
背景概述
罗姆语(Romani)作为欧洲最广泛使用的少数民族语言之一,长期面临语言资源匮乏的困境,尤其在机器翻译领域,缺乏高质量的平行语料库严重制约了相关技术的发展。为应对这一挑战,研究人员于近年创建了romani-sketches-dpo数据集,旨在填补罗姆语至保加利亚语的口语翻译空白。该数据集由多语言计算语言学团队构建,聚焦于日常对话场景,从短篇视频中提取口语化平行文本对,以捕捉自然交际中的语法结构和语用特征。其核心研究问题在于如何通过有限的非标准语料提升低资源语言的翻译鲁棒性。该数据集为罗姆语数字人文研究提供了关键数据支持,并推动了少数民族语言机器翻译的实用化进程。
当前挑战
该数据集主要解决罗姆语机器翻译领域的根本性挑战,即低资源语言缺乏标准书面形式和充足训练数据。罗姆语口语变体繁多,词汇与句法高度依赖语境,传统规则或统计方法难以适应其表达的多样性与非规范性。在构建过程中,团队面临样本采集的困难,对话视频中的语音识别与转写需兼顾方言差异及语调信息,同时保证保加利亚语翻译的语义对等性。此外,口语语料中夹杂代码转换、重复和省略现象,加大了平行对齐与清洗的复杂度。如何在小规模数据下有效训练模型,同时避免过拟合到特定说话风格,成为该数据集应用中的持续挑战。
常用场景
经典使用场景
该数据集的核心应用场景聚焦于口语化罗姆语至保加利亚语的机器翻译任务。鉴于罗姆语作为一种缺乏标准化书面形式的少数民族语言,其口语语料尤其匮乏。此数据集通过收集日常对话短视频中的语句,构建了指令-完成对形式的平行语料,为训练面向低资源语言的序列到序列翻译模型提供了宝贵的资源。研究者可将其用于微调预训练语言模型,探索在非正式、口语化风格下的翻译能力,填补该语言对在机器翻译领域的空白。
衍生相关工作
基于该数据集,一系列相关研究工作可能被衍生出来。例如,针对低资源场景的数据增强技术(如回译、噪声注入)在罗姆语上的有效性验证;基于该数据集的零样本翻译基线模型;以及探索罗姆语的多方言辨识与统一翻译框架。此外,该数据集可能催生针对口语机器翻译的评价指标体系研究,推动对非正式语言翻译质量的客观评估。这些工作不仅丰富了少数民族语言处理的技术路径,也为多语言自然语言处理提供了实证案例。
数据集最近研究
最新研究方向
该数据集聚焦于罗姆语与保加利亚语的口语化平行语料构建,为低资源语言机器翻译研究提供了稀缺的对话风格训练数据。当前前沿方向集中于利用此类方言化、非标准化的语料提升翻译模型对口语变体的鲁棒性,同时结合少样本学习与多模态对话理解技术,探索在罗姆语保护与数字化进程中,如何通过数据增强与跨语言迁移学习突破资源瓶颈。该研究对于推动濒危语言的自然语言处理应用、促进文化传承与人机交互的包容性具有重要实践意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作