Romansh_SFT

Hugging Face2025-08-29 更新2025-08-30 收录

下载链接：

https://huggingface.co/datasets/ncanova/Romansh_SFT

下载链接

链接失效反馈

官方服务：

资源简介：

Romansh SFT数据集是从swiss-ai/romansh_data语料库构建的监督微调(SFT)分割。它包含字典列表翻译、句子级翻译、语域识别和一小部分由人类编写的罗曼什语指令。数据集包括多种罗曼什方言，如Rumantsch Grischun、Surmiran、Sursilvan、Sutsilvan、Vallader和Puter。数据来源于Pledarigrond字典和La Quotidiana公开文本，并由志愿者通过Swiss AI Initiative平台进行翻译。合成翻译使用SentenceTransformers模型和特定的相似度阈值进行句子级对齐。

创建时间：

2025-08-27

原始信息汇总

Romansh SFT 数据集概述

基本信息

许可证：CC BY 4.0
来源：基于 swiss-ai/romansh_data 语料库构建的监督微调（SFT）数据集
总样本数：46,170 条
总词元数：12,939,072 个
分词器：alehc/swissai-tokenizer

数据组成

1. 词典列表翻译

Rumantsch Grischun：德语↔Rumantsch Grischun，14,264 条
Surmiran：德语↔Surmiran，7,486 条
Sursilvan：德语↔Sursilvan，1,352 条
Sutsilvan：德语↔Sutsilvan，5,854 条

2. 句子级翻译

Rumantsch Grischun：德语/英语/法语/意大利语→RG，519 条
Surmiran：德语→Surmiran，99 条（含质量过滤21条）
Sursilvan：德语↔Sursilvan，91 条
Vallader：德语→Vallader，44 条

3. 方言识别

任务类型：单标签分类
标签分布：RG（3,000）、Sursilvan（3,000）、Surmiran（3,000）、Vallader（3,000）、Puter（3,000）、Sutsilvan（1,322）
总样本数：16,322 条

4. 人工编写的罗曼什语指令

内容类型：问答、解释、创意内容
样本数量：139 条

数据来源

词典数据：来自 Pledarigrond，由 Lia Rumantscha 提供，涵盖 Sursilvan、Sutsilvan、Surmiran 和 Rumantsch Grischun 方言
方言识别标签：基于 La Quotidiana 的公开文本构建
人工翻译：来自 Tülü 数据集的随机样本，通过 https://data-collection.swissai.cscs.ch/ 由志愿者翻译
合成翻译：使用 SentenceTransformers（paraphrase-multilingual-mpnet-base-v2 模型）进行句子对齐，余弦相似度阈值 0.65

数据格式

每条数据为 JSON 对象格式：

Prompt：指令文本
Answer：目标输出（翻译、方言标签或自由形式回答）

搜集汇总

数据集介绍

构建方式

在罗曼什语自然语言处理研究领域，Romansh_SFT数据集的构建采用了多源数据融合策略。其监督微调语料源自swiss-ai/romansh_data语料库，通过专业词典条目提取、句子级翻译对齐和方言分类任务构建。词典数据来自Pledarigrond官方资源，涵盖苏尔瑟瓦、苏齐尔瓦、苏尔米兰及罗曼什格劳宾登四种方言变体。翻译数据包含人工翻译和合成翻译双渠道：人工翻译通过志愿者平台采集并经过质量过滤，合成翻译则采用多语言句子嵌入模型进行德罗双语对齐，基于余弦相似度阈值和互最近邻匹配算法确保语义一致性。

使用方法

针对监督微调场景的应用需求，该数据集采用任务特定的提示词模板架构。使用者可直接加载JSONL格式文件，通过预设的提示词-答案对进行模型训练。对于翻译任务，提示词包含明确的语言方向指示（如“Übersetze den folgenden Satz ins Vallader”）；方言分类任务则采用文本分类指令模板（如“Sagnai en tge idiom è il suandant text”）。建议采用多任务联合训练策略，利用不同子集增强模型跨方言泛化能力。预处理需使用指定分词器（alehc/swissai-tokenizer），并参照原始论文的句子分割和嵌入计算参数以确保复现效果。

背景与挑战

背景概述

罗曼什语监督微调数据集（Romansh_SFT）由瑞士人工智能倡议组织于当代构建，致力于解决低资源语言机器翻译与自然语言处理的核心问题。该数据集整合了来自Pledarigrond词典的多方言对照词条、La Quotidiana的语料标注，以及人工翻译的指令数据，覆盖苏尔谢尔瓦、苏齐尔瓦、苏尔米兰及格劳宾登罗曼什四种主要方言变体。其构建得到了洛桑联邦理工学院Antoine Bosselut教授的支持，通过跨机构协作与志愿者参与，为濒危语言的数字化保存与计算语言学应用提供了珍贵资源，对多语言模型在非通用语种的适应性研究具有重要推动价值。

当前挑战

该数据集首要解决罗曼什语作为低资源语言在机器翻译与方言分类中的技术挑战，包括多方言并行语料稀缺、语种间语义对齐复杂性，以及方言变体间的细微语法差异捕捉问题。构建过程中面临原始语料分散性与非标准化处理的困难，需依赖多源数据融合与句子级对齐算法；人工翻译部分依赖有限母语者参与，而合成翻译需通过跨语言嵌入模型与相似度阈值优化以平衡质量与规模，同时需克服方言间词汇长度差异对对齐算法造成的干扰。

常用场景

经典使用场景

在罗曼什语自然语言处理研究中，该数据集通过监督微调范式为低资源语言模型优化提供了标准实验框架。其多方言平行语料支持跨方言机器翻译系统的训练与评估，特别是针对德语与五种罗曼什方言（Sursilvan、Sutsilvan、Surmiran、Vallader、Puter）及标准化变体Rumantsch Grischun的双向翻译任务。词典列表翻译模块采用列表式提示模板，有效提升了专业术语的翻译一致性，而人工撰写的指令数据则为对话式AI的方言适应性调试提供了珍贵样本。

解决学术问题

该数据集显著缓解了罗曼什语作为低资源语言在NLP研究中的语料匮乏问题，为方言保护性计算语言学提供了基础设施。通过融合词典翻译、句子对齐和方言分类任务，它支持跨语言表示学习、神经机器翻译模型优化以及方言识别算法的联合训练。其严格的质量过滤机制和多重对齐验证（余弦相似度≥0.65与长度比率≤1.3×）确保了学术研究的可复现性，为濒危语言数字化保存建立了技术范式。

实际应用

在实际应用层面，该数据集支撑了瑞士多语种公共服务系统的语言技术开发，例如政府文件的自动方言转换、教育机构的双语教学辅助工具，以及文化遗产机构的数字化典藏系统。基于人工翻译的高质量语料可用于构建旅游导览应用的实时方言翻译模块，而方言分类数据则有助于媒体机构实现区域性内容的智能分发。这些应用显著提升了罗曼什语社区在数字化时代的语言可见度。

数据集最近研究