apertus-posttrain-romansh
收藏魔搭社区2025-12-05 更新2025-12-06 收录
下载链接:
https://modelscope.cn/datasets/swiss-ai/apertus-posttrain-romansh
下载链接
链接失效反馈官方服务:
资源简介:
# Romansh SFT Data
Supervised fine-tuning (SFT) splits built from the **swiss-ai/apertus-pretrain-rumansh** corpus. It contains dictionary list translation, sentence-level translation, idiom identification, and a small set of human-translated Romansh instructions.
**Source hub:** https://huggingface.co/datasets/swiss-ai/apertus-pretrain-rumansh
## Provenance
- **Dictionaries:** All dictionary entries originate from **Pledarigrond** and are provided by the Lia Rumantscha. Includes idioms: **Sursilvan, Sutsilvan, Surmiran, Rumantsch Grischun**. Each entry forms a Prompt–Answer pair of the type:
- Prompt: `"Übersetze die folgende Liste von <Idiom>-Begriffen ins Deutsche:\n{romansh_list}"`
- Answer: `"{german_list}"`
- and the reverse: Prompt in German with Answer in Romansh.
- **Idiom identification:** Labels derived from public text in **La Quotidiana** (see swiss-ai/apertus-pretrain-rumansh). Prompts follow the template:
- Prompt: `"Sag mir in welchem Idiom der folgende Satz ist: {romansh_sentence}"`
- Answer: `"<Idiom>"`
- **Human translations:** Random sample from a filtered **Tülü** dataset prepared by the **Swiss AI Initiative** (link pending). Translated by volunteers via **https://data-collection.swissai.cscs.ch/**. Prize support: **CHF 350.–** from **Prof. Antoine Bosselut**. Released under **CC BY 4.0**.
- **Synthetic translations:** Sentence-level alignment was performed bidirectionally (German ↔ Idiom, Multilingual ↔ Rumantsch Grischun).
- Alignment implemented with **SentenceTransformers** [`sentence-transformers/paraphrase-multilingual-mpnet-base-v2`](https://huggingface.co/sentence-transformers/paraphrase-multilingual-mpnet-base-v2), version `2.2.2`, cosine similarity ≥ **0.65**, mutual nearest-neighbour matching, and an RG word-count ratio filter ≤ **1.3×**.
- Translations were then scored by **Qwen2-32B-Instruct** ([Qwen/Qwen2-32B-Instruct](https://huggingface.co/Qwen/Qwen3-32B)), deployed by the **Swiss AI Initiative**, using a strict integer-only evaluation prompt (0 for failures, otherwise 1–10 for accuracy + fluency).
- Only translations with a score ≥ **7** were retained.
## File overview and counts
| File | Task | Direction / Labels | # Examples |
|---|---|---|---:|
| `sft_dictionary_RG.jsonl` | Dictionary list translation | de → **Rumantsch Grischun**: 7,132; **Rumantsch Grischun** → de: 7,132 | **14,264** |
| `sft_dictionary_Surmiran.jsonl` | Dictionary list translation | de → **Surmiran**: 3,743; **Surmiran** → de: 3,743 | **7,486** |
| `sft_dictionary_Sursilvan.jsonl` | Dictionary list translation | de → **Sursilvan**: 676; **Sursilvan** → de: 676 | **1,352** |
| `sft_dictionary_Sutsilvan.jsonl` | Dictionary list translation | de → **Sutsilvan**: 2,927; **Sutsilvan** → de: 2,927 | **5,854** |
| `sft_grischun_quality_filtered.jsonl` | Sentence translation (filtered) | **German ↔ RG: 234; English ↔ RG: 262; French ↔ RG: 276; Italian ↔ RG: 266** | **1,038** |
| `sft_surmiran_quality_filtered.jsonl` | Sentence translation (filtered) | de ↔ **Surmiran**: 42 | **42** |
| `sft_surmiran_translated.jsonl` | Sentence translation | de ↔ **Surmiran**: 156 | **156** |
| `sft_Sursilvan_quality_filtered.jsonl` | Sentence translation (filtered) | de ↔ **Sursilvan**: 44; **Sursilvan ↔ de**: 138 | **182** |
| `sft_vallader_quality_filtered.jsonl` | Sentence translation (filtered) | de ↔ **Vallader**: 88 | **88** |
| `sft_idiom_identification.jsonl` | Single-label classification | **RG**: 3,000; **Sursilvan**: 3,000; **Surmiran**: 3,000; **Vallader**: 3,000; **Puter**: 3,000; **Sutsilvan**: 1,322 | **16,322** |
| `SFT_Human.jsonl` | Human-authored Romansh instructions | Free-form (Q&A, explanations, creative) | **139** |
## Acknowledgements
Thanks to volunteer translators—especially **Donat D.**, **Lea B.**, and **Madlaina F.** —and to **Prof. Antoine Bosselut** for prize support.
## Contact
Note that all data has been preprocessed using the pipeline in https://github.com/swiss-ai/Swiss-AI-Romansh-Scripts. Questions or corrections: **niklasc@icloud.com**
# 罗曼什语监督微调数据集
本数据集为基于**swiss-ai/apertus-pretrain-rumansh**语料库构建的监督微调(Supervised Fine-Tuning,下称SFT)划分集,涵盖词典列表翻译、句子级翻译、习语识别,以及少量人工翻译的罗曼什语指令数据。
**来源仓库:** https://huggingface.co/datasets/swiss-ai/apertus-pretrain-rumansh
## 数据溯源
### 词典数据
所有词典条目均源自**Pledarigrond**,由罗曼什语协会(Lia Rumantscha)提供,涵盖的习语变体包括**苏尔塞万语(Sursilvan)、苏茨伊尔万语(Sutsilvan)、苏米尔兰语(Surmiran)、格里松罗曼什语(Rumantsch Grischun,下称RG)**。每条数据均采用如下提示-回答(Prompt-Answer)对格式:
- 提示:`"Übersetze die folgende Liste von <Idiom>-Begriffen ins Deutsche:
{romansh_list}"`
- 回答:`"{german_list}"`
以及反向格式:即提示为德语、回答为罗曼什语的问答对。
### 习语识别任务
标注数据源自**La Quotidiana**的公开文本(详见swiss-ai/apertus-pretrain-rumansh数据集),提示模板如下:
- 提示:`"Sag mir in welchem Idiom der folgende Satz ist: {romansh_sentence}"`
- 回答:`"<Idiom>"`
### 人工翻译数据
该子集为经过滤的**Tülü**数据集的随机采样集,由**瑞士人工智能倡议组织(Swiss AI Initiative)**整理制作(链接待更新)。数据由志愿者通过**https://data-collection.swissai.cscs.ch/**完成翻译,安托万·博瑟吕教授(Prof. Antoine Bosselut)提供了总计350瑞士法郎的奖金支持。本数据集采用**CC BY 4.0**许可协议发布。
### 合成翻译数据
本部分完成了双向句子级对齐(德语 ↔ 习语变体、多语言 ↔ 格里松罗曼什语)。
对齐过程采用**SentenceTransformers**模型 [`sentence-transformers/paraphrase-multilingual-mpnet-base-v2`](https://huggingface.co/sentence-transformers/paraphrase-multilingual-mpnet-base-v2),版本号为`2.2.2`,筛选条件包括:余弦相似度≥**0.65**、互近邻匹配,以及格里松罗曼什语词汇量比例过滤阈值≤**1.3倍**。
随后,由**瑞士人工智能倡议组织**部署的**Qwen2-32B-Instruct**模型([Qwen/Qwen2-32B-Instruct](https://huggingface.co/Qwen/Qwen2-32B-Instruct))对翻译结果进行评分,评分采用严格的整数型评估提示:失败样例记为0,合格样例按准确性与流畅性从1至10打分。仅保留评分≥**7**的翻译样例。
## 文件概览与样本数量
| 文件 | 任务类型 | 方向/标注变体 | 样本数量 |
|---|---|---|---:|
| `sft_dictionary_RG.jsonl` | 词典列表翻译 | 德语 → 格里松罗曼什语:7132条;格里松罗曼什语 → 德语:7132条 | 14264 |
| `sft_dictionary_Surmiran.jsonl` | 词典列表翻译 | 德语 → 苏米尔兰语:3743条;苏米尔兰语 → 德语:3743条 | 7486 |
| `sft_dictionary_Sursilvan.jsonl` | 词典列表翻译 | 德语 → 苏尔塞万语:676条;苏尔塞万语 → 德语:676条 | 1352 |
| `sft_dictionary_Sutsilvan.jsonl` | 词典列表翻译 | 德语 → 苏茨伊尔万语:2927条;苏茨伊尔万语 → 德语:2927条 | 5854 |
| `sft_grischun_quality_filtered.jsonl` | 句子级翻译(经过滤) | 德语 ↔ 格里松罗曼什语:234条;英语 ↔ 格里松罗曼什语:262条;法语 ↔ 格里松罗曼什语:276条;意大利语 ↔ 格里松罗曼什语:266条 | 1038 |
| `sft_surmiran_quality_filtered.jsonl` | 句子级翻译(经过滤) | 德语 ↔ 苏米尔兰语:42条 | 42 |
| `sft_surmiran_translated.jsonl` | 句子级翻译 | 德语 ↔ 苏米尔兰语:156条 | 156 |
| `sft_Sursilvan_quality_filtered.jsonl` | 句子级翻译(经过滤) | 德语 ↔ 苏尔塞万语:44条;苏尔塞万语 ↔ 德语:138条 | 182 |
| `sft_vallader_quality_filtered.jsonl` | 句子级翻译(经过滤) | 德语 ↔ 瓦拉德语:88条 | 88 |
| `sft_idiom_identification.jsonl` | 单标签分类 | 格里松罗曼什语:3000条;苏尔塞万语:3000条;苏米尔兰语:3000条;瓦拉德语:3000条;普特语:3000条;苏茨伊尔万语:1322条 | 16322 |
| `SFT_Human.jsonl` | 人工撰写罗曼什语指令 | 自由格式(问答、解释、创作类) | 139 |
## 致谢
感谢所有志愿翻译人员,尤其是**Donat D.**、**Lea B.**与**Madlaina F.**,同时感谢安托万·博瑟吕教授(Prof. Antoine Bosselut)提供的奖金支持。
## 联系方式
注:所有数据均通过https://github.com/swiss-ai/Swiss-AI-Romansh-Scripts 中的流水线完成预处理。如有疑问或修正建议,请联系:**niklasc@icloud.com**
提供机构:
maas
创建时间:
2025-09-04



