five

apertus-posttrain-romansh

收藏
魔搭社区2025-12-05 更新2025-12-06 收录
下载链接:
https://modelscope.cn/datasets/swiss-ai/apertus-posttrain-romansh
下载链接
链接失效反馈
官方服务:
资源简介:
# Romansh SFT Data Supervised fine-tuning (SFT) splits built from the **swiss-ai/apertus-pretrain-rumansh** corpus. It contains dictionary list translation, sentence-level translation, idiom identification, and a small set of human-translated Romansh instructions. **Source hub:** https://huggingface.co/datasets/swiss-ai/apertus-pretrain-rumansh ## Provenance - **Dictionaries:** All dictionary entries originate from **Pledarigrond** and are provided by the Lia Rumantscha. Includes idioms: **Sursilvan, Sutsilvan, Surmiran, Rumantsch Grischun**. Each entry forms a Prompt–Answer pair of the type: - Prompt: `"Übersetze die folgende Liste von <Idiom>-Begriffen ins Deutsche:\n{romansh_list}"` - Answer: `"{german_list}"` - and the reverse: Prompt in German with Answer in Romansh. - **Idiom identification:** Labels derived from public text in **La Quotidiana** (see swiss-ai/apertus-pretrain-rumansh). Prompts follow the template: - Prompt: `"Sag mir in welchem Idiom der folgende Satz ist: {romansh_sentence}"` - Answer: `"<Idiom>"` - **Human translations:** Random sample from a filtered **Tülü** dataset prepared by the **Swiss AI Initiative** (link pending). Translated by volunteers via **https://data-collection.swissai.cscs.ch/**. Prize support: **CHF 350.–** from **Prof. Antoine Bosselut**. Released under **CC BY 4.0**. - **Synthetic translations:** Sentence-level alignment was performed bidirectionally (German ↔ Idiom, Multilingual ↔ Rumantsch Grischun). - Alignment implemented with **SentenceTransformers** [`sentence-transformers/paraphrase-multilingual-mpnet-base-v2`](https://huggingface.co/sentence-transformers/paraphrase-multilingual-mpnet-base-v2), version `2.2.2`, cosine similarity ≥ **0.65**, mutual nearest-neighbour matching, and an RG word-count ratio filter ≤ **1.3×**. - Translations were then scored by **Qwen2-32B-Instruct** ([Qwen/Qwen2-32B-Instruct](https://huggingface.co/Qwen/Qwen3-32B)), deployed by the **Swiss AI Initiative**, using a strict integer-only evaluation prompt (0 for failures, otherwise 1–10 for accuracy + fluency). - Only translations with a score ≥ **7** were retained. ## File overview and counts | File | Task | Direction / Labels | # Examples | |---|---|---|---:| | `sft_dictionary_RG.jsonl` | Dictionary list translation | de → **Rumantsch Grischun**: 7,132; **Rumantsch Grischun** → de: 7,132 | **14,264** | | `sft_dictionary_Surmiran.jsonl` | Dictionary list translation | de → **Surmiran**: 3,743; **Surmiran** → de: 3,743 | **7,486** | | `sft_dictionary_Sursilvan.jsonl` | Dictionary list translation | de → **Sursilvan**: 676; **Sursilvan** → de: 676 | **1,352** | | `sft_dictionary_Sutsilvan.jsonl` | Dictionary list translation | de → **Sutsilvan**: 2,927; **Sutsilvan** → de: 2,927 | **5,854** | | `sft_grischun_quality_filtered.jsonl` | Sentence translation (filtered) | **German ↔ RG: 234; English ↔ RG: 262; French ↔ RG: 276; Italian ↔ RG: 266** | **1,038** | | `sft_surmiran_quality_filtered.jsonl` | Sentence translation (filtered) | de ↔ **Surmiran**: 42 | **42** | | `sft_surmiran_translated.jsonl` | Sentence translation | de ↔ **Surmiran**: 156 | **156** | | `sft_Sursilvan_quality_filtered.jsonl` | Sentence translation (filtered) | de ↔ **Sursilvan**: 44; **Sursilvan ↔ de**: 138 | **182** | | `sft_vallader_quality_filtered.jsonl` | Sentence translation (filtered) | de ↔ **Vallader**: 88 | **88** | | `sft_idiom_identification.jsonl` | Single-label classification | **RG**: 3,000; **Sursilvan**: 3,000; **Surmiran**: 3,000; **Vallader**: 3,000; **Puter**: 3,000; **Sutsilvan**: 1,322 | **16,322** | | `SFT_Human.jsonl` | Human-authored Romansh instructions | Free-form (Q&A, explanations, creative) | **139** | ## Acknowledgements Thanks to volunteer translators—especially **Donat D.**, **Lea B.**, and **Madlaina F.** —and to **Prof. Antoine Bosselut** for prize support. ## Contact Note that all data has been preprocessed using the pipeline in https://github.com/swiss-ai/Swiss-AI-Romansh-Scripts. Questions or corrections: **niklasc@icloud.com**

# 罗曼什语监督微调数据集 本数据集为基于**swiss-ai/apertus-pretrain-rumansh**语料库构建的监督微调(Supervised Fine-Tuning,下称SFT)划分集,涵盖词典列表翻译、句子级翻译、习语识别,以及少量人工翻译的罗曼什语指令数据。 **来源仓库:** https://huggingface.co/datasets/swiss-ai/apertus-pretrain-rumansh ## 数据溯源 ### 词典数据 所有词典条目均源自**Pledarigrond**,由罗曼什语协会(Lia Rumantscha)提供,涵盖的习语变体包括**苏尔塞万语(Sursilvan)、苏茨伊尔万语(Sutsilvan)、苏米尔兰语(Surmiran)、格里松罗曼什语(Rumantsch Grischun,下称RG)**。每条数据均采用如下提示-回答(Prompt-Answer)对格式: - 提示:`"Übersetze die folgende Liste von <Idiom>-Begriffen ins Deutsche: {romansh_list}"` - 回答:`"{german_list}"` 以及反向格式:即提示为德语、回答为罗曼什语的问答对。 ### 习语识别任务 标注数据源自**La Quotidiana**的公开文本(详见swiss-ai/apertus-pretrain-rumansh数据集),提示模板如下: - 提示:`"Sag mir in welchem Idiom der folgende Satz ist: {romansh_sentence}"` - 回答:`"<Idiom>"` ### 人工翻译数据 该子集为经过滤的**Tülü**数据集的随机采样集,由**瑞士人工智能倡议组织(Swiss AI Initiative)**整理制作(链接待更新)。数据由志愿者通过**https://data-collection.swissai.cscs.ch/**完成翻译,安托万·博瑟吕教授(Prof. Antoine Bosselut)提供了总计350瑞士法郎的奖金支持。本数据集采用**CC BY 4.0**许可协议发布。 ### 合成翻译数据 本部分完成了双向句子级对齐(德语 ↔ 习语变体、多语言 ↔ 格里松罗曼什语)。 对齐过程采用**SentenceTransformers**模型 [`sentence-transformers/paraphrase-multilingual-mpnet-base-v2`](https://huggingface.co/sentence-transformers/paraphrase-multilingual-mpnet-base-v2),版本号为`2.2.2`,筛选条件包括:余弦相似度≥**0.65**、互近邻匹配,以及格里松罗曼什语词汇量比例过滤阈值≤**1.3倍**。 随后,由**瑞士人工智能倡议组织**部署的**Qwen2-32B-Instruct**模型([Qwen/Qwen2-32B-Instruct](https://huggingface.co/Qwen/Qwen2-32B-Instruct))对翻译结果进行评分,评分采用严格的整数型评估提示:失败样例记为0,合格样例按准确性与流畅性从1至10打分。仅保留评分≥**7**的翻译样例。 ## 文件概览与样本数量 | 文件 | 任务类型 | 方向/标注变体 | 样本数量 | |---|---|---|---:| | `sft_dictionary_RG.jsonl` | 词典列表翻译 | 德语 → 格里松罗曼什语:7132条;格里松罗曼什语 → 德语:7132条 | 14264 | | `sft_dictionary_Surmiran.jsonl` | 词典列表翻译 | 德语 → 苏米尔兰语:3743条;苏米尔兰语 → 德语:3743条 | 7486 | | `sft_dictionary_Sursilvan.jsonl` | 词典列表翻译 | 德语 → 苏尔塞万语:676条;苏尔塞万语 → 德语:676条 | 1352 | | `sft_dictionary_Sutsilvan.jsonl` | 词典列表翻译 | 德语 → 苏茨伊尔万语:2927条;苏茨伊尔万语 → 德语:2927条 | 5854 | | `sft_grischun_quality_filtered.jsonl` | 句子级翻译(经过滤) | 德语 ↔ 格里松罗曼什语:234条;英语 ↔ 格里松罗曼什语:262条;法语 ↔ 格里松罗曼什语:276条;意大利语 ↔ 格里松罗曼什语:266条 | 1038 | | `sft_surmiran_quality_filtered.jsonl` | 句子级翻译(经过滤) | 德语 ↔ 苏米尔兰语:42条 | 42 | | `sft_surmiran_translated.jsonl` | 句子级翻译 | 德语 ↔ 苏米尔兰语:156条 | 156 | | `sft_Sursilvan_quality_filtered.jsonl` | 句子级翻译(经过滤) | 德语 ↔ 苏尔塞万语:44条;苏尔塞万语 ↔ 德语:138条 | 182 | | `sft_vallader_quality_filtered.jsonl` | 句子级翻译(经过滤) | 德语 ↔ 瓦拉德语:88条 | 88 | | `sft_idiom_identification.jsonl` | 单标签分类 | 格里松罗曼什语:3000条;苏尔塞万语:3000条;苏米尔兰语:3000条;瓦拉德语:3000条;普特语:3000条;苏茨伊尔万语:1322条 | 16322 | | `SFT_Human.jsonl` | 人工撰写罗曼什语指令 | 自由格式(问答、解释、创作类) | 139 | ## 致谢 感谢所有志愿翻译人员,尤其是**Donat D.**、**Lea B.**与**Madlaina F.**,同时感谢安托万·博瑟吕教授(Prof. Antoine Bosselut)提供的奖金支持。 ## 联系方式 注:所有数据均通过https://github.com/swiss-ai/Swiss-AI-Romansh-Scripts 中的流水线完成预处理。如有疑问或修正建议,请联系:**niklasc@icloud.com**
提供机构:
maas
创建时间:
2025-09-04
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作