five

Méisproochegen Iwwersetzungskorpus fir d'Lëtzebuergescht

收藏
data.public.lu2026-05-15 更新2026-05-09 收录
下载链接:
https://data.public.lu/api/1/datasets/meisproochegen-iwwersetzungskorpus-fir-dletzebuergescht/
下载链接
链接失效反馈
官方服务:
资源简介:
### LËTZEBUERGESCH BESCHREIWUNG: ### **Méisproochegen Iwwersetzungskorpus fir d’Lëtzebuergescht (Tech-in-GOV 2025)** Dësen Datesaz ass e (parallellen) Iwwersetzungskorpus vu ronn 150.000 Wierder op Lëtzebuergesch, déi vu professionellen Iwwersetzerinne jeeweils op Franséisch, Englesch an Däitsch iwwersat goufen. De lëtzebuergeschen Ausgangstext staamt aus verschiddenen ëffentlech zougängleche Quellen (Noriichtenartikelen, Chamber, Lëtzebuerger Online Dictionnaire etc.) a gouf orthografesch standardiséiert. **Inhalt a Format** D’Iwwersetzunge sinn op zwou Manéieren accessibel, déi jee no Besoin kënne genotzt ginn. a) Eenzel Sproochekombinatiounen (zweesproocheg Fichieren): • Lëtzebuergesch-Franséisch (LU-FR) • Lëtzebuergesch-Däitsch (LU-DE) • Lëtzebuergesch-Englesch (LU-EN) b) Méisproochege parallelle Korpus (déi véier Sproochen alignéiert): • Lëtzebuergesch-Franséisch-Däitsch-Englesch (LU-FR-DE-EN) All dës Ressourcen (d. h. esouwuel déi dräi zweesproocheg Fichieren ewéi och de méisproochege Masterfichier) gi jeeweils an dräi Formater zur Verfügung gestallt: • TMX (Versioun 1.4): ideal, fir mat Iwwersetzungssoftware (z. B. memoQ, Trados, OmegaT …) ze schaffen. • XLSX: ideal fir manuell Workflowen. • JSONL: ideal fir NLP/ML an Data Science. **Ausriichtung vum parallelle Korpus (“Alignment“)** All Segment/Rei enthält deen nämmlechte Passage an deene véier Sproochen. Ee Segment entsprécht esouwäit wéi méiglech engem Saz. A ville Fäll ass eng 1:1-Alignéierung op Sazniveau wéinst syntakteschen oder stilisteschen Ënnerscheeder tëscht deene verschiddene Sprooche awer net méiglech. An dësem Fall goufe Sätz esou regruppéiert, datt déi parallel Struktur erhale bleift. Mat anere Wierder: Och wann d‘Unzuel u Sätz jee no Segment variéiert, huet all Segment an deene véier Sproochen déi nämmlecht Bedeitung. **Metadaten** De Metadate-Fichier enthält eng Iwwersiicht vun der Zesummesetzung vum Ausgangstext an eng detailléiert Opschlësselung, an där all Segment mat hirer jeeweileger Quell verlinkt ass. **Mercien** Dëse Projet gouf erméiglecht duerch déi finanziell Ënnerstëtzung vum Ministère fir Digitaliséierung am Kader vun der Initiativ Tech-in-GOV 2025 esouwéi duerch onzieleg Stonnen Aarbecht, déi vu professionellen Iwwersetzerinne geleescht gouf. ### ENGLISH DESCRIPTION: ### **Multilingual Translation Corpus for Luxembourgish (Tech-in-GOV 2025)** This dataset is a (parallel) translation corpus of approximately 150,000 Luxembourgish source words translated into French, German, and English. The Luxembourgish source content, taken from publicly available resources (news articles, Chambre des Députés, Lëtzebuerger Online Dictionnaire etc.), was cleaned up and orthographically standardized. Translations were done by professional translators. **Content and format** The translations are made available in two forms that cater to different use cases. a) Individual language pairs (bilingual files): • Luxembourgish- French (LU-FR) • Luxembourgish-German (LU-DE) • Luxembourgish-English (LU-EN) b) Multilingual parallel corpus (all four languages aligned): • Luxembourgish- French-German-English (LU-FR-DE-EN) Each of these resources (i.e. the three bilingual sets and the multilingual master file) is provided in three formats: • TMX (version 1.4): ideal for direct import into CAT tools (e.g. memoQ, Trados, OmegaT …). • XLSX: ideal for manual workflows. • JSONL: ideal for NLP/ML and data science. **Alignment of the parallel corpus** Each segment/row contains the same passage in all four languages. Wherever possible, individual segments correspond to single sentences. Where syntactic or stylistic differences between the languages made strict one-to-one sentence alignment impossible, sentences were grouped together as needed in order to preserve alignment in all four languages. Therefore, while the sentence count per segment may differ, each segment in the parallel corpus conveys the same semantic meaning. **Metadata** The metadata folder contains an overview of the source text's composition, as well as a detailed breakdown linking each individual segment to its original source. **Acknowledgements** This project was made possible thanks to financial support from the Ministry of Digitalisation, through the 2025 edition of its Tech-in-GOV initiative, as well as countless hours of effort by professional translators.
创建时间:
2026-05-08
二维码
社区交流群
二维码
科研交流群
商业服务