five

A New Aligned Simple German Corpus

收藏
OpenDataLab2026-05-24 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/A_New_Aligned_Simple_German_etc
下载链接
链接失效反馈
官方服务:
资源简介:
目前,在简单德语和德语之间建立平行语料库的作品很少,并且通常无法获得相应的数据。这样的 (可能扩展的) 语料库可用于实现从德语到简单德语的自动机器学习翻译。虽然目前数据可能不够,但这项工作的目标是通过以下方式为这种语料库奠定基础: 抓取带有德语和简单德语并行版本的网站 实现文献中介绍的各种算法,以形成包含对齐的 “翻译” 句子的语料库。

Currently, there are very few studies dedicated to building parallel corpora between German and Simple German, and the relevant datasets are often inaccessible. Such a (potentially expanded) corpus can be employed to develop automatic machine translation systems from German to Simple German. While the currently available data may be insufficient, the objective of this work is to establish the foundation for such a corpus via the following two steps: 1) Crawling websites that feature parallel versions of German and Simple German; 2) Implementing various algorithms introduced in academic literature to construct a corpus containing aligned "translated" sentences.
提供机构:
OpenDataLab
创建时间:
2022-10-17
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集旨在填补德语与简单德语之间平行语料库的空白,通过抓取网站获取并行文本并应用算法对齐句子,为自动机器学习翻译提供基础。它由波恩大学于2022年发布,支持相关研究与应用。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作