531万中德平行语料数据
收藏数据堂2024-05-23 收录
下载链接:
https://www.datatang.com/dataset/1163
下载链接
链接失效反馈官方服务:
资源简介:
514万组中德平行互译语料,数据存储格式为txt文档,覆盖旅游、医药、日常、新闻等多个领域。已进行数据清洗脱敏质检,可作为文本类数据分析的基础语料库,用于机器翻译等领域。
5.14 million pairs of Chinese-German parallel translation corpora, stored in TXT document format, covering multiple domains such as tourism, medicine, daily life and news. The corpora have undergone data cleaning, de-identification and quality inspection, and can be used as a foundational corpus for text data analysis, as well as applied in fields such as machine translation.
提供机构:
数据堂
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集包含531万对中文和德语的平行互译语料,存储为TXT格式,内容覆盖旅游、医药、日常、新闻等多个领域。数据经过清洗、脱敏和质检处理,适合作为文本分析的基础语料库,主要用于机器翻译等自然语言处理任务。
以上内容由遇见数据集搜集并总结生成



