西里尔蒙古文汉文平行语料库
收藏国家基础学科公共科学数据中心2024-03-05 收录
下载链接:
https://www.nbsdc.cn/general/dataDetail?id=64edc986bb16e07753c35bfa&type=1
下载链接
链接失效反馈官方服务:
资源简介:
西里尔蒙古文汉文平行对照语料库是一个包含了200万对句子的数据集,其中每一对句子包括了西里尔蒙古文和汉文两种语言的对照翻译。由于数据集中的每个句子都有其对应的翻译,因此可以用于机器翻译、跨语言信息检索、双语对话系统等自然语言处理任务的研究和应用。数据集中的句子主要来自新闻报道、社交媒体、学术论文、文学作品等领域,覆盖到政治、经济、社会、文化等各个方面。时间范围从2019年8月到2020年8月。该数据集中的每个句子都有其对应的另一种语言的翻译,这些翻译是由人工翻译而成,并经过了校对和修订,具有较高的翻译质量。数据集中的西里尔蒙古文是蒙古文的一种书写形式,采用了西里尔字母,是蒙古国官方语言之一,也被部分中国境内的蒙古族使用。汉文则是汉语的书写形式,使用中文字符。
The Cyrillic Mongolian-Chinese Parallel Corpus is a dataset containing 2 million sentence pairs, where each pair consists of parallel translations in Cyrillic Mongolian and Chinese. Since every sentence in the dataset has its corresponding target-language translation, it is suitable for research and applications of natural language processing (NLP) tasks including machine translation, cross-lingual information retrieval, and bilingual dialogue systems. The sentences in the corpus are primarily sourced from news reports, social media, academic papers, literary works and other text types, covering diverse fields such as politics, economy, society and culture. The time range of the corpus spans from August 2019 to August 2020. Each sentence in this corpus has a corresponding translation in the other language, which is manually translated, proofread and revised, thus featuring high translation quality. Cyrillic Mongolian, a writing system of the Mongolian language that adopts the Cyrillic alphabet, is one of the official languages of Mongolia and is also used by some Mongolian ethnic groups in China. Chinese, the standard written form of the Chinese language, uses Chinese characters.
提供机构:
内蒙古大学
搜集汇总
数据集介绍

背景与挑战
背景概述
西里尔蒙古文汉文平行语料库包含200万对西里尔蒙古文和汉文的平行对照句子,覆盖新闻报道、社交媒体、学术论文等多个领域,时间范围为2019年8月至2020年8月。该数据集由人工翻译并校对,质量较高,适用于机器翻译、跨语言信息检索等自然语言处理任务。
以上内容由遇见数据集搜集并总结生成



