five

The Historical Uyghur-Chinese Corpus

收藏
github2022-05-03 更新2024-05-31 收录
下载链接:
https://github.com/HKBUproject/historical-uyghur-chinese-corpus
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含自晚清至今的Uyghur和Chinese双语文档样本,涵盖法律、公告、官方期刊、报纸和书籍等公共文档。旨在记录和展示这一时期内亚地区关于Chinese和Uyghur语言的官方翻译实践和政策。数据集包含超过200份Uyghur语言文档,每份文档均附有对应的Chinese版本。

This dataset comprises bilingual document samples in Uyghur and Chinese from the late Qing Dynasty to the present, encompassing public documents such as laws, announcements, official journals, newspapers, and books. It aims to document and showcase the official translation practices and policies regarding the Chinese and Uyghur languages in the Inner Asian region during this period. The dataset includes over 200 Uyghur language documents, each accompanied by its corresponding Chinese version.
创建时间:
2021-10-20
原始信息汇总

数据集概述

数据集名称

The Historical Uyghur-Chinese Corpus

数据集内容

该数据集包含自晚清时期至现代的公共文档样本,这些文档以维吾尔语和汉语发布。公共文档包括法律、公告、官方期刊、报纸和书籍等。

数据集目的

记录和展示这一时期内亚地区关于汉语和维吾尔语的官方翻译实践和政策。

数据集组成

数据集分为六个子集合,每个子集合代表不同行政时期或不同类型的文档:

  1. QA - 12份清代档案文档,全部为双语。
  2. QB - 50份清代档案文档,全部为双语。
  3. RA - 5份民国时期档案文档,全部为双语。
  4. RB - 112篇民国时期的中文文章,其中34篇配有维吾尔语翻译。
  5. PA - 50份中华人民共和国时期的法律文档,全部为双语。
  6. PC - 50篇中华人民共和国时期的政策讨论文章,全部为双语。

语言和文字特点

  • 维吾尔语
    • 1949年前的文档使用“Turki”,与现代维吾尔语在拼写和形态上有差异。
    • 1949年后的文档使用标准现代维吾尔语。
  • 汉语
    • QA和QB子集合使用传统文言文,与现代汉语有差异。
    • RB和RA子集合使用民国时期的汉语,与现代汉语在词汇上有所不同。
    • PA和PC子集合使用现代标准汉语。

项目团队和资金

该项目由香港浸会大学资助,项目名为“History and Politics of Translation: Chinese Public Documents in Inner Asia – Uyghur-Language Module"。

引用信息

Yeung, Jessica; Christian Faggionato; Merhaba Eli; Ahmet Hojam; Robert Barnett; Jenny Li; Phoebe Shing; Sezen Özkan; and Nathan Hill (2021). "The Historical Uyghur-Chinese Corpus", Github repository, https://github.com/HKBUproject/historical-uyghur-chinese-corpus.

搜集汇总
数据集介绍
main_image_url
构建方式
历史维吾尔语-汉语语料库(The Historical Uyghur-Chinese Corpus)的构建基于从晚清时期至今的公开文档,涵盖了法律、公告、官方期刊、报纸和书籍等多种文本类型。该语料库通过收集和整理双语文本,特别是维吾尔语和汉语的官方翻译文本,旨在展示这一时期内亚地区关于汉语和维吾尔语的官方翻译实践和政策。语料库包含六个子集合,分别代表不同行政时期或不同类型的官方文档。每个子集合中的文档均经过元数据准备、OCR处理、文本提取、清理和预处理,以及自然语言处理(如词块分割、词性标注和词形还原),并创建了双语对齐文件和词汇表。
使用方法
历史维吾尔语-汉语语料库可用于多种研究目的,包括但不限于翻译实践的历史分析、语言演变研究、以及自然语言处理技术的应用。研究者可以通过访问语料库的元数据和双语对齐文件,进行深入的语言对比和分析。此外,语料库中的文本经过预处理,适合用于机器学习模型的训练,特别是在双语翻译和语言模型构建方面。使用者应遵循项目提供的引用格式,以确保学术诚信和数据使用的透明性。
背景与挑战
背景概述
《历史维吾尔-中文语料库》是由香港浸会大学资助的一个试点项目,项目名称为“翻译的历史与政治:中国内亚公共文件——维吾尔语模块”,项目时间为2019年至2021年。该项目由Jessica Yeung担任首席研究员,Mark Shuttleworth和Jean-Pierre Cabestan为合作研究员,Robert Barnett负责项目设计和协调。该语料库收集了自清朝末期至今的公开文件,涵盖法律、公告、官方期刊、报纸和书籍等多种文本类型,旨在记录和展示这一时期内亚地区关于中文和维吾尔语的官方翻译实践和政策。语料库包含超过200份维吾尔语文本及其对应的中文版本,以及78份未翻译成维吾尔语的中文文本,用于比较研究。该语料库的建立对于研究内亚地区的语言政策、翻译实践以及历史变迁具有重要意义。
当前挑战
《历史维吾尔-中文语料库》在构建过程中面临多项挑战。首先,语料库涵盖了从清朝末期到现代的多种历史时期的文本,这些文本在语言形式和书写系统上存在显著差异,尤其是在维吾尔语的历史演变中,不同阶段的语言形式和书写系统对自然语言处理(NLP)技术提出了更高的要求。其次,语料库中的文本类型多样,包括法律文件、公告、官方期刊等,这些文本的语言风格和用词差异较大,增加了文本预处理和语言对齐的难度。此外,语料库中的部分文本使用了传统的土耳其-阿拉伯文字,与现代维吾尔语的书写系统存在差异,这为文本的数字化和语言分析带来了额外的挑战。最后,语料库的构建还需要处理大量的元数据、进行OCR识别、文本提取和清理等技术工作,这些过程都需要高度的专业知识和精细的操作。
常用场景
经典使用场景
历史维吾尔语-汉语语料库(The Historical Uyghur-Chinese Corpus)主要用于研究清末至当代的官方翻译实践与政策,尤其是中国与维吾尔语地区的语言交流。该语料库包含了200多份双语文件,涵盖法律、公告、官方期刊等多种类型的公共文件。通过对比分析这些文件,研究者可以深入探讨不同历史时期维吾尔语与汉语之间的翻译策略、语言演变及文化交流。
解决学术问题
该语料库为语言学、历史学及翻译研究提供了宝贵的资源,解决了关于维吾尔语与汉语在不同历史时期的语言接触、翻译策略及政策演变等学术问题。通过分析这些双语文本,学者能够揭示语言标准化、词汇借用及语言政策对少数民族语言的影响,进而为语言多样性保护和跨文化交流研究提供理论支持。
实际应用
在实际应用中,历史维吾尔语-汉语语料库可用于语言教学、翻译实践及政策制定。例如,语言学家可以利用该语料库开发维吾尔语与汉语的双语教学材料,帮助学习者理解两种语言的历史演变。此外,政府机构和非政府组织可以参考语料库中的翻译实践,制定更有效的语言政策,促进多语言社区的和谐发展。
数据集最近研究
最新研究方向
近年来,历史维吾尔语-汉语语料库的研究方向主要集中在多语言翻译实践的历史演变、语言政策的影响以及跨文化交流的深度分析。该语料库通过收集和整理从清朝末期至今的官方文件,为研究内亚地区维吾尔语和汉语之间的翻译政策提供了宝贵的资源。特别是在自然语言处理(NLP)技术的应用上,研究者们致力于开发能够处理早期维吾尔语和汉语变体的模型,以揭示这些语言在不同历史时期的演变特征。此外,该语料库还为研究维吾尔语和汉语在不同历史阶段的语言接触、文化交流和政治影响提供了独特的视角,推动了跨学科研究的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作