Kurdish Parallel Corpus

github2024-03-30 更新2024-05-31 收录

下载链接：

https://github.com/KurdishBLARK/InterdialectCorpus

下载链接

链接失效反馈

官方服务：

资源简介：

该仓库包含Sorani (`ckb`) 和 Kurmanji (`kmr`) 两种库尔德语方言以及英语 (`eng`) 的平行语料库。语料库通过从多语言网站检索可能对齐的新闻文章，基于词汇相似性和脚本音译半自动对齐句子，并手动标注正确的翻译对来开发。语料库包含三种手动对齐的语料：Sorani-Kurmanji、Sorani-English 和 Kurmanji-English，格式包括Translation Memory eXchange文件格式 (`.tmx`)、适用于ParaConc的平行注释文本和原始平行文本 (`.txt`)。

This repository contains parallel corpora for two Kurdish dialects, Sorani (`ckb`) and Kurmanji (`kmr`), as well as English (`eng`). The corpora were developed by retrieving potentially aligned news articles from multilingual websites, semi-automatically aligning sentences based on lexical similarity and script transliteration, and manually annotating correct translation pairs. The corpora include three manually aligned datasets: Sorani-Kurmanji, Sorani-English, and Kurmanji-English, available in formats such as Translation Memory eXchange (`.tmx`), parallel annotated text for ParaConc, and raw parallel text (`.txt`).

创建时间：

2020-08-09

原始信息汇总

Kurdish Parallel Corpus 概述

数据集描述

语言组合：包含Sorani (ckb)、Kurmanji (kmr) 和 English (eng) 三种语言。
数据内容：提供Sorani-Kurmanji、Sorani-English和Kurmanji-English三种组合的手动对齐语料。
数据格式：包括Translation Memory eXchange (.tmx)、ParaConc兼容的并行注释文本和原始并行文本 (.txt)。

数据集规模

Sorani-Kurmanji：12,327对翻译。
Sorani-English：1,797对翻译。
Kurmanji-English：650对翻译。

数据集下载

Sorani-English：链接
Kurmanji-English：链接
Sorani-Kurmanji：链接

引用信息

论文标题：Leveraging Multilingual News Websites for Building a Kurdish Parallel Corpus
作者：Sina Ahmadi, Hossein Hassani, Daban Q. Jaff
年份：2020
引用格式：

@misc{ahmadi2020leveraging, title={Leveraging Multilingual News Websites for Building a Kurdish Parallel Corpus}, author={Sina Ahmadi and Hossein Hassani and Daban Q. Jaff}, year={2020}, eprint={2010.01554}, archivePrefix={arXiv}, primaryClass={cs.CL} }

许可证

类型：Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)
详情：链接

搜集汇总

数据集介绍

构建方式

Kurdish Parallel Corpus的构建过程基于多语言新闻网站的数据采集与处理。研究团队首先从多语言网站中检索可能对齐的新闻文章，随后通过词汇相似性和脚本转写的半自动化方法，将句子在不同方言和语言之间进行对齐。最终，通过人工标注确保翻译对的准确性。这一过程详细记录在相关研究论文中，并附有详细的标注指南。

特点

该数据集包含了库尔德语的两种主要方言——索拉尼语（Sorani）和库尔曼吉语（Kurmanji）与英语之间的平行语料。具体而言，数据集提供了12,327对索拉尼语与库尔曼吉语的翻译对，以及1,797对库尔曼吉语-英语和650对索拉尼语-英语的翻译对。数据以多种格式存储，包括Translation Memory eXchange（.tmx）文件、适用于ParaConc的平行注释文本以及原始平行文本（.txt），便于不同研究需求的使用。

使用方法

用户可以通过克隆GitHub仓库或下载特定目录来获取数据集。数据集分为索拉尼语-英语、库尔曼吉语-英语以及索拉尼语-库尔曼吉语三个部分，分别存储于不同的目录中。此外，研究团队还提供了基于Moses的基线统计模型，供用户参考。使用该数据集时，建议引用相关研究论文，并遵守Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)许可协议。

背景与挑战

背景概述

Kurdish Parallel Corpus 是一个包含库尔德语（Sorani 和 Kurmanji 方言）与英语的平行语料库，由 Sina Ahmadi、Hossein Hassani 和 Daban Q. Jaff 等研究人员于2020年开发。该语料库的构建旨在通过多语言新闻网站获取可对齐的新闻文章，并基于词汇相似性和脚本转写进行半自动对齐，最终通过人工标注生成正确的翻译对。这一数据集为库尔德语的自然语言处理研究提供了重要的资源，特别是在机器翻译和跨语言信息检索领域。其发布不仅填补了库尔德语语料库的空白，还为相关领域的研究者提供了宝贵的实验数据。

当前挑战

Kurdish Parallel Corpus 的构建面临多重挑战。首先，库尔德语的 Sorani 和 Kurmanji 方言在词汇、语法和书写系统上存在显著差异，这增加了对齐和翻译的复杂性。其次，由于库尔德语资源稀缺，获取高质量的多语言新闻文章并进行对齐需要大量的手工标注和校对工作。此外，语料库的构建过程中还需处理不同语言之间的脚本转写问题，以确保翻译对的一致性和准确性。这些挑战不仅体现在数据集的构建过程中，也反映了库尔德语自然语言处理研究领域的整体困境。

常用场景

经典使用场景

Kurdish Parallel Corpus 数据集在自然语言处理领域中被广泛应用于机器翻译模型的训练与评估。该数据集包含了库尔德语的两种主要方言（Sorani 和 Kurmanji）与英语之间的平行语料，为跨语言翻译任务提供了丰富的资源。研究人员可以利用该数据集构建和优化多语言翻译系统，特别是在低资源语言的处理上，展现了其独特的价值。

衍生相关工作

基于 Kurdish Parallel Corpus 数据集，研究人员开展了一系列相关研究，包括库尔德语机器翻译模型的优化、跨方言翻译算法的改进以及低资源语言处理技术的创新。例如，该数据集的基线模型为后续研究提供了参考，推动了库尔德语自然语言处理领域的发展。此外，该数据集还被用于多语言语料库的构建和跨语言信息检索系统的开发。

数据集最近研究