The Leeds Parallel Corpus of Arabic Countries Constitutions (LPCACC)

github2023-04-08 更新2024-05-31 收录

下载链接：

https://github.com/HEl-Farahaty/-LPCACC-

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含20个阿拉伯国家从1922年到2022年的宪法及其英文翻译，阿拉伯文版本（407,633字）和英文版本（489,448字）。涉及的国家包括阿尔及利亚、巴林、科摩罗、吉布提、埃及、伊拉克、约旦、科威特、黎巴嫩、利比亚、毛里塔尼亚、摩洛哥、阿曼、巴勒斯坦、卡塔尔、沙特阿拉伯、索马里、苏丹、叙利亚、突尼斯、阿拉伯联合酋长国和也门。每个国家都有一个文件夹，包含所有可用的宪法。

This dataset encompasses the constitutions of 20 Arab countries from 1922 to 2022, including both their original Arabic versions (407,633 words) and English translations (489,448 words). The countries covered include Algeria, Bahrain, Comoros, Djibouti, Egypt, Iraq, Jordan, Kuwait, Lebanon, Libya, Mauritania, Morocco, Oman, Palestine, Qatar, Saudi Arabia, Somalia, Sudan, Syria, Tunisia, the United Arab Emirates, and Yemen. Each country has a dedicated folder containing all available constitutions.

创建时间：

2023-02-27

原始信息汇总

数据集概述

1. Leeds Parallel Corpus of Arabic Countries Constitutions (LPCACC)

描述: 包含20个阿拉伯国家宪法的最终版本及其英文翻译，时间跨度为1922至2022年。
语言: 阿拉伯语版本（407,633字）和英语版本（489,448字）。
国家列表: Algeria, Bahrain, Comoros, Djibouti, Egypt, Iraq, Jordan, Kuwait, Lebanon, Libya, Mauritania, Morocco, Oman, Palestine, Qatar, Saudi Arabia, Somalia, Sudan, Syria, Tunisia, the United Arab Emirates, and Yemen.
结构: 每个国家有一个文件夹，包含所有可用的宪法。不包括Comoros和Somalia。

2. The Parallel Corpus of Preambles of Arabic Countries Constitutions (PCPACC)

描述: 包含所有阿拉伯国家宪法序言的平行文本。
语言: 阿拉伯语（12,360字）和英语（20,300字）。
总字数: 32,660字。

3. Monolingual Corpora of Arabic and English Constitutions (MCAEC)

描述: 包含阿拉伯语和英语的单一语言宪法文本。
阿拉伯语宪法: 73份文件，总计788,477字。
英语宪法: 70份文件，总计343,582字。

搜集汇总

数据集介绍

构建方式

利兹阿拉伯国家宪法平行语料库（LPCACC）的构建基于对20个阿拉伯国家宪法及其英文翻译的系统收集，时间跨度从1923年至2022年。该语料库涵盖了包括阿尔及利亚、巴林、科摩罗、吉布提、埃及、伊拉克、约旦、科威特、黎巴嫩、利比亚、毛里塔尼亚、摩洛哥、阿曼、巴勒斯坦、卡塔尔、沙特阿拉伯、索马里、苏丹、叙利亚、突尼斯、阿联酋和也门在内的国家。每个国家的宪法均被单独存储于一个文件夹中，确保了数据的结构化和易于访问性。

特点

LPCACC语料库的显著特点在于其广泛的地理覆盖范围和时间的深度，提供了从1923年至2022年间阿拉伯国家宪法的双语对照。此外，该语料库还包括了阿拉伯国家宪法序言的平行语料库（PCPACC），以及阿拉伯语和英语宪法的单语语料库（MCAEC），这些资源为研究法律语言、宪法变迁以及跨文化法律比较提供了丰富的材料。

使用方法

LPCACC语料库的使用方法多样，研究者可以通过访问特定国家的文件夹来获取该国的宪法文本及其英文翻译。此外，PCPACC和MCAEC子集为研究宪法序言的语言特征和单语宪法文本提供了便利。这些语料库适用于法律语言学、翻译研究、政治学及历史学等多个学科领域的研究。

背景与挑战

背景概述

The Leeds Parallel Corpus of Arabic Countries' Constitutions (LPCACC) 是由利兹大学资助的一个项目，旨在构建一个专门的法律语料库，涵盖阿拉伯国家宪法的平行和单语文本。该数据集创建于2022年，包含了20个阿拉伯国家从1923年至2022年的宪法及其英文翻译，总字数超过89万。这些国家包括阿尔及利亚、巴林、埃及、伊拉克等，每个国家的宪法均以独立文件夹形式存储。LPCACC不仅为法律文本的跨语言研究提供了重要资源，还为阿拉伯语与英语之间的机器翻译、法律术语对齐等研究领域奠定了数据基础。

当前挑战

LPCACC数据集在构建过程中面临多重挑战。首先，法律文本的翻译要求极高的精确性，尤其是在宪法这种具有高度法律效力的文本中，任何细微的翻译误差都可能导致严重的法律后果。其次，阿拉伯语与英语之间的语言结构差异显著，尤其是在法律术语的表达上，如何实现准确对齐是一个技术难题。此外，部分国家的宪法文本存在历史版本缺失或翻译不完整的问题，这为数据集的全面性和一致性带来了挑战。最后，数据集的构建还需要处理多语言文本的格式统一和标注问题，这对数据处理技术提出了较高要求。

常用场景

经典使用场景

在跨语言法律文本分析领域，The Leeds Parallel Corpus of Arabic Countries Constitutions (LPCACC) 数据集为研究者提供了一个丰富的资源。该数据集包含了20个阿拉伯国家从1923年至2022年的宪法及其英文翻译，广泛应用于法律文本的对比研究、语言翻译模型的训练以及跨文化法律体系的比较分析。通过这一数据集，研究者能够深入探讨不同法律体系之间的异同，以及语言在法律制度中的角色。

实际应用

在实际应用中，LPCACC 数据集被广泛用于法律翻译软件的开发和优化，尤其是在涉及阿拉伯语和英语的法律文档翻译中。该数据集还为国际法律事务所、政府机构和非政府组织提供了宝贵的资源，帮助他们更好地理解和处理涉及阿拉伯国家的法律事务。通过使用该数据集，法律从业者能够更准确地翻译和解释法律文本，减少跨文化交流中的误解。

衍生相关工作

基于 LPCACC 数据集，许多经典的研究工作得以展开。例如，研究者利用该数据集开发了专门针对法律文本的机器翻译模型，显著提高了法律文本翻译的准确性和效率。此外，该数据集还催生了一系列关于法律术语标准化的研究，推动了跨语言法律文本处理技术的发展。这些工作不仅丰富了法律语言学的研究内容，也为国际法律实践提供了技术支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集