arabic-legal-text

Hugging Face2026-01-28 更新2026-01-29 收录

下载链接：

https://huggingface.co/datasets/University-of-Dubai/arabic-legal-text

下载链接

链接失效反馈

官方服务：

资源简介：

UAE阿拉伯语法律文本语料库是一个专门为自然语言处理（NLP）任务设计的精选语料库，包含阿拉伯联合酋长国（UAE）的法律文本。该数据集由迪拜大学研究团队维护，旨在支持阿拉伯语法律智能、自动摘要、检索增强生成（RAG）和法律信息系统等领域的研究。数据集采用JSON Lines（JSONL）格式，每条记录代表一个独立的法律条款或规定，包含文本内容、法律来源、颁布年份和法律类别等字段。适用于法律文本分类、法律信息检索和语言建模等任务。数据集语言为阿拉伯语（现代标准/法律），采用CC BY 4.0许可协议。

创建时间：

2026-01-17

原始信息汇总

UAE阿拉伯语法律文本语料库数据集概述

数据集基本信息

数据集名称：UAE Arabic Legal Text Corpus
维护者：Mohamed Asath (BuildingTHEITGUY) 与 University of Dubai Research
语言：阿拉伯语（现代标准阿拉伯语/法律阿拉伯语）
许可证：Creative Commons Attribution 4.0 (CC BY 4.0)
发布年份：2026年
数据规模：小于1K样本
存储库地址：https://github.com/University-of-Dubai-Research/arabic-legal-text
Hugging Face数据集地址：https://huggingface.co/datasets/University-of-Dubai/arabic-legal-text

数据集描述

该数据集包含一个经过整理的阿拉伯联合酋长国（UAE）法律文本语料库，专门为自然语言处理（NLP）任务而构建。由迪拜大学研究部维护，旨在支持以下领域的研究：

阿拉伯语法律智能
自动摘要
检索增强生成（RAG）
法律信息系统

支持的任务类别

文本分类
文本生成
问答
法律文本分类（将文本分类为民事、刑事、商业、劳工、网络安全等类别）
法律信息检索（为阿联酋法律构建搜索和语义检索系统）
语言建模（在特定领域的阿拉伯语法律术语上微调大语言模型）

数据集结构

数据格式：JSON Lines (JSONL)
数据分割：训练集（train）
数据文件路径模式：data/*.jsonl

数据字段

每个JSON行代表一个独立的法律条款或规定，包含以下字段：

text：法律条款或规定的完整内容
source：法律或法令的名称
year：颁布年份
category：法律领域（例如：网络安全、刑法、劳动法）

数据实例示例

json { "text": "تسري أحكام هذا القانون على جرائم تقنية المعلومات...", "source": "UAE Federal Decree-Law No. 34 on Rumors and Cybercrimes", "category": "Cybersecurity", "year": 2026 }

使用方法

可以直接使用Hugging Face的datasets库在Python中加载此数据集： python from datasets import load_dataset dataset = load_dataset("University-of-Dubai/arabic-legal-text")

引用方式

如果在研究或学术工作中使用此数据集，请按以下格式引用： bibtex @dataset{university_of_dubai_arabic_legal_2026, author = {Asath, Mohamed and University of Dubai}, title = {UAE Arabic Legal Text Corpus}, year = {2026}, publisher = {Hugging Face}, url = {https://huggingface.co/datasets/University-of-Dubai/arabic-legal-text} }

贡献与管理

该数据集通过GitHub进行管理，以确保版本控制和学术完整性。
教职员工/研究人员：请将数据更新推送到GitHub存储库。
自动化：GitHub上的更改会自动验证并同步到Hugging Face。

贡献者

Mohamed Asath（主要维护者）

搜集汇总

数据集介绍

构建方式

在阿拉伯语法律文本处理领域，构建高质量数据集对于推动法律智能研究至关重要。该数据集由迪拜大学研究团队精心策划，通过系统收集阿联酋联邦法令与法律条文，涵盖网络安全、刑事、劳动等多个法律领域。每条数据均以JSON Lines格式存储，包含法律条款的完整文本、来源法律名称、颁布年份及法律类别，确保了数据的结构化与可追溯性。数据采集过程注重法律文本的权威性与时效性，所有条文均源自官方法律文件，并经过人工校验以保障内容的准确性与一致性。

使用方法

研究人员可通过Hugging Face数据集库便捷地加载与使用该语料库。在Python环境中，使用`load_dataset`函数并指定数据集路径即可获取全部训练数据，数据以字典形式呈现，便于直接进行文本分析与模型训练。该数据集主要服务于法律文本分类、法律信息检索系统构建以及针对阿拉伯语法律术语的大语言模型微调。使用者可依据`text`字段进行自然语言处理任务，结合`category`与`source`等元数据实现细粒度的任务设计与结果分析，为阿拉伯语法律智能应用开发提供坚实基础。

背景与挑战

背景概述

阿拉伯语法律文本处理是自然语言处理领域内一个极具专业性的研究方向，其发展受限于高质量、结构化领域语料的稀缺。由迪拜大学研究团队于2026年创建的UAE阿拉伯语法律文本语料库，正是为了应对这一需求而生。该数据集由Mohamed Asath等人主导构建，核心目标在于为阿拉伯语法律智能、自动摘要以及检索增强生成等前沿课题提供坚实的资源基础。它专注于阿联酋的特定法律条文，旨在通过精细标注支持文本分类、信息检索与语言模型微调等任务，从而推动阿拉伯语法律信息系统的实质性进展，并对阿拉伯语自然语言处理领域产生重要的资源补充价值。

当前挑战

在法律文本处理领域，该数据集致力于应对阿拉伯语法律文本的自动分类、信息检索与领域语言建模等核心问题。这些任务面临的主要挑战在于法律文本固有的复杂性与专业性，包括高度精确的术语体系、冗长且结构严谨的句式，以及条文之间复杂的逻辑关联，这些都对模型的语义理解与推理能力提出了极高要求。在数据构建过程中，挑战同样显著。首要难点在于原始法律文本的收集与数字化，需确保来源的权威性与时效性。其次，对文本进行准确的法律领域分类（如网络安全、刑法、劳工法等）需要深厚的领域专业知识。此外，将非结构化的法律条文转化为适用于机器学习模型的结构化JSONL格式，并保持原文语义的完整性与一致性，也是一个耗费大量人工校验的精细过程。

常用场景

经典使用场景

在阿拉伯语自然语言处理领域，该数据集为法律文本的智能化分析提供了关键资源。其最经典的使用场景是支持法律文本分类任务，研究者能够依据数据集中标注的类别，如民事、刑事、商业、劳动及网络安全等，训练模型对阿拉伯语法律条文进行自动归类。这极大地促进了法律文档的结构化整理与高效管理，为后续的深度分析奠定了坚实基础。

解决学术问题

该数据集有效解决了阿拉伯语法律领域自然语言处理研究中的若干核心问题。首要意义在于填补了针对阿联酋法律体系的专用语料库空白，为领域适应性的语言模型微调提供了高质量数据。它支持法律信息检索与自动摘要等研究，助力构建更精准的法律智能系统，从而推动阿拉伯语法律人工智能的学术发展，并加强了法律知识的可及性与计算化分析能力。

实际应用

在实际应用层面，该数据集能够赋能多种法律科技解决方案。基于其构建的信息检索系统，可帮助法律从业者、政府机构及公众快速定位阿联酋特定法律条文。同时，它也为开发法律问答助手、合同智能审查工具以及面向公众的法律知识普及平台提供了数据支撑，切实提升了法律服务的效率与自动化水平，具有显著的社会应用价值。

数据集最近研究