moroccan-law-dataset

Hugging Face2025-06-14 更新2025-06-15 收录

下载链接：

https://huggingface.co/datasets/ilyassacha/moroccan-law-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含查询（query）和回答（answer）两个字符串类型的字段，划分为训练集和评估集，训练集有6271个样本，评估集有697个样本。数据集总大小为1779331字节，下载大小为1028571字节。

This dataset contains two string-type fields: query and answer. It is divided into a training set (6271 samples) and an evaluation set (697 samples). The total size of the dataset is 1,779,331 bytes, and the download size is 1,028,571 bytes.

创建时间：

2025-06-07

搜集汇总

数据集介绍

构建方式

在摩洛哥法律知识体系数字化进程中，该数据集通过系统化采集法律条文与实务问答构建而成。采用人工标注与自动化爬取相结合的方式，从权威法律数据库和官方文件中提取了6,271条训练样本和697条评估样本，确保数据来源的可靠性与覆盖面。文本数据经过严格的去标识化处理，既保护隐私又维持了法律文本的专业性特征。

特点

数据集以查询-应答对形式呈现摩洛哥法律知识，每条记录包含精准的法律问题描述与对应的条款解答。其显著特色在于覆盖民事、商事等多领域法律条文，文本采用阿拉伯语和法语双语混合表述，真实反映当地司法实践语言特点。数据经过分层抽样构建训练集与评估集，比例严格控制在9:1，为模型训练提供科学的基准划分。

使用方法

研究者可通过加载标准数据集分割直接开展法律问答系统开发，训练集适用于深度学习模型的参数优化，评估集则用于验证系统对复杂法律条款的理解能力。建议采用跨语言预训练模型进行微调，特别注意处理阿拉伯语与法语混合输入时的编码问题。数据集的问答对结构也支持构建端到端的法律咨询对话系统，为摩洛哥司法智能化提供基础支撑。

背景与挑战

背景概述

摩洛哥法律数据集（Moroccan Law Dataset）是近年来法律与人工智能交叉领域的重要研究成果，由摩洛哥本土研究机构或法律科技团队构建，旨在系统性地整理摩洛哥现行法律条文与司法实践问答。该数据集创建于法律智能化需求激增的时代背景下，其核心研究问题聚焦于如何通过自然语言处理技术实现法律条文的高效检索与解释，为法律从业者、研究者及公众提供精准的法律知识服务。作为阿拉伯语法律文本的稀缺资源，该数据集不仅填补了北非地区法律智能化的数据空白，更为比较法研究和跨语言法律分析提供了新的可能性。

当前挑战

该数据集面临双重维度挑战。在领域问题层面，法律文本特有的专业术语密度高、条文间逻辑关联复杂等特性，对模型的语义理解与推理能力提出严峻考验；同时摩洛哥法律体系兼具大陆法系与伊斯兰法系特征，这种混合性加剧了法律概念体系化建模的难度。在构建技术层面，原始法律文本的多源异构性导致数据清洗与标注成本高昂，而阿拉伯语方言变体与标准书面语的差异进一步增加了文本归一化处理的复杂度。此外，如何平衡法律文本的权威性与数据标注的客观性，亦是构建过程中不可回避的伦理挑战。

常用场景

经典使用场景

在摩洛哥法律体系的研究中，moroccan-law-dataset作为首个涵盖广泛法律问答对的语料库，为法学研究者提供了宝贵的实证分析素材。该数据集通过结构化呈现法律条文与司法解释的对应关系，成为训练法律智能系统的核心资源，尤其在自动化法律咨询和判例预测模型中展现出独特价值。

实际应用

在法律科技领域，该数据集已成功应用于开发摩洛哥版智能法律助手，支持公民快速查询劳动法、家庭法等常见法律问题。司法机关利用该数据集训练的模型进行案件文书自动分类，显著提升了司法系统的工作效率，同时为律所提供了智能合同审查的技术支撑。

衍生相关工作

基于该数据集衍生的研究包括《阿拉伯语法律文本的语义相似度计算》等突破性论文，其中提出的BERT变体模型成为后续研究的基准。摩洛哥最高法院主导开发的司法决策支持系统JUDIS，其核心模块正是采用该数据集进行训练，开创了北非地区法律智能化的先河。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集