five

ALARB

收藏
arXiv2025-10-01 更新2025-11-20 收录
下载链接:
https://hf-mirror.com/datasets/THIQAH-RD/ALARB
下载链接
链接失效反馈
官方服务:
资源简介:
ALARB数据集是一个包含沙特阿拉伯商业法庭超过13K个案例的阿拉伯语法律推理数据集。每个案例包括原告和被告提出的案件事实、法院的推理过程、判决结果以及从法规文件中提取的引用条款。数据集涵盖了广泛的案例类型,旨在支持多步骤推理任务,例如判决预测、法律论证链的完成以及基于案件事实的相关法规识别。ALARB数据集由原始阿拉伯语司法来源的案件组成,确保了文化和社会背景的准确性,并能够用于评估和微调大型语言模型在阿拉伯法律领域的推理能力。
提供机构:
沙特国王阿卜杜拉科技大学 (KAUST),THIQAH
创建时间:
2025-10-01
搜集汇总
数据集介绍
main_image_url
构建方式
在阿拉伯语法律智能研究领域,ALARB数据集的构建采用了系统化的多阶段流程。该数据集源自沙特阿拉伯商业法庭的真实司法文书,通过自动化爬取技术获取原始案例文本与法规条文。在数据清洗阶段,运用大语言模型进行命名实体识别,精准提取案例中引用的法律条款编号与法规名称,并通过双重验证机制确保映射准确性。案例重构环节将案件事实与法庭论证过程拆分为结构化序列,同时采用匿名化处理消除当事人敏感信息,最终形成包含事实陈述、推理链条、判决结果及法规引用的标准化数据单元。
使用方法
该数据集支持多层次法律推理任务验证。在判决预测任务中,研究者可配置不同输入条件:仅基于案件事实、结合相关法条或参考法庭论证过程,评估模型的法律分析能力。法规识别任务提供双重难度设置,既包含同源法规的干扰项选择,也引入基于语义嵌入的跨法规相似条款辨识。对于模型训练,数据集支持监督微调范式,可构建指令-输出对训练法律推理模型。实验表明,基于该数据集微调的12B参数模型在判决预测任务中达到与GPT-4o相仿的性能,印证了其在提升阿拉伯语法律AI能力方面的实用价值。
背景与挑战
背景概述
阿拉伯法律智能推理基准ALARB由阿卜杜拉国王科技大学与THIQAH机构于2025年联合发布,聚焦沙特阿拉伯商业法庭的司法实践。该数据集收录超过1.3万例结构化法律案例,涵盖案件事实、法庭推理论证、判决结果及援引法条等完整要素,旨在填补阿拉伯语大语言模型在法律多步推理能力评估领域的空白。通过构建原生阿拉伯语法律推理基准,该研究为提升法律领域人工智能系统的论证链理解与判决预测能力提供了重要基础设施。
当前挑战
在解决法律论证推理领域问题时,需应对阿拉伯法律文本特有的语言复杂性、文化语境敏感性以及开放式推理的不确定性挑战。数据集构建过程中面临三重困难:从原始裁判文书中精准提取嵌套法条引用需克服命名实体识别难题;案件事实与法庭论证的重构要求保持法律逻辑链条的完整性;在数据匿名化处理中需平衡信息保留与隐私保护的矛盾。这些挑战共同凸显了法律领域自然语言处理任务对细粒度语义理解与领域知识融合的特殊要求。
常用场景
经典使用场景
在阿拉伯语法律智能研究领域,ALARB数据集通过构建包含案件事实、法庭推理链条和判决结果的标准化结构,为评估大语言模型的多步法律论证能力提供了基准平台。该数据集支持从事实分析到法规引用的完整推理任务,使研究者能够系统检验模型在复杂法律语境下的逻辑推演质量。
解决学术问题
该数据集有效解决了阿拉伯语法律自然语言处理中缺乏原生推理评估基准的学术困境,填补了多步骤法律论证建模的研究空白。其意义在于建立了首个涵盖沙特长篇商业案例的阿拉伯语法律推理数据集,为衡量模型对伊斯兰商法体系的理解深度提供了量化标准,推动了法律人工智能的可解释性研究进展。
实际应用
在司法智能化实践中,ALARB支撑着法律文书自动生成系统的开发,能够辅助律师快速检索类似判例的论证模式。其结构化案例数据还可用于构建智能法律咨询系统,帮助非专业人士理解商业纠纷的判决依据,同时为司法机构提供案件预测分析工具,提升法律服务的效率与一致性。
数据集最近研究
最新研究方向
在阿拉伯语法律智能领域,ALARB数据集的推出标志着对大型语言模型多步推理能力评估的重要突破。该数据集聚焦于沙特阿拉伯商业法庭案例,通过结构化的事实陈述、法律条文引用及判决推理链条,为模型提供了真实复杂的法律论证场景。前沿研究主要围绕判决预测、法律论证补全及条文识别等核心任务展开,旨在解决阿拉伯语法律文本中存在的语义模糊性和文化特异性问题。相关热点事件包括利用指令微调技术显著提升12B参数模型的性能,使其在判决生成任务上达到与GPT-4o相媲美的水平,同时揭示了多语言模型在阿拉伯语与英语推理模式间的能力差异,为跨语言法律人工智能的发展提供了关键洞见。
相关研究论文
  • 1
    通过沙特国王阿卜杜拉科技大学 (KAUST),THIQAH · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作