navodPeiris/sri-lanka-case-law
收藏Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/navodPeiris/sri-lanka-case-law
下载链接
链接失效反馈官方服务:
资源简介:
斯里兰卡案例法数据集是一个结构化的法律案例集合,提取自斯里兰卡四大主要法律报告系列。数据集包含从1890年至2021年的6,984个案例,涵盖了Ceylon Law Reports (CLR)、Ceylon Law Weekly (CLW)、New Law Reports (NLR)和Sri Lanka Law Reports (SLR)四个系列。每个案例包含案件编号、法院引用、法院名称、案件标题、简短摘要、详细摘要、决定日期、法官、引用的案例、引用的法律、提出的论点和判决等详细信息。数据集旨在为法律研究和分析提供丰富的资源。
A structured collection of Sri Lankan legal case law extracted from four major law report series. The dataset includes 6,984 cases from 1890 to 2021, covering Ceylon Law Reports (CLR), Ceylon Law Weekly (CLW), New Law Reports (NLR), and Sri Lanka Law Reports (SLR). Each case contains detailed information such as case number, court citation, court name, case title, short summary, full summary, decided date, judges, citations, laws referred, arguments, and judgements. The dataset is designed to provide a rich resource for legal research and analysis.
提供机构:
navodPeiris
搜集汇总
数据集介绍

构建方式
该数据集系统化地汇集了斯里兰卡四部主要判例法报告系列中的法律判例,涵盖自殖民时代以来跨越百余年的司法裁决。构建过程中,数据从Ceylon Law Reports、Ceylon Law Weekly、New Law Reports以及Sri Lanka Law Reports四部权威报告集中提取,并整合为一个统一语料库。每个案例均经过结构化处理,包含来源标识、案号、法院引用、案件名称、简要与详细摘要、裁决日期、主审法官、引用先例、援引法律条文、双方论据以及法院判决等字段。数据集进一步划分为CLR、CLW、NLR、SLR及合并子集,便于研究者针对特定时期或报告系列进行定向分析。
特点
该数据集的核心特色在于其涵盖范围的全面性与结构化深度。时间跨度自1890年至2021年,囊括近7000例斯里兰卡各级法院的判例,反映了该国法律体系从殖民时期到现代的演变脉络。数据集中每个案例均包含详细的元数据,如引用的先例(citations)及其引用理由、所援引法律(laws_referred)的具体章节与解释,以及各方法律论据(arguments)与法官个人判决意见(judgements)。这种多层级的标注方式,使其不仅是一个静态的案卷库,更是一个可供法律史研究、判例推理分析与法律知识图谱构建的丰富素材。
使用方法
使用者可借助Hugging Face的datasets库便捷加载该数据集。通过load_dataset函数指定数据集标识符'navodPeiris/sri-lanka-case-law',并利用split参数选择所需的子集,例如加载合并全部案例的'combined'子集,或仅加载Sri Lanka Law Reports的'SLR'子集。每个案例以JSON格式存储,字段结构清晰,便于直接转化为Python字典进行处理。该数据集适用于法律文本挖掘、判例推荐系统、司法判决预测模型的训练,以及法律语言学分析等多种学术与应用场景。
背景与挑战
背景概述
在司法人工智能与法律信息检索领域,结构化判例数据集是支撑法律文本挖掘、判决预测及法律推理研究的基础设施。由Navod Peiris于2026年创建的斯里兰卡判例法数据集(Sri Lanka Case Law Dataset),系统整合了该国四大权威法律报告系列——包括殖民时期的锡兰法律报告(CLR,1890–1897)、锡兰法律周刊(CLW,1936–1967)、新法律报告(NLR,1895–1978)及现代官方系列斯里兰卡法律报告(SLR,1978–2021),共计6,984个判例。该数据集以结构化格式呈现,涵盖案件编号、法院、当事人、判决摘要、援引先例、法律条文、诉讼论点及法官意见等丰富字段,为斯里兰卡普通法体系的研究提供了首个大规模、跨时代的标准化语料库,对推动南亚地区法律数据科学与计算法学的交叉研究具有奠基性意义。
当前挑战
该数据集所应对的领域问题核心在于:斯里兰卡判例法长期分散于纸质文献与非结构化数字档案中,严重制约了法律人工智能系统的训练与司法知识图谱的构建。从构建过程来看,跨越131年的判例时间跨度与四种不同报告体系(CLR、CLW、NLR、SLR)带来了显著的格式异构性,尤其SLR系列在字段结构上(如增加court_citation与court字段)与前三者存在兼容性挑战,需要精细的字段对齐与缺失值处理。此外,法律文本中混杂的僧伽罗语法律术语、殖民时期与现代引用规范的差异,以及法官集体意见(multiple judgments)的拆分与归并,均为数据提取与结构化标注增添了技术难度。
常用场景
经典使用场景
在法律文本挖掘与自然语言处理领域,Sri Lanka Case Law Dataset为研究者提供了结构化程度极高的斯里兰卡判例语料库,涵盖自1890年至2021年间四个权威判例报告系列(CLR、CLW、NLR、SLR)的6984个案例。该数据集最经典的使用场景之一是法律判决预测与法律信息检索,研究者可利用其丰富的字段信息(如案件摘要、判决意见、引用的先例及法律条文)构建文本分类模型,对判决结果进行预测,或开发基于语义的判例检索系统,以支持法律从业者高效查找相关判例。此外,该数据集的层次化结构也使其成为法律事件抽取、法律论证挖掘等任务的理想基准,推动南亚地区法律人工智能研究的发展。
实际应用
在实际应用层面,该数据集为斯里兰卡司法系统的数字化转型提供了关键支撑。法律科技企业可基于此数据开发智能法律助手,通过自然语言理解技术自动解析案件事实,为律师或当事人推荐相似判例、预测诉讼成本与胜诉概率。法院系统内部可利用该数据集训练模型,实现判例的自动摘要生成与法条匹配,提升案件管理效率。此外,该数据集的跨时空覆盖特性也使其在法学教育中大放异彩,用于构建交互式判例学习系统,帮助法学生直观理解不同时期法院对相似法律问题的判决逻辑与变迀脉络,弥合理论与实践之间的鸿沟。
衍生相关工作
围绕该数据集已衍生出多项开创性研究工作。在法律语言建模方向,研究者基于该数据集训练了面向斯里兰卡法律领域的预训练语言模型(如Legal-BERT的变体),显著提升了法律文本分类和问题回答任务的性能。在知识图谱构建领域,该数据集中丰富的先例引用关系与法条引用信息被用于构建斯里兰卡判例法知识图谱,实现了案件、法官、先例与法条之间的关联推理。此外,基于该数据集的时间跨度特性,有学者开展了司法判决趋势分析的时间序列研究,揭示了特定领域(如土地法、信托法)中法院判决倾向的历史演变规律,为立法改革提供了实证依据。这些衍生工作不仅推动了计算法学的发展,也为其他英联邦国家判例数据集的构建提供了方法论参考。
以上内容由遇见数据集搜集并总结生成



