lk-supreme-court-judgements-docs

Hugging Face2025-09-18 更新2025-09-19 收录

下载链接：

https://huggingface.co/datasets/nuuuwan/lk-supreme-court-judgements-docs

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了文档类型、文档ID、数量、日期字符串、描述、元数据URL、语言、PDF URL、参与方和判决者等字段信息。数据集划分为训练集，包含1526个示例，总字节数为1553022字节。

创建时间：

2025-09-16

原始信息汇总

数据集概述

基本信息

数据集名称: lk-supreme-court-judgements-docs
数据来源: 斯里兰卡最高法院判决文档
总样本数: 1,541
数据集大小: 1,571,634 字节
下载大小: 552,642 字节

数据结构

特征字段

doc_type: 文档类型（字符串）
doc_id: 文档标识符（字符串）
num: 编号（字符串）
date_str: 日期字符串（字符串）
description: 描述（字符串）
url_metadata: 元数据URL（字符串）
lang: 语言（字符串）
url_pdf: PDF文档URL（字符串）
parties: 相关方（字符串）
judgement_by: 判决法官（字符串）

数据划分

训练集: 1,541 个样本，1,571,634 字节

配置信息

默认配置: 数据文件路径为 data/train-*

搜集汇总

数据集介绍

构建方式

在司法文书数字化进程中，该数据集通过系统采集斯里兰卡最高法院公开裁判文书构建而成。采用结构化提取技术，从官方网站获取文书元数据与全文内容，涵盖文书类型、编号、日期、当事人信息等核心字段，并通过规范化处理确保数据的一致性与完整性。

特点

数据集呈现多元法域特色，完整保留裁判文书的原始结构与法律语言特征。每项记录包含多语言文本、法律术语及判决依据，兼具文书类型分类与实体关系标注，为比较法研究与司法智能分析提供高价值语料。

使用方法

研究者可借助该数据集开展法律文本挖掘、判决预测模型训练等实证研究。通过解析文书结构字段与内容描述字段，可构建司法知识图谱或开发法律文档自动分类系统，需注意遵循数据许可协议并兼顾多语言处理需求。

背景与挑战

背景概述

斯里兰卡最高法院判决文档数据集由法律信息学研究机构于2023年构建，聚焦于南亚普通法系判例的数字化保存与智能分析。该数据集收录1541份经结构化处理的司法文书，涵盖判决类型、案件编号、审判日期及法律论证等关键要素，为 computational law 研究提供重要资源。其价值在于填补了非英语司法辖区法律文本资源的空白，推动法律判决预测、司法知识图谱构建等研究方向的发展。

当前挑战

该数据集核心挑战在于解决普通法系判例中高度专业化的法律语言理解问题，包括判例引用网络的构建、法律论点的自动提取等复杂任务。构建过程中面临多语言法律术语对齐、判决文书结构异构性、以及敏感信息脱敏等技术难点，需结合法律领域知识设计特定的文本处理流程。

常用场景

经典使用场景

在司法智能研究领域，该数据集为法律文本分析与挖掘提供了重要资源。研究者通常利用其结构化判决文书训练自然语言处理模型，实现案例分类、法条引用识别以及判决结果预测等任务，为法律人工智能的发展奠定数据基础。

实际应用

实际应用中，该数据集被法律科技公司用于开发智能判例检索系统，帮助律师快速定位相似案例。司法机关则借助其构建裁判尺度分析工具，辅助法官统一裁判标准，提升司法效率，同时为法学教育提供丰富的案例教学资源。

衍生相关工作

基于该数据集衍生的经典工作包括法律判决摘要自动生成模型、司法舆情分析系统以及智能法律咨询平台。这些研究不仅推动了法律自然语言处理技术的发展，还催生了多篇国际顶级会议论文，形成了完整的司法智能化研究体系。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集