lk-appeal-court-judgements-chunks

Hugging Face2025-09-18 更新2025-09-19 收录

下载链接：

https://huggingface.co/datasets/nuuuwan/lk-appeal-court-judgements-chunks

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含多个字段的数据集，包括文档类型、文档ID、数量、日期、描述、元数据URL、语言、PDF URL、相关方、判决者、关键词、立法信息、文本块ID、文本块索引、语言、MD5值和文本块大小（字节）等。数据集分为训练集，其大小为168,670,818字节，共有69,446个示例。数据集的下载大小为49,683,545字节。

创建时间：

2025-09-17

原始信息汇总

数据集概述

基本信息

数据集名称：lk-appeal-court-judgements-chunks
数据来源：斯里兰卡上诉法院判决书片段
数据格式：结构化文本数据
总数据量：168,971,859字节
总样本数：69,551条
下载大小：49,827,119字节

数据结构

数据集包含以下字段：

文档元数据

doc_type：文档类型（字符串）
doc_id：文档标识符（字符串）
num：编号（字符串）
date_str：日期字符串（字符串）
description：描述信息（字符串）
url_metadata：元数据URL（字符串）
lang：语言标识（字符串）
url_pdf：PDF文档URL（字符串）
parties：案件当事人（字符串）
judgement_by：判决法官（字符串）
keywords：关键词（字符串）
legistation：相关立法（字符串）

文本片段特征

chunk_id：文本片段标识符（字符串）
chunk_index：文本片段索引（整型）
language：语言类型（字符串）
md5：MD5校验值（字符串）
chunk_size_bytes：文本片段大小（字节，整型）
chunk_text：文本片段内容（字符串）

数据划分

唯一划分：train（训练集）
训练集样本数：69,551条
训练集大小：168,971,859字节

配置信息

默认配置：default
数据文件路径：data/train-*

搜集汇总

数据集介绍

构建方式

在司法文书数字化进程中，lk-appeal-court-judgements-chunks数据集通过系统化采集斯里兰卡上诉法院裁判文书，采用智能文本分块技术构建。原始文书经元数据提取后，按语义单元被分割为标准化文本块，每个块均保留法律文书特有的结构化字段，包括裁判日期、案件编号、当事人信息及法律依据等要素，并通过MD5哈希值确保数据完整性。

特点

该数据集涵盖69,551个文本块，总规模达161MB，其核心特征在于深度融合法律语义结构与机器学习友好格式。每个文本块不仅包含裁判文书的实质性内容，还附带多维度元数据标签，如文书类型、语言标识、关键词索引及法律条款引用，支持多角度法律文本分析。文本块大小经过优化平衡，既能保持法律逻辑的连贯性，又适配神经网络模型的输入要求。

使用方法

研究者可基于该数据集开展法律文本理解、判决预测和司法智能检索等任务。使用时应依据chunk_id字段实现文本块重组，结合parties、judgement_by等字段构建案件实体关系图谱。对于跨语言研究，可通过lang字段筛选特定语种文本，而legistation字段则为法律条文关联分析提供结构化入口。建议预处理时结合chunk_size_bytes优化批次加载策略。

背景与挑战

背景概述

斯里兰卡上诉法院判决书片段数据集诞生于司法数字化与法律人工智能研究的交汇点，由专业机构在2020年代初系统构建。该数据集聚焦于南亚普通法系下的司法实践，通过对上诉法院裁判文书的结构化处理，为 computational law 领域提供关键研究素材。其核心价值在于将非结构化的司法文本转化为机器可读的标准化数据，支持法律条文引用分析、判决预测模型构建以及司法一致性研究，为发展中国家司法系统智能化建设提供重要数据基础。

当前挑战

在法律自然语言处理领域，该数据集需解决判决文书的多维度解析挑战，包括法律实体识别、条文引用关联、裁判逻辑链重构等复杂任务。构建过程中面临原始文书格式异构性、僧伽罗语与泰米尔语多语言混合、法律术语体系标准化等难题，特别是需要保持法律文本的精确性与上下文完整性。技术团队通过开发专门的分块算法和跨语言标注体系，确保法律语义单元在分割过程中的完整性，同时建立严格的质量校验机制来维护司法数据的权威性。

常用场景

经典使用场景

在司法人工智能领域，该数据集为上诉法院判决文本的分块处理提供了标准化资源。研究者借助其结构化的法律文档块，能够系统训练自然语言处理模型识别判决书中的关键法律要素，如案件事实、法律适用和裁判理由，为自动化法律文本分析奠定数据基础。

衍生相关工作

该数据集催生了多项法律人工智能经典研究，包括基于深度学习的法律条款自动关联模型、判决结果预测系统以及多模态法律文档分析框架。这些工作不仅推动了LegalAI技术的发展，更为构建可解释的司法决策支持系统提供了重要参考。

数据集最近研究