five

lk-appeal-court-judgements-docs

收藏
Hugging Face2025-09-18 更新2025-09-19 收录
下载链接:
https://huggingface.co/datasets/nuuuwan/lk-appeal-court-judgements-docs
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多个字段,用于描述文档的相关信息,如文档类型、文档ID、数量、日期、描述等。数据集分为训练集,用于机器学习模型的训练。具体的应用场景和数据集的详细内容未在README中说明。
创建时间:
2025-09-17
原始信息汇总

数据集概述

基本信息

  • 数据集名称:lk-appeal-court-judgements-docs
  • 存储位置:https://huggingface.co/datasets/nuuuwan/lk-appeal-court-judgements-docs
  • 下载大小:1,765,634字节
  • 数据集大小:5,078,950字节
  • 样本数量:10,110条
  • 数据拆分:训练集(train)

数据特征

  • 文档类型(doc_type):字符串类型
  • 文档ID(doc_id):字符串类型
  • 编号(num):字符串类型
  • 日期字符串(date_str):字符串类型
  • 描述(description):字符串类型
  • 元数据URL(url_metadata):字符串类型
  • 语言(lang):字符串类型
  • PDF文件URL(url_pdf):字符串类型
  • 相关方(parties):字符串类型
  • 判决方(judgement_by):字符串类型
  • 关键词(keywords):字符串类型
  • 立法依据(legistation):字符串类型

数据格式

  • 配置文件:default
  • 数据文件路径:data/train-*
搜集汇总
数据集介绍
main_image_url
构建方式
在司法文书数字化进程不断深化的背景下,该数据集通过系统采集斯里兰卡上诉法院的公开裁判文书构建而成。其构建过程依托官方发布的电子文档,经过自动化解析与结构化处理,提取了包括文书类型、案号、判决日期及法律依据在内的多维度字段,形成了涵盖一万余条样本的规范化数据集。
特点
该数据集的核心特征体现在其完整的司法元数据体系,不仅包含裁判结果、涉案双方及审判人员信息,还整合了法律条款索引与关键词标签。所有文档均保留原始PDF链接,支持多语言文本描述,为比较法研究和司法行为分析提供了高颗粒度的数据支撑。
使用方法
研究者可通过HuggingFace平台直接加载该数据集,利用其标准化的字段结构进行司法文本挖掘与法律智能分析。典型应用场景包括判决预测模型训练、法律条文关联性分析,以及通过url_pdf字段调取原始文书进行深度验证性研究。
背景与挑战
背景概述
司法文书数字化研究自21世纪初兴起,斯里兰卡上诉法院判决文档数据集由法律科技研究机构于2020年代构建,旨在推动法律人工智能在普通法系国家的发展。该数据集聚焦于多语言司法文档的结构化解析与语义分析,通过机器可读的判决文书为法律条文引用分析、判决预测模型及司法一致性研究提供关键数据支撑,对南亚地区 computational law 领域发展具有显著推动作用。
当前挑战
法律领域面临判决文书非标准化表述与多源引用整合的复杂性挑战,具体体现在法律概念的多义性解析、跨条文逻辑关联建模等方面。数据集构建过程中需克服低资源僧伽罗语与泰米尔语的语义标注难题,同时要处理PDF文档转写时的版面识别错误与法律实体抽取中的边界模糊问题,这些技术瓶颈直接影响法律文本挖掘模型的准确性。
常用场景
经典使用场景
在司法人工智能研究领域,该数据集为上诉法院判决文档的自动化处理提供了重要资源。研究者通常利用其结构化字段如判决类型、当事人信息和法律条款,训练自然语言处理模型进行判决书关键信息抽取,支持司法文书的智能解析与分类工作。
实际应用
在实际司法体系中,该数据集支撑了智能法律助手系统的开发,能够协助法官快速检索类似案例。法律科技公司利用其构建判决结果预测工具,为律师提供胜诉率评估服务,同时司法教育机构将其作为模拟法庭案例库,增强法律实践教学的真实性与时效性。
衍生相关工作
基于该数据集衍生了多项法律智能领域的经典研究,包括基于深度学习的判决结果预测模型、法律条文自动引用系统以及司法偏见检测算法。这些工作不仅推动了计算法学的发展,更为构建透明化的司法决策支持系统提供了重要的技术基础与理论支撑。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作