five

SriLanka Legal Documents Dataset

收藏
github2025-07-11 更新2025-07-12 收录
下载链接:
https://github.com/nuuuwan/lk_legal_docs
下载链接
链接失效反馈
官方服务:
资源简介:
一个包含43,977份文档(40.9 MB)的集合,时间跨度为1981年1月22日至2025年7月11日。包括📢公报、🚨特别公报、🏛️法案、✍️法案等,来自documents.gov.lk。🆓公开数据,完全开源。🗣️三语种:සිංහල、தமிழ்和English。🔍对记者、研究人员、律师和法律学生、政策观察者以及希望保持信息灵通的公民有用。

This dataset comprises 43,977 documents totaling 40.9 MB, spanning the period from January 22, 1981 to July 11, 2025. It includes official announcements, special announcements, legislative bills, drafted bills and other relevant documents sourced from documents.gov.lk. The dataset is fully open and publicly accessible, and is available in three languages: Sinhala, Tamil, and English. It serves as a valuable resource for journalists, researchers, lawyers and law students, policy observers, as well as citizens who wish to stay informed on relevant affairs.
创建时间:
2025-07-04
原始信息汇总

斯里兰卡法律文件数据集概述

数据集基本信息

  • 数据来源documents.gov.lk
  • 最后更新:2025-07-14 09:43:36
  • 文档数量:43,997份(40.9 MB)
  • 时间范围:1981-01-22至2025-07-11
  • 语言:සිංහල(僧伽罗语)、தமிழ்(泰米尔语)、English(英语)

文档类型统计

类型 数量 最早日期 最晚日期
📢 公报 6,273 2006-03-03 2025-07-11
✍️ 法案 1,348 2010-05-10 2025-07-08
🚨 特别公报 34,729 2010-01-01 2025-07-08
🏛️ 法令 1,647 1981-01-22 2025-06-20

数据下载情况

  • 已下载PDF数量:27,489份(12.4 GB)
  • 覆盖文档比例:22.8%(10,019份)
  • 预估最终数据大小:约55 GB

应用与工具

近期文档(过去7天)

  • 数量:15份
  • 示例
    • 📢 [2025-07-11] 土地部分
    • ✍️ [2025-07-08] 刑法修正案
    • 🚨 [2025-07-08] 地方政府部门通知

图表概览

  • 上周文档覆盖图
  • 年度文档覆盖图
  • 语言覆盖图
  • 工作日文档分布图

其他信息

  • 数据性质:公共数据,完全开源
  • 适用人群:记者、研究人员、律师、法律学生、政策观察者及普通公民
  • 项目状态:进行中(欢迎建议、问题、想法和错误报告)
搜集汇总
数据集介绍
main_image_url
构建方式
斯里兰卡法律文件数据集通过系统化采集斯里兰卡政府官方门户网站documents.gov.lk的公开法律文档构建而成,涵盖1981年至2025年间发布的43,997份文件。数据采集过程采用自动化爬虫技术,确保文档的完整性与时效性,同时保留原始PDF格式以供验证。文档类型包括政府公报、特别公报、法案及法律草案等,形成跨40余年的法律沿革档案库。
特点
该数据集最显著的特征在于其多语言覆盖性,所有文档均包含僧伽罗语、泰米尔语和英语三种官方语言版本,为语言学研究提供珍贵素材。时间跨度长达44年,完整记录了斯里兰卡法律体系的演进轨迹。数据规模预计达54GB,目前已收录12.5GB的27,669份PDF文件,具有显著的时间分布特征——特别公报占比最高(34,729份),且2025年文档更新频率保持每日增量。
使用方法
研究者可通过GitHub仓库直接访问结构化存储的文档数据,按照年份、类型双语路径进行检索。配套开发的Legal Documents App提供可视化浏览界面,支持桌面端多维度筛选与分析。典型应用场景包括:法律条文变迁研究可通过对比不同年份法案实现;多语言政策分析可利用三语平行文本;而近期文档监控功能则适合政策观察者追踪最新立法动态。所有数据遵循开放授权协议,支持学术与商业用途的无障碍获取。
背景与挑战
背景概述
斯里兰卡法律文件数据集(SriLanka Legal Documents Dataset)是由开发者nuuuwan于2025年整理并发布的重要法律文献资源,收录了自1981年至2025年间近4.4万份法律文件,涵盖政府公报、特别公报、法案及法律条文等多种类型。该数据集源自斯里兰卡政府官方网站documents.gov.lk,以三语(僧伽罗语、泰米尔语和英语)呈现,旨在为记者、研究人员、律师及公众提供透明且易访问的法律信息。作为开放数据运动的代表性成果,它不仅推动了斯里兰卡法律文献的数字化进程,也为全球法律科技(Legal Tech)和政务公开(GovTech)研究提供了宝贵案例。
当前挑战
该数据集面临的核心挑战体现在两方面:其一,领域问题层面,多语言法律文本的语义解析与跨语言对齐存在技术难点,尤其是低资源语言(如僧伽罗语)的自然语言处理工具匮乏;其二,构建过程中需克服原始PDF文件非结构化(预计最终规模达54GB)、部分历史文档数字化质量参差,以及政府数据更新动态同步等工程难题。此外,法律文件的专业性与时效性要求对数据标注和持续维护提出了更高标准。
常用场景
经典使用场景
在法学研究与政策分析领域,斯里兰卡法律文档数据集为研究者提供了1981年至今的政府公报、法案、议案等原始法律文本。该数据集最经典的应用场景体现在法律沿革分析上,研究者可通过跨时间维度的文本比对,追踪特定法律条款的修订轨迹,揭示立法演变的规律性与社会适应性。三语并行的特性更支持比较法学研究,为语言政策分析提供实证基础。
衍生相关工作
基于该数据集衍生的经典研究包括《斯里兰卡环境立法演进的多语言分析》等跨学科成果。在技术应用层面,研究者开发了法律文本的自动分类模型,其标注的三语平行语料推动了低资源语言NLP进展。数据集支撑的'法律文档应用'更创新了政府信息公开模式,相关设计被缅甸、尼泊尔等国的开放数据项目借鉴。
数据集最近研究
最新研究方向
在数字化法律文档领域,斯里兰卡法律文档数据集(SriLanka Legal Documents Dataset)为研究者提供了丰富的多语言法律文本资源,涵盖公报、法案、法令等多种类型。近年来,该数据集在自然语言处理(NLP)和法律科技(LegalTech)领域展现出重要价值,特别是在多语言文本分析、法律文档自动分类和信息提取方面。研究者利用其包含的僧伽罗语、泰米尔语和英语文本,探索跨语言法律信息检索和机器翻译技术,为斯里兰卡及南亚地区的法律信息化建设提供了技术支持。同时,该数据集也被用于政策分析和社会科学研究,帮助揭示法律变迁与社会发展的关联性。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作