five

lk_datasets

收藏
github2025-10-02 更新2025-10-03 收录
下载链接:
https://github.com/nuuuwan/lk_datasets
下载链接
链接失效反馈
官方服务:
资源简介:
斯里兰卡数据集集合,包含13个数据集,共213,977个文档(59.3 GB)。包括议会辩论记录、上诉法院判决、最高法院判决、警方新闻稿和法律法案等,涵盖多种格式(JSON、PDF、TXT)和语言(僧伽罗语、泰米尔语、英语)

The Sri Lanka dataset collection includes 13 datasets, totaling 213,977 documents with a size of 59.3 GB. It covers materials such as parliamentary debate records, appellate court judgments, Supreme Court judgments, police press releases and legislative bills, and supports multiple formats (JSON, PDF, TXT) and languages (Sinhala, Tamil, English).
创建时间:
2025-09-18
原始信息汇总

🇱🇰 斯里兰卡数据集概述

总体统计

  • 数据集数量:21个
  • 文档总数:227,514份
  • 总数据量:53.9 GB

数据集详情

001 议会记录

  • 描述:议会辩论的官方逐字记录
  • 文档数量:1,665份
  • 数据量:17.9 GB
  • 时间范围:2006-02-01至2025-09-24
  • 数据来源:https://www.parliament.lk
  • 格式:JSON、PDF(98%)、TXT(98%)、Hugging Face(98%)
  • 语言:僧伽罗语、泰米尔语、英语
  • 引用:arXiv:2510.04124 [cs.CL]

002 上诉法院判决

  • 描述:审查下级法院决定的高等法院裁决
  • 文档数量:10,153份
  • 数据量:10.3 GB
  • 时间范围:2012-04-23至2025-10-09
  • 数据来源:https://courtofappeal.lk
  • 格式:JSON、PDF、TXT、Hugging Face
  • 语言:英语
  • 引用:arXiv:2510.04124 [cs.CL]

003 最高法院判决

  • 描述:解释宪法和法律的具有约束力的法律决定
  • 文档数量:1,579份
  • 数据量:1.3 GB
  • 时间范围:2016-07-22至2025-10-09
  • 数据来源:https://supremecourt.lk
  • 格式:JSON、PDF(89%)、TXT(89%)、Hugging Face(89%)
  • 语言:英语
  • 引用:arXiv:2510.04124 [cs.CL]

004 警方新闻稿

  • 描述:执法部门关于犯罪、逮捕、安全警报或公共通知的官方更新
  • 文档数量:748份
  • 数据量:255.3 MB
  • 时间范围:2025-05-01至2025-10-09
  • 数据来源:https://www.police.lk
  • 格式:JSON、PDF、TXT、Hugging Face
  • 语言:僧伽罗语
  • 引用:arXiv:2510.04124 [cs.CL]

005 法案

  • 描述:议会通过的管理权利、义务、经济和社会的法律
  • 文档数量:3,928份
  • 数据量:6.8 GB
  • 时间范围:1981-01-22至2025-09-22
  • 数据来源:https://documents.gov.lk
  • 格式:JSON、PDF(100%)、TXT(100%)、Hugging Face(100%)
  • 语言:僧伽罗语、泰米尔语、英语
  • 引用:arXiv:2510.04124 [cs.CL]

006 法案草案

  • 描述:议会提出的法律草案
  • 文档数量:4,077份
  • 数据量:1.8 GB
  • 时间范围:2010-05-10至2025-10-26
  • 数据来源:https://documents.gov.lk
  • 格式:JSON、PDF(100%)、TXT(100%)、Hugging Face(100%)
  • 语言:僧伽罗语、泰米尔语、英语
  • 引用:arXiv:2510.04124 [cs.CL]

007 2020年代特别公报

  • 描述:用于宣布紧急法律、法规或公共通知的官方政府出版物
  • 文档数量:45,194份
  • 数据量:231.9 MB
  • 时间范围:2020-01-01至2025-10-08
  • 数据来源:https://documents.gov.lk
  • 格式:JSON、PDF(0%)、TXT(0%)、Hugging Face(0%)
  • 语言:僧伽罗语、泰米尔语、英语
  • 引用:arXiv:2510.04124 [cs.CL]

008 2010年代特别公报

  • 描述:用于宣布紧急法律、法规或公共通知的官方政府出版物
  • 文档数量:56,379份
  • 数据量:1.4 GB
  • 时间范围:2010-01-01至2019-12-31
  • 数据来源:https://documents.gov.lk
  • 格式:JSON、PDF(3%)、TXT(3%)、Hugging Face(3%)
  • 语言:僧伽罗语、泰米尔语、英语
  • 引用:arXiv:2510.04124 [cs.CL]

009 内阁决定

  • 描述:内阁部长同意的官方政策或行动
  • 文档数量:10,369份
  • 数据量:125.3 MB
  • 时间范围:2010-09-27至2025-09-22
  • 数据来源:https://www.cabinetoffice.gov.lk
  • 格式:JSON、TXT、Hugging Face
  • 语言:僧伽罗语、英语
  • 引用:arXiv:2510.04124 [cs.CL]

010 财政部新闻稿

  • 描述:分享政府关键财务更新
  • 文档数量:134份
  • 数据量:143.9 MB
  • 时间范围:2015-09-08至2025-10-07
  • 数据来源:https://www.treasury.gov.lk
  • 格式:JSON、PDF、TXT、Hugging Face
  • 语言:僧伽罗语、英语
  • 引用:arXiv:2510.04124 [cs.CL]

011 总统媒体司新闻稿

  • 描述:分享国家决定、政策或事件的官方更新
  • 文档数量:2,182份
  • 数据量:55.9 MB
  • 时间范围:2024-09-23至2025-09-24
  • 数据来源:https://pmd.gov.lk
  • 格式:JSON、TXT、Hugging Face
  • 语言:僧伽罗语、泰米尔语、英语
  • 引用:arXiv:2510.04124 [cs.CL]

012 新闻

  • 描述:新闻文档集合
  • 文档数量:80,006份
  • 数据量:1.2 GB
  • 时间范围:2021-09-12至2025-10-09
  • 数据来源:15个新闻网站
  • 格式:JSON、TXT、Hugging Face
  • 语言:僧伽罗语、泰米尔语、英语
  • 引用:arXiv:2510.04124 [cs.CL]

013 旅游周报

  • 描述:斯里兰卡每周游客抵达报告
  • 文档数量:34份
  • 数据量:96.5 MB
  • 时间范围:2023-01-01至2025-10-01
  • 数据来源:https://www.sltda.gov.lk
  • 格式:JSON、PDF、TXT、Hugging Face
  • 语言:英语
  • 引用:arXiv:2510.04124 [cs.CL]

014 旅游月报

  • 描述:斯里兰卡每月游客抵达报告
  • 文档数量:127份
  • 数据量:308.9 MB
  • 时间范围:2015-01-01至2025-08-01
  • 数据来源:https://sltda.gov.lk、https://www.sltda.gov.lk
  • 格式:JSON、PDF(99%)、TXT(99%)、Hugging Face(99%)
  • 语言:英语
  • 引用:arXiv:2510.04124 [cs.CL]

015 灾害管理中心情况报告

  • 描述:包含大雨、风、树木倒塌、雷电等信息的情况报告
  • 文档数量:4,309份
  • 数据量:2.9 GB
  • 时间范围:2018-01-02至2025-10-09
  • 数据来源:https://www.dmc.gov.lk
  • 格式:JSON、PDF(99%)、TXT(99%)、Hugging Face(99%)
  • 语言:英语
  • 引用:arXiv:2510.04124 [cs.CL]

016 灾害管理中心天气预报

  • 描述:斯里兰卡各地的天气预报
  • 文档数量:3,475份
  • 数据量:4.2 GB
  • 时间范围:2023-05-09至2025-10-09
  • 数据来源:https://www.dmc.gov.lk
  • 格式:JSON、PDF、TXT、Hugging Face
  • 语言:英语
  • 引用:arXiv:2510.04124 [cs.CL]

017 灾害管理中心河流水位和洪水预警

  • 描述:斯里兰卡各地的河流水位和洪水预警
  • 文档数量:20份
  • 数据量:6.7 MB
  • 时间范围:2025-06-10至2025-09-28
  • 数据来源:https://www.dmc.gov.lk
  • 格式:JSON、PDF、TXT、Hugging Face
  • 语言:英语
  • 引用:arXiv:2510.04124 [cs.CL]

018 灾害管理中心山体滑坡预警

  • 描述:包括早期预警、潜在风险位置、需要特别关注的区域和地点以及自动山体滑坡早期预警地图
  • 文档数量:563份
  • 数据量:436.2 MB
  • 时间范围:2019-09-26至2025-10-05
  • 数据来源:https://www.dmc.gov.lk
  • 格式:JSON、PDF、TXT、Hugging Face
  • 语言:英语
  • 引用:arXiv:2510.04124 [cs.CL]

019 中央银行年度报告

  • 描述:斯里兰卡中央银行年度报告
  • 文档数量:1,137份
  • 数据量:3.5 GB
  • 时间范围:1950-01-01至2023-01-01
  • 数据来源:https://www.cbsl.gov.lk
  • 格式:JSON、PDF(99%)、TXT(99%)、Hugging Face(99%)
  • 语言:英语
  • 引用:arXiv:2510.04124 [cs.CL]
搜集汇总
数据集介绍
main_image_url
构建方式
在斯里兰卡公共数据资源整合领域,该数据集通过系统化网络爬取技术构建而成,覆盖议会记录、司法文书、政府公告等21个子集。数据源自议会官网、最高法院、财政部等权威机构公开平台,采用自动化采集流程确保文档完整性。构建过程严格遵循时间序列归档原则,最早可追溯至1950年央行报告,最新收录2025年10月发布的灾害预警文件,形成跨越数十年时空维度的立体化数据架构。
特点
该数据集呈现多模态跨语言特征,囊括53.9GB容量的22.7万份文档,涵盖JSON、PDF、TXT三种结构化格式。其突出优势在于三语并行体系,僧伽罗语、泰米尔语与英语文献并存,司法类文档更具备法律效力权威性。数据分布体现时空连续性,如议会记录持续更新近二十年,气象预警实现分钟级响应,构建起覆盖立法、司法、行政、经济等多维度的立体知识图谱。
使用方法
研究者可通过Hugging Face平台直接调用预处理数据,各子集均配备标准化元数据描述。针对法律文本分析,可结合arXiv:2510.04124标注规范进行引证;跨语言研究可利用三语平行语料开发翻译模型;时序分析则可依据文档时间戳构建动态演化图谱。数据采用分主题模块化组织,支持按需调用司法判例库、气象数据库等独立组件,亦可通过联合查询实现跨领域关联分析。
背景与挑战
背景概述
lk_datasets作为斯里兰卡多领域官方文档的综合性语料库,由研究机构nuuuwan于2025年系统构建,整合了议会记录、司法判决、政府公报等21类权威数据源。该数据集覆盖法律、经济、气象等关键领域,包含超22万份多语言文档,其核心价值在于为自然语言处理研究提供稀缺的低资源语言样本,并通过历时性数据展现南亚地区治理体系演变轨迹。
当前挑战
在司法判决分析等专业领域,数据集需应对法律术语多义性解析与多语言对齐的技术瓶颈;构建过程中面临网页结构异构性导致的抽取噪声,部分历史文档存在图像PDF转换误差。三语平行语料的比例失衡与领域专业词典缺失,进一步增加了跨语言知识发现的复杂度,而动态更新的政务数据流则对版本控制机制提出持续挑战。
常用场景
经典使用场景
在斯里兰卡公共政策与法律研究领域,该数据集通过整合议会记录、司法判决与政府公报等权威文献,为政策演变分析提供了系统化支撑。其多语言覆盖与时间跨度特性使研究者能够追踪立法进程、司法实践与行政决策的互动关系,成为南亚地区治理研究的典型范本。
解决学术问题
该数据集有效解决了法律文本挖掘与多语言自然语言处理中的语料稀缺问题。通过提供标准化格式的司法判决与议会辩论记录,支持法律先例分析、政策语义网络构建等研究,为计算法学领域建立了可复用的基准数据,推动法律智能与政策量化分析的方法创新。
衍生相关工作
基于该数据集衍生的经典研究包括多模态法律文档分析框架、低资源语言政策文本分类模型等。这些工作通过融合司法文书结构与多语言特征,发展了面向南亚语系的跨语言法律信息抽取技术,为后续区域特色数据集建设提供了方法论参考。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作