斯里兰卡文档数据集

Name: 斯里兰卡文档数据集
Creator: 斯里兰卡
Published: 2025-10-05 17:57:40
License: 暂无描述

arXiv2025-10-05 更新2025-10-08 收录

下载链接：

https://github.com/sltalk

下载链接

链接失效反馈

官方服务：

资源简介：

斯里兰卡文档数据集是一个大规模、多语言的资源，涵盖了议会记录、法律判决、政府出版物、新闻和旅游统计数据。该数据集目前包含215,670个文档，以僧伽罗语、泰米尔语和英语三种语言呈现。数据集每日更新，并在GitHub和Hugging Face上镜像。这些资源旨在支持计算语言学、法律分析、社会政治研究和多语言自然语言处理的研究。数据集的创建过程包括从官方斯里兰卡来源自动发现、摄取、解析、验证和版本化文档。该数据集已作为自然语言处理、计算法和政策研究的宝贵资源。

The Sri Lankan Document Dataset is a large-scale, multilingual resource covering parliamentary proceedings, legal judgments, government publications, news articles, and tourism statistics. Currently, the dataset contains 215,670 documents in three languages: Sinhala, Tamil, and English. It is updated daily and mirrored on both GitHub and Hugging Face. This dataset is designed to support research in computational linguistics, legal analysis, socio-political studies, and multilingual natural language processing. The dataset creation process includes automatically discovering, ingesting, parsing, validating, and versioning documents sourced from official Sri Lankan institutions. This dataset has served as a valuable resource for research in natural language processing, computational law, and policy studies.

提供机构：

斯里兰卡

创建时间：

2025-10-05

搜集汇总

数据集介绍

构建方式

在数字政务信息日益碎片化的背景下，该数据集通过自动化采集流水线整合斯里兰卡13类官方文档资源。采用GitHub Actions构建持续集成框架，通过定时爬虫动态捕获议会记录、司法文书与政府公报等多元来源。原始文档经Selenium驱动的智能解析系统处理，结合PyMuPDF技术实现多语言PDF文本的结构化提取，并通过内容哈希校验机制确保数据增量更新的完整性与可追溯性。

特点

作为南亚地区首个大规模多语言政务数据集，其核心价值体现在三语并行架构与时空连续性。涵盖辛哈拉语、泰米尔语与英语的21万余文档，形成跨越数十年的法律政策演变图谱。数据特征呈现多维交织性：司法文书蕴含严谨的法理逻辑，新闻数据反映社会动态，旅游统计则揭示经济发展轨迹。这种跨领域的语义关联为比较研究提供了天然实验场，特别是对低资源语言的自然语言处理模型训练具有特殊意义。

使用方法

研究者可通过GitHub或Hugging Face平台直接访问版本化数据集，利用标准化JSON元数据快速定位目标文档。应用场景涵盖计算语言学领域的多语言模型微调，法律智能领域的判例分析，以及政策科学的纵向研究。数据使用需遵循MIT开源协议，建议结合文档时间戳与语言标签构建分析维度，对于司法文本可重点关注判决书中的法律引证网络，新闻数据则适宜运用主题建模追踪公共议题演变轨迹。

背景与挑战

背景概述

斯里兰卡文档数据集由独立研究员Nuwan I. Senaratna于2025年创建，旨在整合该国分散在政府与民间渠道的法律、新闻及政策文献。该资源涵盖议会记录、司法判决、政府公报等13类文档，以僧伽罗语、泰米尔语和英语构建了21.5万份结构化数据。作为南亚地区首个大规模多语言公共文档库，它显著推动了计算语言学、法律分析与数字人文研究在资源匮乏语境下的发展，为透明化治理与学术探索提供了可持续的数据基础。

当前挑战

该数据集致力于解决多语言法律与政策文档的机器可读性难题，其核心挑战在于异构数据源的标准化处理。原始文档多为非结构化PDF或动态网页，需通过动态渲染与布局解析技术提取文本，同时面临僧伽罗语、泰米尔语复杂书写系统的分词精度问题。构建过程中需克服政府网站访问延迟、多源数据时序对齐等工程障碍，并通过增量更新机制确保数据鲜活性与版本溯源的严谨性。

常用场景

经典使用场景

在计算语言学和数字人文研究领域，斯里兰卡文档数据集作为多语言资源库，常被用于构建法律文本分析模型与跨语言信息检索系统。其整合的议会记录、司法判决与政府公报，为研究者提供了分析南亚地区语言特征与政策演变的标准化语料。

实际应用

在实际应用层面，该数据集支撑着政策分析平台与司法智能系统的开发。政府部门借助其进行立法影响评估，媒体机构利用新闻文档监测舆情动态，旅游统计报告则为区域经济研究提供数据溯源。

衍生相关工作

基于该数据集衍生的经典研究包括跨语言法律判决预测模型、多模态政府文档解析框架等。这些工作借鉴了印度Kanoon法律语料库的技术路径，进一步推动了南亚地区数字治理研究范式的创新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集