SiDiaC-v.2.0

Name: SiDiaC-v.2.0
Creator: 莫拉图瓦大学·计算机科学与工程系; 信息技术研究院·研究部
Published: 2026-03-11 23:10:32
License: 暂无描述

arXiv2026-03-11 更新2026-03-13 收录

下载链接：

https://github.com/NeviduJ/SiDiaC-v.2.0

下载链接

链接失效反馈

官方服务：

资源简介：

SiDiaC-v.2.0是当前最大的僧伽罗语历时语料库，由斯里兰卡莫拉图瓦大学和信息技术研究院联合构建，覆盖公元5世纪至20世纪的文献。该语料库包含18.5万部文学作品共计24.1万词项，数据源自斯里兰卡国家图书馆的扫描文献，经谷歌Document AI OCR数字化后，通过多阶段处理流程解决格式错误、混合编码等问题。语料库采用双层分类体系，按虚构/非虚构进行主分类，并细分为宗教、历史等次级类别，为低资源语言僧伽罗语的历时语言演变研究及NLP任务提供重要资源。

SiDiaC-v.2.0 is the largest existing diachronic Sinhala corpus to date. It was jointly constructed by the University of Moratuwa and the Institute of Information Technology, Sri Lanka, covering documents spanning from the 5th century CE to the 20th century. This corpus includes 185,000 literary works with a total of 241,000 lexical items. The source data is derived from scanned documents held by the National Library of Sri Lanka, which were first digitized using Google Document AI OCR and then processed via a multi-stage workflow to address formatting errors, mixed encoding and other issues. The corpus adopts a two-tier classification system: it is primarily categorized into fictional and non-fictional works, with further subdivisions into secondary categories including religion, history and more. It serves as a critical resource for diachronic language evolution research and natural language processing (NLP) tasks targeting the low-resource language Sinhala.

提供机构：

莫拉图瓦大学·计算机科学与工程系; 信息技术研究院·研究部

创建时间：

2026-03-11

原始信息汇总

SiDiaC-v.2.0: Sinhala Diachronic Corpus Version 2.0 数据集概述

数据集简介

SiDiaC-v.2.0 是一个经过整理的僧伽罗语历时语料库，包含僧伽罗语文学文本及相关资源。该数据集为每部作品提供了光学字符识别（OCR）输出和基本元数据。

核心内容

数据构成：包含僧伽罗语文学文本的原始PDF文件、最终OCR文本以及每部作品的机器可读元数据文件。
资源类型：文学文本、OCR输出、元数据。

数据结构

Books_PDF/目录：存放每部作品的原始源PDF文件。
OCR_Final/目录：存放每部作品的最终OCR结果，每个子目录包含：
- metadata.json：包含基本的书目和处理元数据。
- <title>.txt：通过OCR提取的纯文本内容。

元数据示例

元数据文件（metadata.json）包含以下字段：

title：作品标题（僧伽罗语）。
title_en：作品英文标题。
author：作者（僧伽罗语）。
author_en：作者英文名。
genre：体裁/分类。
issued_date：发行/出版日期。
written_date：写作日期范围。
ocr_confidence：OCR过程产生的启发式置信度分数。

重要说明

文件名和目录名可能包含僧伽罗语字符。
ocr_confidence是OCR过程的启发式评分，可能因作品而异。

搜集汇总

数据集介绍

构建方式

在历史语言学领域，构建历时语料库需兼顾文本的历时覆盖与语言变体的系统性呈现。SiDiaC-v.2.0的构建过程始于对斯里兰卡国家图书馆藏书的系统筛选，从SiDiaC-v.1.0的初始书目列表中甄选出233部文学作品，并经过严格的版权合规性审查与语言过滤，最终保留了185部符合要求的辛哈拉语文本。文本数字化环节采用了Google Document AI OCR技术，以实现对历史文献的高精度字符识别；后续通过多层次后处理流程，纠正了格式错误、处理了代码混合现象，并引入了特殊标记以标注句子边界与诗歌韵律结构。整个构建流程借鉴了FarPaHC、CCOHA等语料库的句法标注与文本规范化策略，确保了语料库在低资源语言处理中的科学性与可用性。

特点

作为迄今规模最大的辛哈拉语历时语料库，SiDiaC-v.2.0涵盖了从公元5世纪至20世纪的书写时间跨度，以及1800年至1955年的出版时间范围，包含24.1万词规模的文本数据。该语料库的显著特点在于其双层体裁分类体系：一级分类将文本划分为虚构与非虚构作品，二级分类则细分为宗教、历史、诗歌、语言与医学等具体文类。语料库特别引入了句子结束标记<eos>与诗歌后缀指示标记<psi>，以支持句子级别的历时分析与诗歌结构的保留。此外，语料库还提供了包含书写日期、OCR置信度等丰富元数据的JSON文件，为历时语言变化研究提供了结构化的数据基础。

使用方法

SiDiaC-v.2.0适用于辛哈拉语历时语言学与自然语言处理的多类研究任务。研究者可利用其时间分层数据，开展词汇语义演变、句法结构变迁及语体风格演化的定量分析；通过语料库内置的句子边界标记，可便捷地进行句子级别的历时对比研究。在低资源语言处理领域，该语料库可作为训练历时语言模型、开发词性标注工具的基础数据资源。使用时应结合元数据中的体裁分类与时间标注，进行特定文类或历史时期的聚焦分析；同时需注意语料库中诗歌文本的特殊标记处理，以确保语言单位分析的准确性。

背景与挑战

背景概述

SiDiaC-v.2.0（僧伽罗历时语料库版本2.0）是迄今为止规模最大的僧伽罗历时语料库，由斯里兰卡莫拉图瓦大学与信息技术研究所的研究团队于2026年构建。该语料库旨在支持僧伽罗语这一低资源语言的历时语言学与自然语言处理研究，覆盖了从公元5世纪至20世纪的文本历史跨度，包含185部文学作品共计24.1万词。其核心研究问题聚焦于僧伽罗语在漫长历史演变中的词汇、句法与语义变化，通过系统化的文本数字化、后处理与元数据标注，为语言变迁分析提供了关键数据基础。该数据集的发布显著填补了南亚低资源语言历时研究的空白，对历史语言学、数字人文及跨文化比较研究产生了深远影响。

当前挑战

SiDiaC-v.2.0面临的挑战主要体现在领域问题与构建过程两方面。在领域层面，该数据集致力于解决低资源语言历时分析的难题，包括僧伽罗语历史文本的稀缺性、语言变体的复杂性以及缺乏标准化标注工具等问题。构建过程中的挑战尤为突出：首先，历史文本的数字化依赖OCR技术，但手稿质量参差不齐导致字符识别错误频发，需大量人工校正；其次，文本中混杂的梵语、巴利语及英语内容增加了语言纯化难度，需设计精细的过滤规则；此外，历史著作的创作年代难以精确考证，部分文本依赖单一文献来源，影响了时间标注的可靠性；最后，诗歌文本中的韵律分隔与多栏排版等特殊格式，对文本结构化处理提出了额外要求。

常用场景

经典使用场景

在历史语言学与计算语言学领域，SiDiaC-v.2.0作为僧伽罗语历时语料库，其经典应用场景聚焦于语言演变的量化分析。研究者通过该语料库追踪词汇语义、句法结构及语用模式在长达数个世纪中的动态变迁，尤其关注从5世纪到20世纪期间僧伽罗语的形态与语义漂移。语料库的历时分层设计使得学者能够执行跨世纪的对比研究，例如通过词袋模型分析特定词汇的共现网络演变，从而揭示语言变化的内在规律与外部动因。

解决学术问题

该数据集有效解决了低资源语言历时研究中数据稀缺的核心难题，为僧伽罗语提供了首个大规模、经严格清洗与标注的历时文本资源。它使得学者能够实证考察语言接触、社会文化变迁对语言结构的影响，并支持词汇语义变化、语法化过程及语体演变等经典语言学问题的量化探索。此外，语料库的体裁分类与时间标注为历时语料库的构建方法学提供了重要参考，推动了低资源语言计算语言学方法的发展。

衍生相关工作

SiDiaC-v.2.0的构建借鉴并发展了多个历时语料库项目的经验，特别是COHA的体裁平衡策略、CCOHA的清洗流程以及FarPaHC的低资源语言处理思路。其衍生工作包括基于该语料库的僧伽罗语历时词义消歧、历史文本风格分析以及低资源语言OCR后处理优化等研究。这些工作进一步丰富了低资源历时语言资源的生态系统，并为类似语言的语料库建设提供了可复用的方法论框架。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集