five

SiDiaC

收藏
arXiv2025-09-22 更新2025-11-21 收录
下载链接:
https://github.com/NeviduJ/SiDiaC
下载链接
链接失效反馈
官方服务:
资源简介:
SiDiaC 是第一个全面的僧伽罗语历史语料库,涵盖了从公元前5世纪到20世纪的广阔历史时期。该语料库包含58,000个词汇,跨越46部文学作品,并根据文本的撰写日期进行了仔细的注释。文本来自斯里兰卡国家图书馆,使用Google Document AI OCR进行数字化,随后进行后处理以纠正格式并使正字法现代化。SiDiaC 的构建受到了其他语料库实践的影响,特别是在句法注释和文本规范化策略方面,这些语料库具有低资源语言状态的共同特征。这个语料库根据体裁分为两个层次:初级和次级。初级分类是二元的,将每本书分为非小说或小说,而次级分类更为具体,将文本分组在宗教、历史、诗歌、语言和医学体裁下。尽管面临着对稀有文本的有限访问和依赖二级日期来源的挑战,但 SiDiaC 仍然是僧伽罗语自然语言处理的基础资源,显著扩展了僧伽罗语的可用资源,使词汇变化、新词跟踪、历史句法以及基于语料库的研究成为可能。

SiDiaC is the first comprehensive historical corpus of Sinhala, covering a broad historical span from the 5th century BCE to the 20th century. It contains 58,000 lexical items across 46 literary works, with meticulous annotations based on the original composition dates of each text. The source texts were retrieved from the National Library of Sri Lanka, digitized using Google Document AI OCR, and then subjected to post-processing to rectify formatting inconsistencies and modernize orthographic conventions. The construction of SiDiaC was informed by established practices from other corpora—particularly those tailored for low-resource languages—specifically in the domains of syntactic annotation and text normalization strategies. This corpus is categorized into two hierarchical tiers by genre: primary and secondary. The primary tier adopts a binary classification scheme, dividing each work into either non-fiction or fiction, while the secondary tier provides more granular categorization, grouping texts under the genres of religious, historical, poetic, linguistic, and medical works. Despite challenges including limited access to rare texts and reliance on secondary date sources, SiDiaC stands as a foundational resource for Sinhala natural language processing (NLP). It has markedly expanded the available linguistic resources for Sinhala, enabling research on lexical variation, new word tracking, historical syntax, and corpus-based studies.
提供机构:
斯里兰卡莫拉图瓦大学计算机科学与工程学院
创建时间:
2025-09-22
搜集汇总
数据集介绍
main_image_url
构建方式
在低资源语言研究领域,SiDiaC语料库的构建体现了系统化的数据采集策略。研究团队以斯里兰卡国家图书馆数字典藏为核心数据源,通过严谨的文献筛选流程,从233部原始文献中精选46部符合版权规范的作品。文本数字化过程采用Google Document AI OCR引擎进行字符识别,辅以人工校对的后处理流程,重点修正了多栏文本解析、间距异常和格式错位等技术难题。在历时标注方面,依托权威文献学著作《Sinhala Sahithya Wanshaya》建立时间锚点,确保语料时间跨度从公元5世纪延续至20世纪的科学性。
特点
该语料库最显著的特征在于其历时维度与分类体系的有机结合。58,027词规模的语料覆盖了长达十五个世纪的语言演变轨迹,呈现出独特的双层级分类架构:基础层级区分虚构与非虚构文本,细化层级则划分为宗教、历史、诗歌、语言与医学五大文类。特别值得注意的是,OCR引擎在字符识别过程中同步实现了文本现代化与语素切分功能,有效解决了历史文献中字符编码差异和复合词处理难题。语料构成中虽包含少量巴利语、梵语代码混合现象,但完整保留了原始文本的语境完整性。
使用方法
研究者可通过分层检索机制挖掘该语料库的学术价值。每个文献单元均配备标准化元数据文件,包含双语题名、作者信息、文类标签和时间标注等结构化字段。基于历时对比的研究路径,支持词汇语义演变、新词涌现规律和历史句法特征的追踪分析。针对特定文类的聚焦研究,可利用二级分类标签进行垂直领域的深度探索。语料预处理阶段已完成的文本现代化处理,为基于现代辛哈拉语的NLP工具链提供了良好的兼容性,显著降低了历时语言研究的计算门槛。
背景与挑战
背景概述
僧伽罗历时语料库SiDiaC由斯里兰卡莫拉图瓦大学计算机科学与工程系的研究团队于2025年创建,标志着首部系统覆盖公元5世纪至20世纪的僧伽罗历史文本资源。该语料库整合了46部文学作品中的5.8万词条,通过严谨的文献筛选与光学字符识别技术,构建了涵盖宗教、历史、诗歌等多元体裁的历时语言档案。作为低资源语言研究的重要突破,SiDiaC为僧伽罗语的历史语法演变、词汇语义变迁及词典编纂提供了关键数据支撑,填补了南亚语言历时研究的空白。
当前挑战
在构建过程中,团队面临历史文献稀缺性与版权合规的双重挑战:稀有文本的物理保存状态限制了数字化进程,而斯里兰卡知识产权法规定的70年著作权保护期导致大量近现代文献无法收录。针对历时语言分析的核心难题,语料库需解决字符形态历时演变带来的OCR识别误差,例如古僧伽罗文字符向现代unicode的映射偏差。此外,注释体系依赖单一文献《僧伽罗文学史》确定创作年代,存在史料交叉验证不足的风险,且文本中混杂的巴利语、梵语代码转换现象增加了语言纯净度维护的复杂度。
常用场景
经典使用场景
在历史语言学研究中,SiDiaC数据集为僧伽罗语的历时演变分析提供了关键支撑。该数据集覆盖了从公元5世纪到20世纪的文本材料,使研究者能够系统追踪词汇语义的历时变化轨迹,特别是针对佛教文献中高频词汇的语义漂移现象。通过分析不同世纪文本中词汇分布特征,学者们能够揭示僧伽罗语在漫长历史进程中的语法结构演化规律,为印欧语系语言演变研究提供了珍贵的低资源语言案例。
解决学术问题
该数据集有效解决了低资源语言历时研究中的语料匮乏难题,为僧伽罗语历史语法研究提供了标准化数据基础。通过精确的年代标注和文体分类,研究者能够深入探究新词产生机制、历史句法演变路径以及基于语料库的词典编纂方法。特别在语义变化研究领域,数据集支持对文化驱动型词义转移与技术相关新词涌现的量化分析,填补了南亚语言历时研究的空白。
衍生相关工作
基于SiDiaC的构建方法论,研究者已开发出多个低资源语言历时语料库。其文本现代化处理策略被借鉴于泰米尔语历史文献的数字化项目,而双层文体分类体系则启发了孟加拉语历时语料库的构建。在技术层面,该数据集推动了对历史文本OCR错误的系统分类研究,催生了针对古僧伽罗文字符的深度学习识别模型,为低资源语言计算语言学开辟了新方向。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作