jitkapat/tlc

Name: jitkapat/tlc
Creator: jitkapat
Published: 2024-01-18 11:17:15
License: 暂无描述

Hugging Face2024-01-18 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/jitkapat/tlc

下载链接

链接失效反馈

官方服务：

资源简介：

Thai Literature Corpora (TLC) 是一个包含泰语古典文学文本的语料库，分为两个数据集：TLC集和TNHC集。TLC集来源于Vajirayana Digital Library，包含按章节和诗节存储的文本，未进行分词处理。TNHC集来源于Thai National Historical Corpus，按行存储并手动分词。数据集支持语言建模和语言生成任务，语言为泰语。数据集的创建初衷是为泰国诗歌生成器项目提供数据支持。数据集的结构包括章节编号、章节标题和文本内容，文本内容按诗节和行存储。数据集的创建者包括Jitkapat Sawatphol和Attapol Rutherford。

提供机构：

jitkapat

原始信息汇总

泰国文学语料库 (TLC) 数据集概述

数据集描述

数据集摘要

泰国文学语料库 (TLC) 包含机器可处理的泰国古典文学文本。该数据集由两个子集组成：

TLC 集：来自 Vajirayana 数字图书馆的文本，按章节和诗句存储（未分词）。
- tlc v.2.0 (2019年6月17日，共34个文档，292,270行，31,790,734个字符)
- tlc v.1.0 (2019年6月11日，共25个文档，113,981行，28,775,761个字符)
TNHC 集：来自泰国国家历史语料库的文本，按行存储（手动分词）。
- tnhc v.1.0 (2019年6月25日，共47个文档，756,478行，13,361,142个字符)

支持的任务和排行榜

语言建模
语言生成

语言

泰语

数据集结构

数据实例

json { "ch_num": "๑", "title": "กากี กลอนสุภาพ", "text": [ [ "๏ จักกล่าวอดีตนิทานแต่ปางก่อน ", "เมื่อครั้งองค์สมเด็จพระชินวร ยังสัญจรแสวงหาโพธิญาณ ", "เสวยชาติเป็นสกุณาพระยานก จึงชักเรื่องชาดกมาบรรหาร ", "หวังแสดงแห่งจิตหญิงพาล ให้ชายชาญรู้เชิงกระสัตรี ฯ " ] }

数据字段

ch_num：章节编号，使用泰文数字（๑, ๒, ๓, ๔, ๕, ๖, ๗, ๘, ๙, ๑๐, ...）
title：章节名称
text：每个条目对应一个诗句，每行是一个对联，可以用分隔

数据分割

tlc v.2.0：共34个文档，292,270行，31,790,734个字符
tlc v.1.0：共25个文档，113,981行，28,775,761个字符
tnhc v.1.0：共47个文档，756,478行，13,361,142个字符

数据集创建

策划理由

该数据集最初是为朱拉隆功大学的泰国诗歌生成器项目编制的，作为 2209372 计算语言学导论 课程的最终项目，由 Jitkapat Sawatphol（朱拉隆功大学工程学院）完成。

源数据

初始数据收集和规范化：[更多信息需补充]
源语言生产者：[更多信息需补充]

注释

注释过程：[更多信息需补充]
注释者：[更多信息需补充]

个人和敏感信息

数据集中不包含个人信息。

使用数据的考虑

数据集的社会影响

[更多信息需补充]

偏见的讨论

[更多信息需补充]

其他已知限制

[更多信息需补充]

附加信息

数据集策展人

感谢 Jitkapat Sawatphol（朱拉隆功大学文学院）和 Attapol Rutherford（朱拉隆功大学文学院）。

许可信息

[更多信息需补充]

引用信息

请在使用该数据集时引用以下内容： bibtex @misc{ author={Sawatphol, Jitkapat}, title={Thai Literature Corpora}, year={2019}, howpublished={url{https://attapol.github.io/tlc.html}} }

贡献

感谢 @chameleonTK 添加此数据集。

搜集汇总

数据集介绍

构建方式

在泰语文学计算语言学领域，Thai Literature Corpora（TLC）数据集的构建体现了对古典文献的数字化保存与结构化处理。该数据集主要来源于Vajirayana数字图书馆和泰国国家历史语料库，通过专家生成的方式，将泰语古典文学作品按章节和诗节进行组织。具体而言，TLC版本以非分词形式存储文本，而TNHC版本则经过人工分词处理，确保了数据的原始性与可分析性。构建过程中，数据以文档为单位进行整合，涵盖了从25到47个不等的文献数量，总计超过百万行文本，为泰语语言模型的训练提供了丰富的语料基础。

特点

TLC数据集的特点在于其专注于泰语古典文学，具有高度的领域专一性和文化代表性。数据以结构化格式呈现，每个实例包含章节编号、标题及文本内容，其中文本部分按诗节和行进行分层组织，便于进行细粒度的语言分析。数据集规模适中，涵盖多个版本，如tlcv1.0、tlcv2.0和tnhcv1.0，提供了从非分词到分词的不同处理层次，适应了多样化的研究需求。此外，数据以泰语数字和传统格式存储，保留了原文献的文体特征，为泰语自然语言处理任务如文本生成和掩码语言建模提供了独特资源。

使用方法

在应用层面，TLC数据集适用于泰语语言模型的训练与评估，特别是文本生成和掩码语言建模任务。用户可通过HuggingFace平台直接加载数据集，利用其预定义的数据字段如ch_num、title和text进行模型输入。对于研究泰语古典文学或开发泰语NLP工具，该数据集可作为基础语料库，支持对泰语语法、韵律及文化语境的分析。使用中需注意数据的分割方式，所有版本仅提供训练集，建议结合其他泰语数据集进行验证与测试，以确保模型泛化能力。数据集的非标注性质要求用户根据具体任务自行设计预处理流程。

背景与挑战

背景概述

在自然语言处理领域，低资源语言的文本资源稀缺问题长期制约着相关研究进展。泰语文学语料库（Thai Literature Corpora, TLC）由朱拉隆功大学的Jitkapat Sawatphol与Attapol Rutherford等人于2019年创建，旨在构建一个机器可读的泰语古典文学文本集合。该数据集源自瓦吉拉亚纳数字图书馆和泰国国家历史语料库，核心研究问题聚焦于为泰语古典文学的语言建模与文本生成任务提供高质量数据基础。其出现不仅丰富了泰语自然语言处理资源，也为文化遗产的数字化保存与智能分析开辟了新路径，对低资源语言的信息技术发展具有显著的推动作用。

当前挑战

泰语文学语料库面临的挑战主要体现在领域问题与构建过程两方面。在领域层面，泰语古典文学富含古语、诗歌韵律及复杂句法结构，为语言模型的准确理解与生成带来巨大困难；同时，低资源语言固有的数据稀疏性使得模型训练极易陷入过拟合。构建过程中，原始文献的数字化格式不一，需进行大量清洗与标准化处理；文本的分章、分节及词元切分依赖专家知识，人工标注成本高昂；此外，语料规模相对有限，难以支撑大规模深度学习模型的充分训练，制约了其在更复杂任务上的应用潜力。

常用场景

经典使用场景

在泰语自然语言处理领域，Thai Literature Corpora（TLC）数据集为语言模型训练提供了珍贵的古典文学文本资源。该数据集主要应用于语言建模和文本生成任务，研究人员利用其丰富的章节和诗节结构，构建能够理解和生成泰语古典诗歌的神经网络模型。通过训练，模型能够学习泰语古典文献中的韵律、句法和语义特征，为后续的文学分析和创作奠定基础。

解决学术问题

TLC数据集有效解决了泰语古典文学数字化研究中的语料稀缺问题。在学术层面，该数据集支持对泰语历史语言变迁的量化分析，助力研究者探索古典泰语的语法结构和词汇演变。同时，它为低资源语言的自然语言处理提供了实践案例，推动了跨语言模型在文化遗产保护领域的应用，填补了泰语古典文本机器可读资源的空白。

衍生相关工作

围绕TLC数据集，已衍生出多项经典研究工作，其中最具代表性的是泰语诗歌生成器项目。该项目作为朱拉隆功大学计算语言学课程的最终成果，首次利用该数据集实现了古典泰语诗歌的自动生成。后续研究在此基础上拓展了泰语历史语料库的构建方法，并推动了泰语语言模型在低资源环境下的优化与创新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集