jitkapat/tlc
收藏泰国文学语料库 (TLC) 数据集概述
数据集描述
数据集摘要
泰国文学语料库 (TLC) 包含机器可处理的泰国古典文学文本。该数据集由两个子集组成:
-
TLC 集:来自 Vajirayana 数字图书馆 的文本,按章节和诗句存储(未分词)。
- tlc v.2.0 (2019年6月17日,共34个文档,292,270行,31,790,734个字符)
- tlc v.1.0 (2019年6月11日,共25个文档,113,981行,28,775,761个字符)
-
TNHC 集:来自泰国国家历史语料库的文本,按行存储(手动分词)。
- tnhc v.1.0 (2019年6月25日,共47个文档,756,478行,13,361,142个字符)
支持的任务和排行榜
- 语言建模
- 语言生成
语言
- 泰语
数据集结构
数据实例
json { "ch_num": "๑", "title": "กากี กลอนสุภาพ", "text": [ [ "๏ จักกล่าวอดีตนิทานแต่ปางก่อน ", "เมื่อครั้งองค์สมเด็จพระชินวร ยังสัญจรแสวงหาโพธิญาณ ", "เสวยชาติเป็นสกุณาพระยานก จึงชักเรื่องชาดกมาบรรหาร ", "หวังแสดงแห่งจิตหญิงพาล ให้ชายชาญรู้เชิงกระสัตรี ฯ " ] }
数据字段
ch_num:章节编号,使用泰文数字(๑, ๒, ๓, ๔, ๕, ๖, ๗, ๘, ๙, ๑๐, ...)title:章节名称text:每个条目对应一个诗句,每行是一个对联,可以用分隔
数据分割
- tlc v.2.0:共34个文档,292,270行,31,790,734个字符
- tlc v.1.0:共25个文档,113,981行,28,775,761个字符
- tnhc v.1.0:共47个文档,756,478行,13,361,142个字符
数据集创建
策划理由
该数据集最初是为朱拉隆功大学的 泰国诗歌生成器 项目编制的,作为 2209372 计算语言学导论 课程的最终项目,由 Jitkapat Sawatphol(朱拉隆功大学工程学院)完成。
源数据
- 初始数据收集和规范化:[更多信息需补充]
- 源语言生产者:[更多信息需补充]
注释
- 注释过程:[更多信息需补充]
- 注释者:[更多信息需补充]
个人和敏感信息
数据集中不包含个人信息。
使用数据的考虑
数据集的社会影响
- [更多信息需补充]
偏见的讨论
- [更多信息需补充]
其他已知限制
- [更多信息需补充]
附加信息
数据集策展人
感谢 Jitkapat Sawatphol(朱拉隆功大学文学院)和 Attapol Rutherford(朱拉隆功大学文学院)。
许可信息
- [更多信息需补充]
引用信息
请在使用该数据集时引用以下内容: bibtex @misc{ author={Sawatphol, Jitkapat}, title={Thai Literature Corpora}, year={2019}, howpublished={url{https://attapol.github.io/tlc.html}} }
贡献
感谢 @chameleonTK 添加此数据集。




