Thai TNHC2 Books
收藏NIAID Data Ecosystem2026-05-01 收录
下载链接:
https://zenodo.org/record/10783291
下载链接
链接失效反馈官方服务:
资源简介:
This dataset collect all books from TNHC2 corpus.We clean the dataset to use text to pretraining model and nlp task.
All books: 353 books
License: CC-0
TNHC2 Dataset (Original) have many a lots of details (chapter, author's detail and more). The dataset is clean to pretraining model and nlp task.
TNHC2 Dataset (Original): https://www.arts.chula.ac.th/chulaseal/tnhc2/
Files
thai-tnhc2-books.csv: Dataset
clean.ipynb: Clean dataset notebook (making dataset)
Cite
พิทยาวัฒน์ พิทยาภรณ์, มณฑล กาญจโนฬาร, สัณห์ธวัช ธัญวงษ์ และกานต์วิรุช นุชประหาร. (2566). ชุดข้อมูล TNHC2. สืบค้นเมื่อ วัน 6 มีนาคม 2567 จาก https://www.arts.chula.ac.th/chulaseal/tnhc2/
本数据集收录了TNHC2语料库(TNHC2 corpus)中的全部图书文本。为适配文本预训练模型与自然语言处理(Natural Language Processing,NLP)任务的使用需求,我们对该数据集进行了清洗处理。
图书总量:353本
许可证:CC0
原始TNHC2数据集包含大量细节(如章节信息、作者详情等),本次清洗后的数据集专为预训练模型与NLP任务优化。
原始TNHC2数据集访问链接:https://www.arts.chula.ac.th/chulaseal/tnhc2/
文件列表:
thai-tnhc2-books.csv:数据集本体
clean.ipynb:数据集清洗脚本(用于生成本数据集的Notebook文件)
引用信息:
พิทยาวัฒน์ พิทยาภรณ์, มณฑล กาญจโนฬาร, สัณห์ธวัช ธัญวงษ์ และกานต์วิรุช นุชประหาร. (2566). 数据集TNHC2. 检索日期:2567年3月6日,来源:https://www.arts.chula.ac.th/chulaseal/tnhc2/
创建时间:
2024-03-12



