Thai TNHC2 Books
收藏Mendeley Data2024-05-10 更新2024-06-28 收录
下载链接:
https://zenodo.org/records/10783421
下载链接
链接失效反馈官方服务:
资源简介:
This dataset collect all books from TNHC2 corpus. We clean the dataset to use text to pretraining model and nlp task. All books: 353 books License: CC-0 TNHC2 Dataset (Original) have many a lots of details (chapter, author's detail and more). The dataset is clean to pretraining model and nlp task. TNHC2 Dataset (Original): https://www.arts.chula.ac.th/chulaseal/tnhc2/ Files thai-tnhc2-books.csv: Dataset clean.ipynb: Clean dataset notebook (making dataset) Cite พิทยาวัฒน์ พิทยาภรณ์, มณฑล กาญจโนฬาร, สัณห์ธวัช ธัญวงษ์ และกานต์วิรุช นุชประหาร. (2566). ชุดข้อมูล TNHC2. สืบค้นเมื่อ วัน 6 มีนาคม 2567 จาก https://www.arts.chula.ac.th/chulaseal/tnhc2/
创建时间:
2024-03-08



