SEACrowd/indo_puisi
收藏Hugging Face2024-06-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/SEACrowd/indo_puisi
下载链接
链接失效反馈官方服务:
资源简介:
Indo Puisi数据集包含7223首印度尼西亚诗歌,每首诗歌都有标题和作者信息。该数据集主要用于自监督预训练任务,支持使用`datasets`和`seacrowd`库进行加载。数据是通过爬取多个网站收集的,语言为印度尼西亚语。
Indo Puisi数据集包含7223首印度尼西亚诗歌,每首诗歌都有标题和作者信息。该数据集主要用于自监督预训练任务,支持使用`datasets`和`seacrowd`库进行加载。数据是通过爬取多个网站收集的,语言为印度尼西亚语。
提供机构:
SEACrowd
原始信息汇总
数据集概述
数据集名称
Indo Puisi
语言
印尼语 (ind)
任务类别
自监督预训练 (Self Supervised Pretraining)
数据集内容
包含7223首印尼诗歌(puisi),每首诗歌附带标题和作者信息。
数据集版本
- 源版本: 1.0.0
- SEACrowd版本: 2024.06.20
数据集许可证
Creative Commons Attribution Share-Alike 4.0 International
引用
如果使用该数据集,请引用以下内容:
@article{lovenia2024seacrowd, title={SEACrowd: A Multilingual Multimodal Data Hub and Benchmark Suite for Southeast Asian Languages}, author={Holy Lovenia and others}, year={2024}, eprint={2406.10118}, journal={arXiv preprint arXiv: 2406.10118} }



