five

SEACrowd/indo_puisi

收藏
Hugging Face2024-06-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/SEACrowd/indo_puisi
下载链接
链接失效反馈
官方服务:
资源简介:
Indo Puisi数据集包含7223首印度尼西亚诗歌,每首诗歌都有标题和作者信息。该数据集主要用于自监督预训练任务,支持使用`datasets`和`seacrowd`库进行加载。数据是通过爬取多个网站收集的,语言为印度尼西亚语。

Indo Puisi数据集包含7223首印度尼西亚诗歌,每首诗歌都有标题和作者信息。该数据集主要用于自监督预训练任务,支持使用`datasets`和`seacrowd`库进行加载。数据是通过爬取多个网站收集的,语言为印度尼西亚语。
提供机构:
SEACrowd
原始信息汇总

数据集概述

数据集名称

Indo Puisi

语言

印尼语 (ind)

任务类别

自监督预训练 (Self Supervised Pretraining)

数据集内容

包含7223首印尼诗歌(puisi),每首诗歌附带标题和作者信息。

数据集版本

  • 源版本: 1.0.0
  • SEACrowd版本: 2024.06.20

数据集许可证

Creative Commons Attribution Share-Alike 4.0 International

引用

如果使用该数据集,请引用以下内容:

@article{lovenia2024seacrowd, title={SEACrowd: A Multilingual Multimodal Data Hub and Benchmark Suite for Southeast Asian Languages}, author={Holy Lovenia and others}, year={2024}, eprint={2406.10118}, journal={arXiv preprint arXiv: 2406.10118} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作