five

DamarJati/indocorpus-mix

收藏
Hugging Face2024-02-12 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/DamarJati/indocorpus-mix
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含来自印度尼西亚教育部和文化部提供的印度尼西亚语语料库,涵盖社会、健康、文学、观点、体育、文化等多个研究领域的句子格式文本。数据集适用于自然语言处理、文本分析、文本分类等需要印度尼西亚语文本数据的研究和开发工作。

该数据集包含来自印度尼西亚教育部和文化部提供的印度尼西亚语语料库,涵盖社会、健康、文学、观点、体育、文化等多个研究领域的句子格式文本。数据集适用于自然语言处理、文本分析、文本分类等需要印度尼西亚语文本数据的研究和开发工作。
提供机构:
DamarJati
原始信息汇总

印度尼西亚语语料库

描述

该数据集包含从印度尼西亚教育与文化部提供的印度尼西亚语料库中提取的印度尼西亚语语料。语料库是涵盖社会、健康、文学、观点、体育、文化等多个领域的句子格式文本集合。

内容

数据集由根据特定学科或主题分组的印度尼西亚语文本组成。每个文本是从上述提供者收集的句子集合。

用途

该数据集可用于自然语言处理(NLP)、文本分析、文本分类以及其他需要印度尼西亚语文本数据的研究和开发目的。

许可证

数据集来自印度尼西亚语料库,由印度尼西亚教育与文化部提供。请确保查阅并遵守原始来源的适用许可条款。

参考

更多关于印度尼西亚语料库的信息,请访问https://korpusindonesia.kemdikbud.go.id/

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作