acul3/KoPI-CC_News
收藏Hugging Face2023-03-03 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/acul3/KoPI-CC_News
下载链接
链接失效反馈官方服务:
资源简介:
KoPI(Korpus Perayapan Indonesia)-CC_News是一个仅包含印尼语的语料库,提取自2016年至2022年7月的CC NEWS Common Crawl数据,使用了warcio和trafilatura进行提取,并使用fasttext进行过滤。
提供机构:
acul3
原始信息汇总
数据集概述
数据集名称: KoPI(Korpus Perayapan Indonesia)-CC_News
数据集描述: KoPI(Korpus Perayapan Indonesia)-CC_News 是从2016年至2022年7月的CC NEWS Common Crawl中提取的印尼语数据集。数据集的每个快照通过使用warcio、trafilatura和fasttext进行提取和过滤。
数据集属性:
- 语言: 印尼语(id)
- 许可证: 知识共享(cc)
- 数据来源: 原始数据(original)
- 任务类别: 文本生成(text-generation)
- 任务ID: 语言建模(language-modeling)
- 论文代码ID: oscar



