five

acul3/KoPI-CC_News

收藏
Hugging Face2023-03-03 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/acul3/KoPI-CC_News
下载链接
链接失效反馈
官方服务:
资源简介:
KoPI(Korpus Perayapan Indonesia)-CC_News是一个仅包含印尼语的语料库,提取自2016年至2022年7月的CC NEWS Common Crawl数据,使用了warcio和trafilatura进行提取,并使用fasttext进行过滤。
提供机构:
acul3
原始信息汇总

数据集概述

数据集名称: KoPI(Korpus Perayapan Indonesia)-CC_News
数据集描述: KoPI(Korpus Perayapan Indonesia)-CC_News 是从2016年至2022年7月的CC NEWS Common Crawl中提取的印尼语数据集。数据集的每个快照通过使用warcio、trafilatura和fasttext进行提取和过滤。

数据集属性:

  • 语言: 印尼语(id)
  • 许可证: 知识共享(cc)
  • 数据来源: 原始数据(original)
  • 任务类别: 文本生成(text-generation)
  • 任务ID: 语言建模(language-modeling)
  • 论文代码ID: oscar
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作