five

Bahasalab/KoPI

收藏
Hugging Face2023-09-22 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/Bahasalab/KoPI
下载链接
链接失效反馈
官方服务:
资源简介:
KoPI(Korpus Perayapan Indonesia)是印度尼西亚的通用语料库,用于序列语言建模。其子集包括KoPI-CC、KoPI-CC-NEWS、KoPI-Mc4、KoPI-Wiki、KoPI-Leipzig、KoPI-Paper和KoPI-Books。
提供机构:
Bahasalab
原始信息汇总

数据集概述

基本信息

  • 数据集名称: KoPI (Korpus Perayapan Indonesia)
  • 语言: 印度尼西亚语
  • 许可证: CC
  • 多语言性: 单语种
  • 源数据集: 原始数据
  • 任务类别: 文本生成
  • 任务ID: 语言建模
  • Papers with Code ID: oscar

子集

  • KoPI-CC
  • KoPI-CC-NEWS
  • KoPI-Mc4
  • KoPI-Wiki
  • KoPI-Leipzig
  • KoPI-Paper
  • KoPI-Books

使用方法

python from datasets import load_dataset

tiny = load_dataset(acul3/KoPI,tiny) # 加载10个文件

small = load_dataset(acul3/KoPI,small) # 加载30个文件

medium = load_dataset(acul3/KoPI,medium) # 加载55个文件

large = load_dataset(acul3/KoPI,large) # 加载75个文件

full = load_dataset(acul3/KoPI,full) # 加载107个文件(所有文件)

输出数据集结构

python DatasetDict({ train: Dataset({ features: [text, url, timestamp, meta], num_rows: 2000000 }) validation: Dataset({ features: [text, url, timestamp, meta], num_rows: 200000 }) })

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作