Bahasalab/KoPI

Name: Bahasalab/KoPI
Creator: Bahasalab
Published: 2023-09-22 12:06:08
License: 暂无描述

Hugging Face2023-09-22 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/Bahasalab/KoPI

下载链接

链接失效反馈

官方服务：

资源简介：

KoPI（Korpus Perayapan Indonesia）是印度尼西亚的通用语料库，用于序列语言建模。其子集包括KoPI-CC、KoPI-CC-NEWS、KoPI-Mc4、KoPI-Wiki、KoPI-Leipzig、KoPI-Paper和KoPI-Books。

提供机构：

Bahasalab

原始信息汇总

数据集概述

基本信息

数据集名称: KoPI (Korpus Perayapan Indonesia)
语言: 印度尼西亚语
许可证: CC
多语言性: 单语种
源数据集: 原始数据
任务类别: 文本生成
任务ID: 语言建模
Papers with Code ID: oscar

子集

KoPI-CC
KoPI-CC-NEWS
KoPI-Mc4
KoPI-Wiki
KoPI-Leipzig
KoPI-Paper
KoPI-Books

使用方法

python from datasets import load_dataset

tiny = load_dataset(acul3/KoPI,tiny) # 加载10个文件

small = load_dataset(acul3/KoPI,small) # 加载30个文件

medium = load_dataset(acul3/KoPI,medium) # 加载55个文件

large = load_dataset(acul3/KoPI,large) # 加载75个文件

full = load_dataset(acul3/KoPI,full) # 加载107个文件（所有文件）

输出数据集结构

python DatasetDict({ train: Dataset({ features: [text, url, timestamp, meta], num_rows: 2000000 }) validation: Dataset({ features: [text, url, timestamp, meta], num_rows: 200000 }) })

5,000+

优质数据集

54 个

任务类型

进入经典数据集