Bahasalab/KoPI
收藏Hugging Face2023-09-22 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/Bahasalab/KoPI
下载链接
链接失效反馈官方服务:
资源简介:
KoPI(Korpus Perayapan Indonesia)是印度尼西亚的通用语料库,用于序列语言建模。其子集包括KoPI-CC、KoPI-CC-NEWS、KoPI-Mc4、KoPI-Wiki、KoPI-Leipzig、KoPI-Paper和KoPI-Books。
提供机构:
Bahasalab
原始信息汇总
数据集概述
基本信息
- 数据集名称: KoPI (Korpus Perayapan Indonesia)
- 语言: 印度尼西亚语
- 许可证: CC
- 多语言性: 单语种
- 源数据集: 原始数据
- 任务类别: 文本生成
- 任务ID: 语言建模
- Papers with Code ID: oscar
子集
- KoPI-CC
- KoPI-CC-NEWS
- KoPI-Mc4
- KoPI-Wiki
- KoPI-Leipzig
- KoPI-Paper
- KoPI-Books
使用方法
python from datasets import load_dataset
tiny = load_dataset(acul3/KoPI,tiny) # 加载10个文件
small = load_dataset(acul3/KoPI,small) # 加载30个文件
medium = load_dataset(acul3/KoPI,medium) # 加载55个文件
large = load_dataset(acul3/KoPI,large) # 加载75个文件
full = load_dataset(acul3/KoPI,full) # 加载107个文件(所有文件)
输出数据集结构
python DatasetDict({ train: Dataset({ features: [text, url, timestamp, meta], num_rows: 2000000 }) validation: Dataset({ features: [text, url, timestamp, meta], num_rows: 200000 }) })



