duckaiml/Polylingual_Id

Name: duckaiml/Polylingual_Id
Creator: duckaiml
Published: 2023-10-12 16:58:37
License: 暂无描述

Hugging Face2023-10-12 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/duckaiml/Polylingual_Id

下载链接

链接失效反馈

官方服务：

资源简介：

Polylingual Indonesia是一个多样化的数据集，由印度尼西亚语的公开数据和自爬取数据组成。数据来源包括新闻文章、书籍、论坛和故事等。该数据集经过BigScience的特定过滤技术处理，并以JSONL格式压缩存储。数据集的各个文件夹代表不同的数据来源，包括HPLT_filtered、Mc4-und-id和Indonesia-Crawl等。

Polylingual Indonesia is a diverse dataset composed of publicly available and self-crawled Indonesian language data. Its data sources include news articles, books, forums, stories, and more. This dataset has been processed using specific filtering techniques from BigScience, and is stored in compressed JSONL format. The various folders within the dataset represent different data sources, including HPLT_filtered, Mc4-und-id, Indonesia-Crawl, and others.

提供机构：

duckaiml

原始信息汇总

Polylingual Indonesia 数据集概述

描述

Polylingual Indonesia 是一个多样化的数据集，由公开可用的数据和一些自爬取的印度尼西亚语数据组成。数据来源包括新闻文章、书籍、论坛和故事等多种来源。该数据集经过特定的处理和过滤技术。

格式

数据集的原始格式为 JSONL，并使用 zstandard 压缩。

数据集详情

过滤

数据集使用 BigScience 提供的特定过滤器进行过滤。详细信息可在 BigScience Filter 找到。

数据来源

数据来自多个来源，每个文件夹代表原始数据的来源。具体来源如下：

1. HPLT_filtered

来源：Internet Archive Snapshot WIDE15 和 WIDE17 以及 CC-MAIN-2022-40
链接：HPLT Project

2. Mc4-und-id

数据从 MC4（c4-und）的未定义语言部分过滤得到，使用 FastText 和 BigScience 过滤器。
样本：MC4 Sample

3. Indonesia-Crawl

该文件夹包含来自多个快照的 Common Crawl 数据集和自爬取数据，专门针对印度尼西亚语。数据分为几个部分：

Mc4 original(dedup)：快照范围从 CC-2013-20 到 CC-2020-34。
Kopi-CC(dedup)：快照范围从 CC-2020-34 到 CC-2023-06。更多详情可在这里找到。
KoPI-CC_News：包含从 2016 年到 2022 年的 Common Crawl 新闻数据集。详细信息可在这里找到。
Self Crawled Data：包括从各种平台爬取的数据，如新闻网站、故事网站、论坛等。

使用

首先安装 zstandard 包。

python from datasets import load_dataset

hplt = load_dataset(duckaiml/Polylingual_Id,hplt) # 仅加载 hplt mc4_und = load_dataset(duckaiml/Polylingual_Id,mc4_und) # 仅加载 mc4_und indonesia_crawl = load_dataset(duckaiml/Polylingual_Id,indonesia_crawl) # 仅加载 indonesia_crawl load_dataset(duckaiml/Polylingual_Id,full) # 加载全部

限制/问题

尽管某些源数据已经单独去重，但整个数据集仍可能存在一些重复。

贡献

欢迎通过添加更多多样化的来源或帮助改进过滤过程来为数据集做出贡献。

许可证

数据收集自公共来源，建议参考原始数据来源的许可和使用限制。

5,000+

优质数据集

54 个

任务类型

进入经典数据集