duckaiml/Polylingual_Id
收藏Hugging Face2023-10-12 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/duckaiml/Polylingual_Id
下载链接
链接失效反馈官方服务:
资源简介:
Polylingual Indonesia是一个多样化的数据集,由印度尼西亚语的公开数据和自爬取数据组成。数据来源包括新闻文章、书籍、论坛和故事等。该数据集经过BigScience的特定过滤技术处理,并以JSONL格式压缩存储。数据集的各个文件夹代表不同的数据来源,包括HPLT_filtered、Mc4-und-id和Indonesia-Crawl等。
Polylingual Indonesia is a diverse dataset composed of publicly available and self-crawled Indonesian language data. Its data sources include news articles, books, forums, stories, and more. This dataset has been processed using specific filtering techniques from BigScience, and is stored in compressed JSONL format. The various folders within the dataset represent different data sources, including HPLT_filtered, Mc4-und-id, Indonesia-Crawl, and others.
提供机构:
duckaiml
原始信息汇总
Polylingual Indonesia 数据集概述
描述
Polylingual Indonesia 是一个多样化的数据集,由公开可用的数据和一些自爬取的印度尼西亚语数据组成。数据来源包括新闻文章、书籍、论坛和故事等多种来源。该数据集经过特定的处理和过滤技术。
格式
数据集的原始格式为 JSONL,并使用 zstandard 压缩。
数据集详情
过滤
数据集使用 BigScience 提供的特定过滤器进行过滤。详细信息可在 BigScience Filter 找到。
数据来源
数据来自多个来源,每个文件夹代表原始数据的来源。具体来源如下:
1. HPLT_filtered
- 来源:Internet Archive Snapshot WIDE15 和 WIDE17 以及 CC-MAIN-2022-40
- 链接:HPLT Project
2. Mc4-und-id
- 数据从 MC4(c4-und)的未定义语言部分过滤得到,使用 FastText 和 BigScience 过滤器。
- 样本:MC4 Sample
3. Indonesia-Crawl
该文件夹包含来自多个快照的 Common Crawl 数据集和自爬取数据,专门针对印度尼西亚语。数据分为几个部分:
- Mc4 original(dedup):快照范围从 CC-2013-20 到 CC-2020-34。
- Kopi-CC(dedup):快照范围从 CC-2020-34 到 CC-2023-06。更多详情可在 这里 找到。
- KoPI-CC_News:包含从 2016 年到 2022 年的 Common Crawl 新闻数据集。详细信息可在 这里 找到。
- Self Crawled Data:包括从各种平台爬取的数据,如新闻网站、故事网站、论坛等。
使用
首先安装 zstandard 包。
python from datasets import load_dataset
hplt = load_dataset(duckaiml/Polylingual_Id,hplt) # 仅加载 hplt mc4_und = load_dataset(duckaiml/Polylingual_Id,mc4_und) # 仅加载 mc4_und indonesia_crawl = load_dataset(duckaiml/Polylingual_Id,indonesia_crawl) # 仅加载 indonesia_crawl load_dataset(duckaiml/Polylingual_Id,full) # 加载全部
限制/问题
尽管某些源数据已经单独去重,但整个数据集仍可能存在一些重复。
贡献
欢迎通过添加更多多样化的来源或帮助改进过滤过程来为数据集做出贡献。
许可证
数据收集自公共来源,建议参考原始数据来源的许可和使用限制。



