Artikel

github2024-05-16 更新2024-05-31 收录

下载链接：

https://github.com/feryandi/Dataset-Artikel

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含印尼多个在线媒体的新闻文章原始数据，数据未经标注，旨在为学习和研究提供便利。数据集包括从2018年1月1日至2018年8月20日收集的文章，涵盖多个媒体来源，数据格式包括JSON和HTML。

This dataset comprises raw data of news articles from multiple online media outlets in Indonesia, which are unannotated and intended to facilitate learning and research. The dataset includes articles collected from January 1, 2018, to August 20, 2018, covering various media sources, with data formats including JSON and HTML.

创建时间：

2018-05-20

原始信息汇总

数据集概述

数据集名称

Artikel

数据集目的

提供公开访问的数千篇印尼语文章及其元数据，旨在方便获取原始文章数据，用于学习、研究和开发印尼语处理工具。

数据集内容

文件类型：包含json和html两个文件夹。json文件夹中的文件经过清洗，仅包含文章内容；html文件夹中的文件为原始HTML格式。
文件结构：按文章发布日期组织，结构为{tipe}/{tahun}/{tanggal}/{hari}/{jam}/{timestamp}.{nama-media}.{hash-judul}.{tipe}。

统计信息

文章数量：共收集2018年1月1日至2018年8月20日的文章，总计来自以下媒体的85,802至2篇不等：
- Detik: 85,802
- Kompas: 60,902
- Tempo: 44,409
- CNN Indonesia: 24,965
- Sindo: 34,002
- Republika: 64,008
- Poskota: 17,747
- Lainnya: 2
数据集统计：包含109,192,608个令牌（使用NLTK分词器计算，小写，数字视为唯一，未清洗）和659,066个唯一令牌。

访问数据

数据可通过Google Drive公开访问、下载和使用。

使用许可

数据集根据Creative Commons Attribution-ShareAlike 4.0 International License授权使用。

联系信息

邮箱：feryandi [dot] n [at] gmail [dot] com

搜集汇总

数据集介绍

构建方式

Artikel数据集的构建基于对多个印度尼西亚语新闻媒体的系统性采集与整理。该数据集涵盖了从2018年1月1日至2018年8月20日期间，来自Detik、Kompas、Tempo、CNN Indonesia等多家媒体的共计331,835篇新闻文章。数据集的构建过程中，原始数据以HTML格式保存，随后经过清洗处理，提取出纯文本内容并以JSON格式存储。文件的组织结构遵循时间线，按照年、月、日、时、分的时间戳进行分类，确保了数据的时间序列性和可追溯性。

特点

Artikel数据集的主要特点在于其大规模的文本数据量和多样化的来源。该数据集包含了超过1亿个词汇标记，其中659,066个为唯一词汇，展示了丰富的语言多样性。此外，数据集的结构化存储方式使得用户能够轻松按时间、媒体来源等维度进行检索和分析。尽管数据集中的文章均为未标注的原始文本，但其广泛的应用场景涵盖了自然语言处理、语言学研究以及印度尼西亚语的计算语言学研究。

使用方法

Artikel数据集可通过Google Drive公开访问，用户需同意相关使用条款后方可下载和使用。数据集提供了两种格式的文件：JSON和HTML。JSON文件包含经过清洗的文本内容，适合直接用于文本分析；而HTML文件则保留了原始的网页结构，适用于需要进行网页解析的研究。用户可根据研究需求选择合适的文件格式，并结合时间戳和媒体来源信息进行数据筛选和处理。数据集的使用不受限制，但需遵循Creative Commons Attribution-ShareAlike 4.0 International License的相关规定。

背景与挑战

背景概述

Artikel数据集由一群研究人员发起，旨在通过收集和公开大量印度尼西亚语新闻文章及其元数据，促进对印度尼西亚语的自然语言处理研究。该数据集的创建源于对Google Cloud Platform基础设施的学习，并受到ParallelMazen/SaudiNewsNet项目的启发。数据集包含了从2018年1月1日至2018年8月20日期间，来自多个印度尼西亚主流媒体的新闻文章，总计超过330,000篇。这些文章以原始格式（HTML）和清洗后的JSON格式提供，旨在为语言学习、研究和工具开发提供丰富的资源。

当前挑战

Artikel数据集面临的主要挑战之一是数据的质量和多样性。由于数据集中的文章未经标注，研究人员在处理和分析时需要进行大量的预处理工作，如文本清洗、去重和标注。此外，数据集的构建过程中还涉及到从多个来源抓取和整合数据的复杂性，尤其是在处理不同媒体的文章格式和结构时。另一个挑战是确保数据的合法性和版权问题，尽管数据集遵循Creative Commons Attribution-ShareAlike 4.0国际许可证，但仍需注意避免侵犯原始媒体的版权。

常用场景

经典使用场景

Artikel数据集的经典使用场景主要集中在自然语言处理（NLP）领域，尤其是在印尼语的语言模型训练和文本分析方面。由于该数据集包含了大量未经处理的原始文本，研究者可以利用这些数据进行文本预处理、词向量训练、语言模型构建等任务。此外，该数据集还可用于情感分析、主题分类、信息抽取等高级NLP任务，为印尼语的语言处理技术提供了丰富的语料资源。

衍生相关工作

基于Artikel数据集，许多研究者开展了相关的衍生工作。例如，有研究者利用该数据集训练了印尼语的词嵌入模型，提升了文本分类和情感分析的准确性。此外，还有学者基于该数据集开发了印尼语的命名实体识别（NER）系统，进一步推动了印尼语在信息抽取领域的应用。这些衍生工作不仅丰富了印尼语的自然语言处理工具库，也为相关领域的研究提供了新的思路和方法。

数据集最近研究