Artikel

github2024-05-16 更新2024-05-31 收录

下载链接：

https://github.com/feryandi/dataset-artikel

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含来自印度尼西亚各种在线媒体的原始新闻文章，旨在为公众提供访问数千篇印尼语文章及其元数据的机会，以支持学习、研究和开发印尼语处理工具。

This dataset comprises raw news articles from various online media sources in Indonesia, designed to provide the public with access to thousands of Indonesian language articles along with their metadata, supporting the learning, research, and development of Indonesian language processing tools.

创建时间：

2018-05-20

原始信息汇总

数据集概述

数据集名称

Artikel

数据集目的

提供公众访问数千篇印尼语文章及其元数据，旨在方便获取原始文章数据，用于学习、研究和开发印尼语处理工具。

数据集内容

文件类型：包含json和html两个文件夹。json文件夹中的文件经过清洗，仅包含文章内容；html文件夹中的文件为原始HTML格式。
文件结构：按文章发布日期组织，结构为{tipe}/{tahun}/{tanggal}/{hari}/{jam}/{timestamp}.{nama-media}.{hash-judul}.{tipe}。

统计信息

文章数量：从2018年1月1日至2018年8月20日，收集自以下媒体：
- Detik: 85,802篇
- Kompas: 60,902篇
- Tempo: 44,409篇
- CNN Indonesia: 24,965篇
- Sindo: 34,002篇
- Republika: 64,008篇
- Poskota: 17,747篇
- Lainnya: 2篇
数据集统计：包含109,192,608个令牌（使用NLTK分词器计算，小写，数字视为唯一，未清洗），其中659,066个令牌唯一。

访问数据

数据可通过Google Drive访问，链接为Google Drive。

许可证

本数据集根据Creative Commons Attribution-ShareAlike 4.0 International License授权。

联系方式

Email：feryandi [dot] n [at] gmail [dot] com

搜集汇总

数据集介绍

构建方式

Artikel数据集的构建基于对印尼语新闻文章的广泛收集与整理。该数据集从多个知名印尼语新闻媒体（如Detik、Kompas、Tempo等）中提取了2018年1月1日至2018年8月20日期间发布的文章。数据集的构建过程中，原始HTML文件被保存于`html`文件夹中，而经过清洗的纯文本内容则存储于`json`文件夹中。文件的组织结构严格遵循文章的发布时间，按照年、月、日、时、分、秒的顺序排列，确保了数据的时间序列性和可追溯性。

特点

Artikel数据集的核心特点在于其大规模的印尼语新闻文章集合，涵盖了多个主流媒体，提供了丰富的语料资源。数据集中的文章均为原始格式，未经过标注，适合用于自然语言处理、语言学研究等领域的探索。此外，数据集的文件结构设计合理，便于用户根据时间、媒体等维度进行检索和分析。统计数据显示，该数据集包含了超过1亿个词汇，且具有较高的词汇多样性，为语言模型的训练和分析提供了坚实的基础。

使用方法

用户可通过访问Google Drive链接直接下载Artikel数据集，并根据需求选择`json`或`html`格式的文件进行使用。数据集的文件结构清晰，用户可根据时间戳或媒体名称快速定位所需文章。该数据集适用于印尼语的自然语言处理任务，如文本分类、情感分析、语言模型训练等。使用时需遵守Creative Commons Attribution-ShareAlike 4.0 International License，确保数据的合法与合理使用。

背景与挑战

背景概述

Artikel数据集由一群研究人员发起，旨在通过收集和开放数千篇印度尼西亚语新闻文章及其元数据，促进对印度尼西亚语的自然语言处理研究。该数据集的创建始于2018年，涵盖了从2018年1月1日至2018年8月20日期间从多个主流媒体（如Detik、Kompas、Tempo等）收集的文章。数据集的核心研究问题是如何为印度尼西亚语提供一个大规模的、多样化的文本数据集，以支持语言模型、文本分类、信息提取等领域的研究。该数据集的开放不仅为学术界提供了宝贵的资源，还为印度尼西亚语的计算语言学研究奠定了基础。

当前挑战

Artikel数据集在构建过程中面临了多个挑战。首先，数据集中的文章均为原始格式（raw）且未标注，这为后续的文本处理和分析带来了复杂性。其次，数据集的构建涉及从多个来源抓取和清洗数据，确保数据的完整性和一致性是一个技术难题。此外，由于数据集的规模较大，如何高效地存储、管理和分发数据也是一个重要的挑战。最后，尽管数据集的目的是促进科学研究，但其使用仍需遵守版权和许可协议，确保不侵犯任何媒体的知识产权。

常用场景

经典使用场景

Artikel数据集的经典使用场景主要集中在自然语言处理（NLP）领域，尤其是针对印度尼西亚语的语言模型训练和文本分析。由于该数据集包含了大量未经处理的原始文本，研究人员可以利用这些数据进行文本预处理、分词、词性标注等基础任务，从而为后续的语义分析、情感分析、主题建模等高级NLP任务奠定基础。此外，该数据集还可用于构建印度尼西亚语的词向量模型，提升机器对印度尼西亚语的理解能力。

实际应用

在实际应用中，Artikel数据集可广泛应用于印度尼西亚语的智能信息检索、新闻推荐系统、舆情分析等领域。例如，通过分析数据集中的新闻文本，企业可以构建基于内容的推荐系统，为用户提供个性化的新闻阅读体验。同时，政府和研究机构可以利用该数据集进行舆情监控，实时分析公众对特定事件或政策的反应，从而为决策提供数据支持。此外，该数据集还可用于开发印度尼西亚语的智能客服系统，提升用户体验。

衍生相关工作

基于Artikel数据集，已衍生出多项经典工作，尤其是在印度尼西亚语的自然语言处理领域。例如，有研究者利用该数据集训练了印度尼西亚语的分词器和词性标注模型，显著提升了文本处理的准确性。此外，还有学者基于该数据集开发了印度尼西亚语的情感分析工具，用于分析新闻文本中的情感倾向。这些衍生工作不仅推动了印度尼西亚语NLP技术的发展，还为其他低资源语言的处理提供了宝贵的经验。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集