community-datasets/id_newspapers_2018

Name: community-datasets/id_newspapers_2018
Creator: community-datasets
Published: 2024-06-26 05:18:55
License: 暂无描述

Hugging Face2024-06-26 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/community-datasets/id_newspapers_2018

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为Indonesian Newspapers 2018，包含了2018年1月1日至2018年8月20日期间来自7家印度尼西亚报纸的约50万篇文章。数据集主要用于文本生成和掩码语言模型任务。数据集的每个实例包含文章的ID、URL、发布日期、标题和内容。数据集的结构为单语言（印度尼西亚语），并且没有人工注释。数据集的大小在100K到1M之间，原始数据以JSON和文本文件的形式提供。

The dataset, named Indonesian Newspapers 2018, contains approximately 500,000 articles from 7 Indonesian newspapers dated between January 1, 2018, and August 20, 2018. The dataset is primarily used for text generation and masked language modeling tasks. Each instance in the dataset includes the articles ID, URL, publication date, title, and content. The dataset is monolingual (Indonesian) and does not include any human annotations. The size of the dataset is between 100K and 1M, with the original data provided in JSON and text file formats.

提供机构：

community-datasets

原始信息汇总

印度尼西亚报纸2018数据集概述

数据集描述

数据集摘要

该数据集包含约50万篇文章（约1.36亿个单词），来自7家印度尼西亚报纸：Detik, Kompas, Tempo, CNN Indonesia, Sindo, Republika 和 Poskota。这些文章的日期范围是从2018年1月1日到2018年8月20日（少数例外日期更早）。未压缩的50万json文件（newspapers-json.tgz）大小约为2.2GB，清理后的未压缩大文本文件（newspapers.txt.gz）约为1GB。

支持的任务和排行榜

[更多信息待补充]

语言

印度尼西亚语

数据集结构

数据实例

一个数据集实例示例如下： json { "id": "0", "url": "https://www.cnnindonesia.com/olahraga/20161221234219-156-181385/lorenzo-ingin-samai-rekor-rossi-dan-stoner", "date": "2016-12-22 07:00:00", "title": "Lorenzo Ingin Samai Rekor Rossi dan Stoner", "content": "Jakarta, CNN Indonesia -- Setelah bergabung dengan Ducati, Jorge Lorenzo berharap bisa masuk dalam jajaran pebalap yang mampu jadi juara dunia kelas utama dengan dua pabrikan berbeda..." }

数据字段

id: 样本的ID
url: 原始文章的URL
date: 文章的发布日期
title: 文章的标题
content: 文章的内容

数据分割

数据集包含一个训练集，包含499164个样本。

数据集创建

数据集策划理由

[更多信息待补充]

源数据

初始数据收集和规范化

[更多信息待补充]

源语言生产者是谁？

[更多信息待补充]

注释

注释过程

[更多信息待补充]

注释者是谁？

[更多信息待补充]

个人和敏感信息

[更多信息待补充]

使用数据的注意事项

数据集的社会影响

[更多信息待补充]

偏见的讨论

[更多信息待补充]

其他已知限制

[更多信息待补充]

附加信息

数据集策展人

[更多信息待补充]

许可信息

该作品根据知识共享署名-相同方式共享4.0国际许可协议进行许可。该数据集仅用于支持印度尼西亚语（计算或语言学）的开放科学研究，并且只能用于该目的。数据集中每篇文章的所有权属于从中提取的相应报纸；存储库的维护者不声称拥有其中任何内容的所有权。如果您认为该数据集以任何方式侵犯了任何既定的版权；请联系存储库维护者。

引用信息

[N/A]

贡献

感谢@cahya-wirawan添加此数据集。

5,000+

优质数据集

54 个

任务类型

进入经典数据集