community-datasets/id_newspapers_2018
收藏印度尼西亚报纸2018数据集概述
数据集描述
数据集摘要
该数据集包含约50万篇文章(约1.36亿个单词),来自7家印度尼西亚报纸:Detik, Kompas, Tempo, CNN Indonesia, Sindo, Republika 和 Poskota。这些文章的日期范围是从2018年1月1日到2018年8月20日(少数例外日期更早)。未压缩的50万json文件(newspapers-json.tgz)大小约为2.2GB,清理后的未压缩大文本文件(newspapers.txt.gz)约为1GB。
支持的任务和排行榜
[更多信息待补充]
语言
印度尼西亚语
数据集结构
数据实例
一个数据集实例示例如下: json { "id": "0", "url": "https://www.cnnindonesia.com/olahraga/20161221234219-156-181385/lorenzo-ingin-samai-rekor-rossi-dan-stoner", "date": "2016-12-22 07:00:00", "title": "Lorenzo Ingin Samai Rekor Rossi dan Stoner", "content": "Jakarta, CNN Indonesia -- Setelah bergabung dengan Ducati, Jorge Lorenzo berharap bisa masuk dalam jajaran pebalap yang mampu jadi juara dunia kelas utama dengan dua pabrikan berbeda..." }
数据字段
id: 样本的IDurl: 原始文章的URLdate: 文章的发布日期title: 文章的标题content: 文章的内容
数据分割
数据集包含一个训练集,包含499164个样本。
数据集创建
数据集策划理由
[更多信息待补充]
源数据
初始数据收集和规范化
[更多信息待补充]
源语言生产者是谁?
[更多信息待补充]
注释
注释过程
[更多信息待补充]
注释者是谁?
[更多信息待补充]
个人和敏感信息
[更多信息待补充]
使用数据的注意事项
数据集的社会影响
[更多信息待补充]
偏见的讨论
[更多信息待补充]
其他已知限制
[更多信息待补充]
附加信息
数据集策展人
[更多信息待补充]
许可信息
该作品根据知识共享署名-相同方式共享4.0国际许可协议进行许可。该数据集仅用于支持印度尼西亚语(计算或语言学)的开放科学研究,并且只能用于该目的。数据集中每篇文章的所有权属于从中提取的相应报纸;存储库的维护者不声称拥有其中任何内容的所有权。如果您认为该数据集以任何方式侵犯了任何既定的版权;请联系存储库维护者。
引用信息
[N/A]
贡献
感谢@cahya-wirawan添加此数据集。



