five

iqballx/indonesian_news_datasets

收藏
Hugging Face2024-07-09 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/iqballx/indonesian_news_datasets
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集汇集了来自七个印度尼西亚主要新闻平台(Tempo、CNN Indonesia、CNBC Indonesia、Okezone、Suara、Kumparan和JawaPos)的文章信息。数据集包含多个列,如唯一标识符、标题、图像、源链接、完整新闻内容、文本嵌入、创建时间戳、最后更新时间戳和文章摘要。这些信息有助于进行各种自然语言处理任务和分析。
提供机构:
iqballx
原始信息汇总

印度尼西亚新闻数据集

数据集概述

该数据集汇集了来自七个印度尼西亚主要新闻平台的文章,包括Tempo、CNN Indonesia、CNBC Indonesia、Okezone、Suara、Kumparan和JawaPos。每个来源都提供了多样化的文章,共同构成了一个全面的印度尼西亚新闻内容库。

数据集内容

数据集包含以下列:

  • id:每篇新闻文章的唯一标识符。
  • title:新闻标题。
  • image:相关视觉内容。
  • url:来源链接。
  • content:新闻文章的全文。
  • embedding:使用OpenAI的text-embedding-ada-002模型提取的文本嵌入。
  • created_at:创建时间戳。
  • updated_at:最后更新时间戳。
  • summary:通过ChatGPT API生成的文章摘要。

这些列共同代表了每篇新闻文章的全面信息,便于进行各种自然语言处理任务和分析,同时提供了丰富的上下文细节,以便进行有效的探索和建模。

语言

  • 印度尼西亚语

任务类别

  • 文本分类
  • 摘要生成

许可证

  • CC BY-NC 4.0
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作