iqballx/indonesian_news_datasets
收藏Hugging Face2024-07-09 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/iqballx/indonesian_news_datasets
下载链接
链接失效反馈官方服务:
资源简介:
该数据集汇集了来自七个印度尼西亚主要新闻平台(Tempo、CNN Indonesia、CNBC Indonesia、Okezone、Suara、Kumparan和JawaPos)的文章信息。数据集包含多个列,如唯一标识符、标题、图像、源链接、完整新闻内容、文本嵌入、创建时间戳、最后更新时间戳和文章摘要。这些信息有助于进行各种自然语言处理任务和分析。
提供机构:
iqballx
原始信息汇总
印度尼西亚新闻数据集
数据集概述
该数据集汇集了来自七个印度尼西亚主要新闻平台的文章,包括Tempo、CNN Indonesia、CNBC Indonesia、Okezone、Suara、Kumparan和JawaPos。每个来源都提供了多样化的文章,共同构成了一个全面的印度尼西亚新闻内容库。
数据集内容
数据集包含以下列:
- id:每篇新闻文章的唯一标识符。
- title:新闻标题。
- image:相关视觉内容。
- url:来源链接。
- content:新闻文章的全文。
- embedding:使用OpenAI的
text-embedding-ada-002模型提取的文本嵌入。 - created_at:创建时间戳。
- updated_at:最后更新时间戳。
- summary:通过ChatGPT API生成的文章摘要。
这些列共同代表了每篇新闻文章的全面信息,便于进行各种自然语言处理任务和分析,同时提供了丰富的上下文细节,以便进行有效的探索和建模。
语言
- 印度尼西亚语
任务类别
- 文本分类
- 摘要生成
许可证
- CC BY-NC 4.0



