jakartaresearch/indonews
收藏Hugging Face2022-08-07 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/jakartaresearch/indonews
下载链接
链接失效反馈官方服务:
资源简介:
Indonews数据集是一个用于多类新闻分类的数据集,数据来源于印度尼西亚的流行新闻门户网站。该数据集主要用于文本分类任务,特别是新闻分类。数据集的语言为印度尼西亚语,许可证类型为CC-BY-4.0,数据大小在1K到10K之间。
---
annotations_creators:
- 公开采集
language:
- 印尼语(id)
language_creators:
- 公开采集
license:
- CC-BY-4.0
multilinguality:
- 单语言
pretty_name: Indonews
size_categories:
- 1000 < 样本量 < 10000
source_datasets:
- 原创
tags:
- 新闻(news)
- 新闻分类(news-classification)
- 印度尼西亚(Indonesia)
task_categories:
- 文本分类(text-classification)
task_ids:
- 多类别分类(multi-class-classification)
---
# 印尼新闻分类
## 目录
- [目录](#table-of-contents)
- [数据集说明](#dataset-description)
- [数据集摘要](#dataset-summary)
- [支持任务与排行榜](#supported-tasks-and-leaderboards)
- [语言](#languages)
- [数据集结构](#dataset-structure)
- [数据实例](#data-instances)
- [数据字段](#data-fields)
- [数据划分](#data-splits)
- [数据集构建](#dataset-creation)
- [数据集遴选依据](#curation-rationale)
- [源数据](#source-data)
- [注释标注](#annotations)
- [个人与敏感信息](#personal-and-sensitive-information)
- [数据使用注意事项](#considerations-for-using-the-data)
- [数据集的社会影响](#social-impact-of-dataset)
- [偏差讨论](#discussion-of-biases)
- [其他已知局限性](#other-known-limitations)
- [附加信息](#additional-information)
- [数据集策展人](#dataset-curators)
- [许可证信息](#licensing-information)
- [引用信息](#citation-information)
- [贡献致谢](#contributions)
## 数据集说明
- **主页:**
- **代码仓库:**
- **相关论文:**
- **排行榜:**
- **联系方式:**
### 数据集摘要
Indonews:针对印度尼西亚热门新闻门户网站爬取构建的多类别新闻分类数据集。
### 支持任务与排行榜
【需补充更多信息】
### 语言
【需补充更多信息】
## 数据集结构
### 数据实例
【需补充更多信息】
### 数据字段
【需补充更多信息】
### 数据划分
【需补充更多信息】
## 数据集构建
### 数据集遴选依据
【需补充更多信息】
### 源数据
#### 初始数据采集与归一化
【需补充更多信息】
#### 源语言生产者是谁?
【需补充更多信息】
### 注释标注
#### 标注流程
【需补充更多信息】
#### 标注者是谁?
【需补充更多信息】
### 个人与敏感信息
【需补充更多信息】
## 数据使用注意事项
### 数据集的社会影响
【需补充更多信息】
### 偏差讨论
【需补充更多信息】
### 其他已知局限性
【需补充更多信息】
## 附加信息
### 数据集策展人
【需补充更多信息】
### 许可证信息
【需补充更多信息】
### 引用信息
【需补充更多信息】
### 贡献致谢
感谢[@andreaschandra](https://github.com/andreaschandra) 为本数据集提交贡献。
提供机构:
jakartaresearch
原始信息汇总
数据集概述
- 名称: Indonews
- 语言: 印度尼西亚语 (id)
- 许可证: CC-BY-4.0
- 多语言性: 单语种
- 大小: 1K<n<10K
- 来源: 原始数据
- 标签:
- 新闻
- 新闻分类
- 印度尼西亚
- 任务类别: 文本分类
- 任务ID: 多类分类
数据集描述
- 摘要: Indonews: Multiclass News Categorization 是从印度尼西亚的流行新闻门户网站抓取的数据集,用于多类新闻分类。
数据集创建
- 注释创建者: 已找到
- 语言创建者: 已找到
附加信息
- 贡献者: @andreaschandra



