hugginglearners/malayalam_news
收藏Hugging Face2024-09-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/hugginglearners/malayalam_news
下载链接
链接失效反馈官方服务:
资源简介:
IndicNLP新闻文章分类数据集是基于IndicNLP文本语料库创建的,涵盖了9种语言的新闻文章及其类别。该数据集在类别之间是平衡的,每种语言的类别和每类文章的数量如下表所示:Bengali(娱乐、体育,每类7K篇)、Gujarati(商业、娱乐、体育,每类680篇)、Kannada(娱乐、生活方式、体育,每类10K篇)、Malayalam(商业、娱乐、体育、技术,每类1.5K篇)、Marathi(娱乐、生活方式、体育,每类1.5K篇)、Oriya(商业、犯罪、娱乐、体育,每类7.5K篇)、Punjabi(商业、娱乐、体育、政治,每类780篇)、Tamil(娱乐、政治、体育,每类3.9K篇)、Telugu(娱乐、商业、体育,每类8K篇)。
提供机构:
hugginglearners
原始信息汇总
IndicNLP News Article Classification Dataset 概述
数据集描述
- 目的: 用于新闻文章分类的数据集,包含9种语言的新闻文章及其类别。
- 语言和类别:
- Bengali: 包含娱乐和体育两个类别,每个类别约7000篇文章。
- Gujarati: 包含商业、娱乐和体育三个类别,共680篇文章。
- Kannada: 包含娱乐、生活方式和体育三个类别,共10000篇文章。
- Malayalam: 包含商业、娱乐、体育和技术四个类别,共1500篇文章。
- Marathi: 包含娱乐、生活方式和体育三个类别,共1500篇文章。
- Oriya: 包含商业、犯罪、娱乐和体育四个类别,共7500篇文章。
- Punjabi: 包含商业、娱乐、体育和政治四个类别,共780篇文章。
- Tamil: 包含娱乐、政治和体育三个类别,共3900篇文章。
- Telugu: 包含娱乐、商业和体育三个类别,共8000篇文章。
数据集统计
- 数据集在各个类别中保持平衡。
引用信息
-
若使用此数据集,建议引用以下文章:
@article{kunchukuttan2020indicnlpcorpus, title={AI4Bharat-IndicNLP Corpus: Monolingual Corpora and Word Embeddings for Indic Languages}, author={Anoop Kunchukuttan and Divyansha Kakwani and Satish Golla and Gokul N.C. and Avik Bhattacharyya and Mitesh M. Khapra and Pratyush Kumar}, year={2020}, journal={arXiv preprint arXiv:2005.00085}, }
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



