hugginglearners/malayalam_news

Name: hugginglearners/malayalam_news
Creator: hugginglearners
Published: 2024-09-10 18:55:06
License: 暂无描述

Hugging Face2024-09-10 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/hugginglearners/malayalam_news

下载链接

链接失效反馈

官方服务：

资源简介：

IndicNLP新闻文章分类数据集是基于IndicNLP文本语料库创建的，涵盖了9种语言的新闻文章及其类别。该数据集在类别之间是平衡的，每种语言的类别和每类文章的数量如下表所示：Bengali（娱乐、体育，每类7K篇）、Gujarati（商业、娱乐、体育，每类680篇）、Kannada（娱乐、生活方式、体育，每类10K篇）、Malayalam（商业、娱乐、体育、技术，每类1.5K篇）、Marathi（娱乐、生活方式、体育，每类1.5K篇）、Oriya（商业、犯罪、娱乐、体育，每类7.5K篇）、Punjabi（商业、娱乐、体育、政治，每类780篇）、Tamil（娱乐、政治、体育，每类3.9K篇）、Telugu（娱乐、商业、体育，每类8K篇）。

提供机构：

hugginglearners

原始信息汇总

IndicNLP News Article Classification Dataset 概述

数据集描述

目的: 用于新闻文章分类的数据集，包含9种语言的新闻文章及其类别。
语言和类别:
- Bengali: 包含娱乐和体育两个类别，每个类别约7000篇文章。
- Gujarati: 包含商业、娱乐和体育三个类别，共680篇文章。
- Kannada: 包含娱乐、生活方式和体育三个类别，共10000篇文章。
- Malayalam: 包含商业、娱乐、体育和技术四个类别，共1500篇文章。
- Marathi: 包含娱乐、生活方式和体育三个类别，共1500篇文章。
- Oriya: 包含商业、犯罪、娱乐和体育四个类别，共7500篇文章。
- Punjabi: 包含商业、娱乐、体育和政治四个类别，共780篇文章。
- Tamil: 包含娱乐、政治和体育三个类别，共3900篇文章。
- Telugu: 包含娱乐、商业和体育三个类别，共8000篇文章。

数据集统计

数据集在各个类别中保持平衡。

引用信息

若使用此数据集，建议引用以下文章：

@article{kunchukuttan2020indicnlpcorpus, title={AI4Bharat-IndicNLP Corpus: Monolingual Corpora and Word Embeddings for Indic Languages}, author={Anoop Kunchukuttan and Divyansha Kakwani and Satish Golla and Gokul N.C. and Avik Bhattacharyya and Mitesh M. Khapra and Pratyush Kumar}, year={2020}, journal={arXiv preprint arXiv:2005.00085}, }

搜集汇总

数据集介绍

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集