five

hugginglearners/malayalam_news

收藏
Hugging Face2024-09-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/hugginglearners/malayalam_news
下载链接
链接失效反馈
官方服务:
资源简介:
IndicNLP新闻文章分类数据集是基于IndicNLP文本语料库创建的,涵盖了9种语言的新闻文章及其类别。该数据集在类别之间是平衡的,每种语言的类别和每类文章的数量如下表所示:Bengali(娱乐、体育,每类7K篇)、Gujarati(商业、娱乐、体育,每类680篇)、Kannada(娱乐、生活方式、体育,每类10K篇)、Malayalam(商业、娱乐、体育、技术,每类1.5K篇)、Marathi(娱乐、生活方式、体育,每类1.5K篇)、Oriya(商业、犯罪、娱乐、体育,每类7.5K篇)、Punjabi(商业、娱乐、体育、政治,每类780篇)、Tamil(娱乐、政治、体育,每类3.9K篇)、Telugu(娱乐、商业、体育,每类8K篇)。
提供机构:
hugginglearners
原始信息汇总

IndicNLP News Article Classification Dataset 概述

数据集描述

  • 目的: 用于新闻文章分类的数据集,包含9种语言的新闻文章及其类别。
  • 语言和类别:
    • Bengali: 包含娱乐和体育两个类别,每个类别约7000篇文章。
    • Gujarati: 包含商业、娱乐和体育三个类别,共680篇文章。
    • Kannada: 包含娱乐、生活方式和体育三个类别,共10000篇文章。
    • Malayalam: 包含商业、娱乐、体育和技术四个类别,共1500篇文章。
    • Marathi: 包含娱乐、生活方式和体育三个类别,共1500篇文章。
    • Oriya: 包含商业、犯罪、娱乐和体育四个类别,共7500篇文章。
    • Punjabi: 包含商业、娱乐、体育和政治四个类别,共780篇文章。
    • Tamil: 包含娱乐、政治和体育三个类别,共3900篇文章。
    • Telugu: 包含娱乐、商业和体育三个类别,共8000篇文章。

数据集统计

  • 数据集在各个类别中保持平衡。

引用信息

  • 若使用此数据集,建议引用以下文章:

    @article{kunchukuttan2020indicnlpcorpus, title={AI4Bharat-IndicNLP Corpus: Monolingual Corpora and Word Embeddings for Indic Languages}, author={Anoop Kunchukuttan and Divyansha Kakwani and Satish Golla and Gokul N.C. and Avik Bhattacharyya and Mitesh M. Khapra and Pratyush Kumar}, year={2020}, journal={arXiv preprint arXiv:2005.00085}, }

搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作