five

Sakshamrzt/IndicNLP-Multilingual

收藏
Hugging Face2024-05-03 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/Sakshamrzt/IndicNLP-Multilingual
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个多语言文本分类数据集,包含了多种印度语言的新闻文本数据。每个配置代表一种语言,数据集中的每个样本包含新闻文本和对应的类别标签。数据集分为训练集和测试集,涵盖了泰卢固语(tel)、泰米尔语(ta)、卡纳达语(kn)、古吉拉特语(gu)、旁遮普语(pa)、奥里亚语(ori)、马拉雅拉姆语(mal)和马拉地语(mr)等多种语言。每个语言的新闻文本被分类为不同的类别,如娱乐、商业、体育、政治、生活方式、犯罪和技术等。

该数据集是一个多语言文本分类数据集,包含了多种印度语言的新闻文本数据。每个配置代表一种语言,数据集中的每个样本包含新闻文本和对应的类别标签。数据集分为训练集和测试集,涵盖了泰卢固语(tel)、泰米尔语(ta)、卡纳达语(kn)、古吉拉特语(gu)、旁遮普语(pa)、奥里亚语(ori)、马拉雅拉姆语(mal)和马拉地语(mr)等多种语言。每个语言的新闻文本被分类为不同的类别,如娱乐、商业、体育、政治、生活方式、犯罪和技术等。
提供机构:
Sakshamrzt
原始信息汇总

数据集概述

数据集配置信息

  1. tel配置

    • 特征:
      • news: 数据类型为string
      • class: 数据类型为分类,类别包括:
        • 0: entertainment
        • 1: business
        • 2: sports
    • 分割:
      • train: 2048个样本,占用7704473字节
      • test: 2048个样本,占用7919236字节
  2. ta配置

    • 特征:
      • news: 数据类型为string
      • class: 数据类型为分类,类别包括:
        • 0: entertainment
        • 1: politics
        • 2: sports
    • 分割:
      • train: 2048个样本,占用9059789字节
      • test: 2048个样本,占用9068394字节
  3. kn配置

    • 特征:
      • news: 数据类型为string
      • class: 数据类型为分类,类别包括:
        • 0: entertainment
        • 1: lifestyle
        • 2: sports
    • 分割:
      • train: 2048个样本,占用10616955字节
      • test: 2048个样本,占用10801169字节
  4. gu配置

    • 特征:
      • news: 数据类型为string
      • class: 数据类型为分类,类别包括:
        • 0: business
        • 1: entertainment
        • 2: sports
    • 分割:
      • train: 19197个样本,占用73249462字节
      • test: 4800个样本,占用18308310字节
  5. pa配置

    • 特征:
      • news: 数据类型为string
      • class: 数据类型为分类,类别包括:
        • 0: business
        • 1: entertainment
        • 2: sports
        • 3: politics
      • headline: 数据类型为string
    • 分割:
      • train: 2048个样本,占用8279743字节
      • test: 624个样本,占用2544744字节
  6. ori配置

    • 特征:
      • news: 数据类型为string
      • class: 数据类型为分类,类别包括:
        • 0: business
        • 1: crime
        • 2: entertainment
        • 3: sports
    • 分割:
      • train: 2048个样本,占用6483875字节
      • test: 2048个样本,占用6508716字节
  7. mal配置

    • 特征:
      • news: 数据类型为string
      • class: 数据类型为分类,类别包括:
        • 0: business
        • 1: entertainment
        • 2: sports
        • 3: technology
    • 分割:
      • train: 2048个样本,占用6755196字节
      • test: 2048个样本,占用6825306字节
  8. mr配置

    • 特征:
      • news: 数据类型为string
      • class: 数据类型为分类,类别包括:
        • 0: entertainment
        • 1: lifestyle
        • 2: sports
    • 分割:
      • train: 2048个样本,占用10219284字节
      • test: 2048个样本,占用10422768字节

数据集文件信息

  • tel配置

    • train: telugu-train.jsonl
    • test: telugu-test.jsonl
  • ta配置

    • train: tamil-train.jsonl
    • test: tamil-test.jsonl
  • kn配置

    • train: kannada-train.jsonl
    • test: kannada-test.jsonl
  • gu配置

    • train: gujarati-train.jsonl
    • test: gujarati-test.jsonl
  • pa配置

    • train: punjabi-train.jsonl
    • test: punjabi-test.jsonl
  • ori配置

    • train: oriya-train.jsonl
    • test: oriya-test.jsonl
  • mal配置

    • train: malayalam-train.jsonl
    • test: malayalam-test.jsonl
  • mr配置

    • train: marathi-train.jsonl
    • test: marathi-test.jsonl

任务类别

  • text-classification

支持的语言

  • gu
  • pa
  • or
  • te
  • ta
  • ml
  • mr
  • kn
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作