Sakshamrzt/IndicNLP-Multilingual

Name: Sakshamrzt/IndicNLP-Multilingual
Creator: Sakshamrzt
Published: 2024-05-03 00:32:56
License: 暂无描述

Hugging Face2024-05-03 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/Sakshamrzt/IndicNLP-Multilingual

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个多语言文本分类数据集，包含了多种印度语言的新闻文本数据。每个配置代表一种语言，数据集中的每个样本包含新闻文本和对应的类别标签。数据集分为训练集和测试集，涵盖了泰卢固语（tel）、泰米尔语（ta）、卡纳达语（kn）、古吉拉特语（gu）、旁遮普语（pa）、奥里亚语（ori）、马拉雅拉姆语（mal）和马拉地语（mr）等多种语言。每个语言的新闻文本被分类为不同的类别，如娱乐、商业、体育、政治、生活方式、犯罪和技术等。

提供机构：

Sakshamrzt

原始信息汇总

数据集概述

数据集配置信息

tel配置
- 特征:
  - news: 数据类型为string
  - class: 数据类型为分类，类别包括：
    - 0: entertainment
    - 1: business
    - 2: sports
- 分割:
  - train: 2048个样本，占用7704473字节
  - test: 2048个样本，占用7919236字节
ta配置
- 特征:
  - news: 数据类型为string
  - class: 数据类型为分类，类别包括：
    - 0: entertainment
    - 1: politics
    - 2: sports
- 分割:
  - train: 2048个样本，占用9059789字节
  - test: 2048个样本，占用9068394字节
kn配置
- 特征:
  - news: 数据类型为string
  - class: 数据类型为分类，类别包括：
    - 0: entertainment
    - 1: lifestyle
    - 2: sports
- 分割:
  - train: 2048个样本，占用10616955字节
  - test: 2048个样本，占用10801169字节
gu配置
- 特征:
  - news: 数据类型为string
  - class: 数据类型为分类，类别包括：
    - 0: business
    - 1: entertainment
    - 2: sports
- 分割:
  - train: 19197个样本，占用73249462字节
  - test: 4800个样本，占用18308310字节
pa配置
- 特征:
  - news: 数据类型为string
  - class: 数据类型为分类，类别包括：
    - 0: business
    - 1: entertainment
    - 2: sports
    - 3: politics
  - headline: 数据类型为string
- 分割:
  - train: 2048个样本，占用8279743字节
  - test: 624个样本，占用2544744字节
ori配置
- 特征:
  - news: 数据类型为string
  - class: 数据类型为分类，类别包括：
    - 0: business
    - 1: crime
    - 2: entertainment
    - 3: sports
- 分割:
  - train: 2048个样本，占用6483875字节
  - test: 2048个样本，占用6508716字节
mal配置
- 特征:
  - news: 数据类型为string
  - class: 数据类型为分类，类别包括：
    - 0: business
    - 1: entertainment
    - 2: sports
    - 3: technology
- 分割:
  - train: 2048个样本，占用6755196字节
  - test: 2048个样本，占用6825306字节
mr配置
- 特征:
  - news: 数据类型为string
  - class: 数据类型为分类，类别包括：
    - 0: entertainment
    - 1: lifestyle
    - 2: sports
- 分割:
  - train: 2048个样本，占用10219284字节
  - test: 2048个样本，占用10422768字节

数据集文件信息

tel配置
- train: telugu-train.jsonl
- test: telugu-test.jsonl
ta配置
- train: tamil-train.jsonl
- test: tamil-test.jsonl
kn配置
- train: kannada-train.jsonl
- test: kannada-test.jsonl
gu配置
- train: gujarati-train.jsonl
- test: gujarati-test.jsonl
pa配置
- train: punjabi-train.jsonl
- test: punjabi-test.jsonl
ori配置
- train: oriya-train.jsonl
- test: oriya-test.jsonl
mal配置
- train: malayalam-train.jsonl
- test: malayalam-test.jsonl
mr配置
- train: marathi-train.jsonl
- test: marathi-test.jsonl

任务类别

text-classification

支持的语言

5,000+

优质数据集

54 个

任务类型

进入经典数据集