Sakshamrzt/IndicNLP-Multilingual
收藏Hugging Face2024-05-03 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/Sakshamrzt/IndicNLP-Multilingual
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个多语言文本分类数据集,包含了多种印度语言的新闻文本数据。每个配置代表一种语言,数据集中的每个样本包含新闻文本和对应的类别标签。数据集分为训练集和测试集,涵盖了泰卢固语(tel)、泰米尔语(ta)、卡纳达语(kn)、古吉拉特语(gu)、旁遮普语(pa)、奥里亚语(ori)、马拉雅拉姆语(mal)和马拉地语(mr)等多种语言。每个语言的新闻文本被分类为不同的类别,如娱乐、商业、体育、政治、生活方式、犯罪和技术等。
该数据集是一个多语言文本分类数据集,包含了多种印度语言的新闻文本数据。每个配置代表一种语言,数据集中的每个样本包含新闻文本和对应的类别标签。数据集分为训练集和测试集,涵盖了泰卢固语(tel)、泰米尔语(ta)、卡纳达语(kn)、古吉拉特语(gu)、旁遮普语(pa)、奥里亚语(ori)、马拉雅拉姆语(mal)和马拉地语(mr)等多种语言。每个语言的新闻文本被分类为不同的类别,如娱乐、商业、体育、政治、生活方式、犯罪和技术等。
提供机构:
Sakshamrzt
原始信息汇总
数据集概述
数据集配置信息
-
tel配置
- 特征:
news: 数据类型为stringclass: 数据类型为分类,类别包括:- 0: entertainment
- 1: business
- 2: sports
- 分割:
train: 2048个样本,占用7704473字节test: 2048个样本,占用7919236字节
- 特征:
-
ta配置
- 特征:
news: 数据类型为stringclass: 数据类型为分类,类别包括:- 0: entertainment
- 1: politics
- 2: sports
- 分割:
train: 2048个样本,占用9059789字节test: 2048个样本,占用9068394字节
- 特征:
-
kn配置
- 特征:
news: 数据类型为stringclass: 数据类型为分类,类别包括:- 0: entertainment
- 1: lifestyle
- 2: sports
- 分割:
train: 2048个样本,占用10616955字节test: 2048个样本,占用10801169字节
- 特征:
-
gu配置
- 特征:
news: 数据类型为stringclass: 数据类型为分类,类别包括:- 0: business
- 1: entertainment
- 2: sports
- 分割:
train: 19197个样本,占用73249462字节test: 4800个样本,占用18308310字节
- 特征:
-
pa配置
- 特征:
news: 数据类型为stringclass: 数据类型为分类,类别包括:- 0: business
- 1: entertainment
- 2: sports
- 3: politics
headline: 数据类型为string
- 分割:
train: 2048个样本,占用8279743字节test: 624个样本,占用2544744字节
- 特征:
-
ori配置
- 特征:
news: 数据类型为stringclass: 数据类型为分类,类别包括:- 0: business
- 1: crime
- 2: entertainment
- 3: sports
- 分割:
train: 2048个样本,占用6483875字节test: 2048个样本,占用6508716字节
- 特征:
-
mal配置
- 特征:
news: 数据类型为stringclass: 数据类型为分类,类别包括:- 0: business
- 1: entertainment
- 2: sports
- 3: technology
- 分割:
train: 2048个样本,占用6755196字节test: 2048个样本,占用6825306字节
- 特征:
-
mr配置
- 特征:
news: 数据类型为stringclass: 数据类型为分类,类别包括:- 0: entertainment
- 1: lifestyle
- 2: sports
- 分割:
train: 2048个样本,占用10219284字节test: 2048个样本,占用10422768字节
- 特征:
数据集文件信息
-
tel配置
train:telugu-train.jsonltest:telugu-test.jsonl
-
ta配置
train:tamil-train.jsonltest:tamil-test.jsonl
-
kn配置
train:kannada-train.jsonltest:kannada-test.jsonl
-
gu配置
train:gujarati-train.jsonltest:gujarati-test.jsonl
-
pa配置
train:punjabi-train.jsonltest:punjabi-test.jsonl
-
ori配置
train:oriya-train.jsonltest:oriya-test.jsonl
-
mal配置
train:malayalam-train.jsonltest:malayalam-test.jsonl
-
mr配置
train:marathi-train.jsonltest:marathi-test.jsonl
任务类别
- text-classification
支持的语言
- gu
- pa
- or
- te
- ta
- ml
- mr
- kn



