murodbek/uz-text-classification

Name: murodbek/uz-text-classification
Creator: murodbek
Published: 2023-10-31 11:05:52
License: 暂无描述

Hugging Face2023-10-31 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/murodbek/uz-text-classification

下载链接

链接失效反馈

官方服务：

资源简介：

UzbekTextClassification数据集是一个用于乌兹别克语多标签文本分类的数据集。该数据集包含来自9个乌兹别克新闻网站和新闻门户的文本数据，涵盖了政治、体育、娱乐、技术等多个类别。数据集总共包含512,750篇文章，总字数超过1.2亿，分为15个不同的类别。所有文本均使用拉丁字母书写。数据集分为训练集、验证集和测试集，分别包含410,200、51,275和51,275个样本。数据集的下载大小为593 MB，生成数据集大小为522 MB，总磁盘使用量为1115 MB。

提供机构：

murodbek

原始信息汇总

数据集概述

数据集名称

名称: UzbekTextClassification
别名: uzbek_news

数据集特征

特征:
- text: 字符串类型
- label: 分类标签，包含以下类别：
  - Avto (0)
  - Ayollar (1)
  - Dunyo (2)
  - Foto (3)
  - Iqtisodiyot (4)
  - Jamiyat (5)
  - Jinoyat (6)
  - Madaniyat (7)
  - O‘zbekiston (8)
  - Pazandachilik (9)
  - Qonunchilik (10)
  - Salomatlik (11)
  - Siyosat (12)
  - Sport (13)
  - Texnologiya (14)

数据集结构

数据分割:
- train: 410200个样本，占用892446788字节
- validation: 51275个样本，占用111174020字节
- test: 51275个样本，占用111663893字节

数据集大小

下载大小: 593 MB
数据集大小: 1115284701字节

语言

语言: Uzbek

任务类别

任务:
- 文本分类
- 填空
- 文本生成

数据集大小类别

大小: 100K<n<1M

联系方式

联系人: [elmurod1202@urdu.uz, ulugbek.salaev@urdu.uz]

引用信息

@proceedings{kuriyozov_elmurod_2023_7677431, title = {{Text classification dataset and analysis for Uzbek language}}, year = 2023, publisher = {Zenodo}, month = feb, doi = {10.5281/zenodo.7677431}, url = {https://doi.org/10.5281/zenodo.7677431} }

5,000+

优质数据集

54 个

任务类型

进入经典数据集