murodbek/uz-text-classification
收藏Hugging Face2023-10-31 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/murodbek/uz-text-classification
下载链接
链接失效反馈官方服务:
资源简介:
UzbekTextClassification数据集是一个用于乌兹别克语多标签文本分类的数据集。该数据集包含来自9个乌兹别克新闻网站和新闻门户的文本数据,涵盖了政治、体育、娱乐、技术等多个类别。数据集总共包含512,750篇文章,总字数超过1.2亿,分为15个不同的类别。所有文本均使用拉丁字母书写。数据集分为训练集、验证集和测试集,分别包含410,200、51,275和51,275个样本。数据集的下载大小为593 MB,生成数据集大小为522 MB,总磁盘使用量为1115 MB。
UzbekTextClassification数据集是一个用于乌兹别克语多标签文本分类的数据集。该数据集包含来自9个乌兹别克新闻网站和新闻门户的文本数据,涵盖了政治、体育、娱乐、技术等多个类别。数据集总共包含512,750篇文章,总字数超过1.2亿,分为15个不同的类别。所有文本均使用拉丁字母书写。数据集分为训练集、验证集和测试集,分别包含410,200、51,275和51,275个样本。数据集的下载大小为593 MB,生成数据集大小为522 MB,总磁盘使用量为1115 MB。
提供机构:
murodbek
原始信息汇总
数据集概述
数据集名称
- 名称: UzbekTextClassification
- 别名: uzbek_news
数据集特征
- 特征:
text: 字符串类型label: 分类标签,包含以下类别:- Avto (0)
- Ayollar (1)
- Dunyo (2)
- Foto (3)
- Iqtisodiyot (4)
- Jamiyat (5)
- Jinoyat (6)
- Madaniyat (7)
- O‘zbekiston (8)
- Pazandachilik (9)
- Qonunchilik (10)
- Salomatlik (11)
- Siyosat (12)
- Sport (13)
- Texnologiya (14)
数据集结构
- 数据分割:
train: 410200个样本,占用892446788字节validation: 51275个样本,占用111174020字节test: 51275个样本,占用111663893字节
数据集大小
- 下载大小: 593 MB
- 数据集大小: 1115284701字节
语言
- 语言: Uzbek
任务类别
- 任务:
- 文本分类
- 填空
- 文本生成
标签
- 标签:
- uz
- news
数据集大小类别
- 大小: 100K<n<1M
联系方式
- 联系人: [elmurod1202@urdu.uz, ulugbek.salaev@urdu.uz]
引用信息
@proceedings{kuriyozov_elmurod_2023_7677431, title = {{Text classification dataset and analysis for Uzbek language}}, year = 2023, publisher = {Zenodo}, month = feb, doi = {10.5281/zenodo.7677431}, url = {https://doi.org/10.5281/zenodo.7677431} }



