five

murodbek/uz-text-classification

收藏
Hugging Face2023-10-31 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/murodbek/uz-text-classification
下载链接
链接失效反馈
官方服务:
资源简介:
UzbekTextClassification数据集是一个用于乌兹别克语多标签文本分类的数据集。该数据集包含来自9个乌兹别克新闻网站和新闻门户的文本数据,涵盖了政治、体育、娱乐、技术等多个类别。数据集总共包含512,750篇文章,总字数超过1.2亿,分为15个不同的类别。所有文本均使用拉丁字母书写。数据集分为训练集、验证集和测试集,分别包含410,200、51,275和51,275个样本。数据集的下载大小为593 MB,生成数据集大小为522 MB,总磁盘使用量为1115 MB。

UzbekTextClassification数据集是一个用于乌兹别克语多标签文本分类的数据集。该数据集包含来自9个乌兹别克新闻网站和新闻门户的文本数据,涵盖了政治、体育、娱乐、技术等多个类别。数据集总共包含512,750篇文章,总字数超过1.2亿,分为15个不同的类别。所有文本均使用拉丁字母书写。数据集分为训练集、验证集和测试集,分别包含410,200、51,275和51,275个样本。数据集的下载大小为593 MB,生成数据集大小为522 MB,总磁盘使用量为1115 MB。
提供机构:
murodbek
原始信息汇总

数据集概述

数据集名称

  • 名称: UzbekTextClassification
  • 别名: uzbek_news

数据集特征

  • 特征:
    • text: 字符串类型
    • label: 分类标签,包含以下类别:
      • Avto (0)
      • Ayollar (1)
      • Dunyo (2)
      • Foto (3)
      • Iqtisodiyot (4)
      • Jamiyat (5)
      • Jinoyat (6)
      • Madaniyat (7)
      • O‘zbekiston (8)
      • Pazandachilik (9)
      • Qonunchilik (10)
      • Salomatlik (11)
      • Siyosat (12)
      • Sport (13)
      • Texnologiya (14)

数据集结构

  • 数据分割:
    • train: 410200个样本,占用892446788字节
    • validation: 51275个样本,占用111174020字节
    • test: 51275个样本,占用111663893字节

数据集大小

  • 下载大小: 593 MB
  • 数据集大小: 1115284701字节

语言

  • 语言: Uzbek

任务类别

  • 任务:
    • 文本分类
    • 填空
    • 文本生成

标签

  • 标签:
    • uz
    • news

数据集大小类别

  • 大小: 100K<n<1M

联系方式

  • 联系人: [elmurod1202@urdu.uz, ulugbek.salaev@urdu.uz]

引用信息

@proceedings{kuriyozov_elmurod_2023_7677431, title = {{Text classification dataset and analysis for Uzbek language}}, year = 2023, publisher = {Zenodo}, month = feb, doi = {10.5281/zenodo.7677431}, url = {https://doi.org/10.5281/zenodo.7677431} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作