risqaliyevds/uzbek-zero-shot-classification

Name: risqaliyevds/uzbek-zero-shot-classification
Creator: risqaliyevds
Published: 2024-06-06 06:21:08
License: 暂无描述

Hugging Face2024-06-06 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/risqaliyevds/uzbek-zero-shot-classification

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于将乌兹别克语文本分类到不同的类别中，包括政治、经济、技术、体育、文化、健康、家庭与社会、教育、生态和外国新闻等。数据集基于新闻网站准备，数据以JSON格式提供，每个文本仅属于一个类别。

This dataset is designed for classifying Uzbek-language texts into distinct categories, including politics, economy, technology, sports, culture, health, family and society, education, ecology, foreign news and more. It is curated from news websites, provided in JSON format, and each text belongs to exactly one single category.

提供机构：

risqaliyevds

原始信息汇总

Uzbek Zero-Shot Classification Dataset

数据集概述

该数据集用于将乌兹别克语文本分类到不同类别中。数据集基于新闻网站，包含以下类别：政治、经济、技术、体育、文化、健康、家庭和社会、教育、生态、国际新闻。

数据结构

数据以JSON格式提供，结构如下：

json { "classes": Siyosat - 如果文本是关于政治。 Iqtisodiyot - 如果文本是关于经济。 Texnologiya - 如果文本是关于技术。 Sport - 如果文本是关于体育。 Madaniyat - 如果文本是关于文化。 Salomatlik - 如果文本是关于健康。 Oila va Jamiyat - 如果文本是关于家庭和社会。 Talim - 如果文本是关于教育。 Ekologiya - 如果文本是关于生态。 Xorijiy Yangiliklar - 如果文本是关于国际新闻。 }

数据准备指南

在准备此数据集时遵循以下指南：

从文本中提取所有可能的类别。
类别以其原始形式提供，没有额外的注释或翻译。
每个文本必须仅属于一个类别。

示例

以下是一些示例：

python

下载数据集后

print(dataset[0])

json { text: Toshkent shahrining Yakkasaroy tumanida odam o‘limi bilan yakun topgan yo‘l-transport hodisasi sodir bo‘ldi. Foto: IIBB YHXB Poytaxt IIBB YHXB xabariga ko‘ra, 7 noyabr kuni soat 19:30 larda Muqimiy ko‘chasida 1999 yilda tug‘ilgan B.A. boshqaruvidagi “Nexia-2” rusumli avtomashina va 2004 yilda tug‘ilgan J.O. boshqaruvidagi “Lasetti” rusumli avtomashina to‘qnashgan. YTH oqibatida “Nexia-2” rusumli avtomashina yo‘lovchisi, 1998 yilda tug‘ilgan Sh.E. olgan tan jarohatlari natijasida voqea joyida vafot etgan. Shuningdek, “Lasetti” rusumli avtomashina haydovchisi, “Nexia-2” rusumli avtomashina haydovchisi va yo‘lovchilari: 1995 yilda tug‘ilgan T.O., 1996 yilda tug‘ilgan B.Q., 2001 yilda tug‘ilgan M.Q. turli darajadagi tan jarohatlari bilan kasalxonaga yotqizilgan. Mazkur holat yuzasidan Toshkent shahar IIBB Tergov boshqarmasi tomonidan Jinoyat kodeksining 266-moddasi 2-qismi bilan jinoyat ishi qo‘zg‘atildi. Tergov davom etmoqda., class: Oila va Jamiyat }

下载

您可以使用以下代码下载此数据集：

python from datasets import load_dataset

dataset = load_dataset("risqaliyevds/uzbek-zero-shot-classification")

许可证

该数据集作为开源提供，所有用户均可免费使用。

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，针对乌兹别克语文本分类任务的数据资源相对稀缺。该数据集通过系统采集乌兹别克语新闻网站内容构建而成，涵盖了政治、经济、科技、体育、文化、健康、家庭与社会、教育、生态及国际新闻等十个核心类别。构建过程中严格遵循单标签分类原则，确保每个文本样本仅归属于一个预定义类别，且所有类别标签均保持原始语言形式，未进行额外标注或翻译处理。

特点

该数据集作为乌兹别克语零样本分类任务的重要资源，其显著特点在于语言专一性与类别平衡性。数据集包含近十万条高质量文本样本，覆盖了社会生活的多个关键领域，为乌兹别克语自然语言理解研究提供了丰富的语义素材。所有数据均以标准JSON格式存储，结构清晰且易于解析，同时遵循开放许可协议，保障了学术研究的可及性与可复现性。

使用方法

研究人员可通过Hugging Face的datasets库直接加载该数据集，实现便捷的数据访问与预处理。该数据集适用于训练和评估乌兹别克语文本分类模型，特别是在零样本学习场景下，能够有效测试模型对未见类别的泛化能力。在实际应用中，开发者可将文本数据输入预训练语言模型，结合提示学习或自然语言推理等技术，构建高效的跨类别分类系统。

背景与挑战

背景概述

在自然语言处理领域，零样本分类任务旨在使模型能够识别训练过程中未见过的类别，这对于资源稀缺语言如乌兹别克语尤为重要。数据集'risqaliyevds/uzbek-zero-shot-classification'由研究人员Riskaliev Murad创建，专注于乌兹别克语文本的多类别分类，涵盖政治、经济、技术、体育、文化、健康、家庭与社会、教育、生态和外国新闻等十个领域。该数据集基于新闻网站构建，旨在推动乌兹别克语在零样本学习场景下的应用，为低资源语言处理研究提供关键数据支持，增强语言模型的跨领域泛化能力。

当前挑战

该数据集面临的挑战主要集中于领域问题和构建过程。在领域层面，乌兹别克语作为低资源语言，其零样本分类任务需克服语言数据稀缺、语义复杂性高以及类别间边界模糊等障碍，例如区分'家庭与社会'与'文化'类别时易产生歧义。构建过程中，挑战包括从新闻网站提取高质量文本时需确保类别标注的准确性和一致性，同时避免数据偏见，并处理乌兹别克语特有的语法和词汇变体，这些因素共同增加了数据集构建的难度和复杂性。

常用场景

经典使用场景

在自然语言处理领域，乌兹别克语文本分类任务长期面临资源匮乏的挑战。该数据集作为乌兹别克语首个公开的零样本分类数据集，其最经典的使用场景是作为基准测试集，用于评估和比较不同零样本学习模型在乌兹别克语新闻文本上的跨类别泛化能力。研究者利用其涵盖政治、经济、科技等十个新闻领域的结构化标注，能够系统性地探究模型在未见类别上的推理与迁移性能。

衍生相关工作

围绕该数据集，已衍生出一系列针对低资源语言处理的经典研究工作。例如，研究者利用其评估了多语言预训练模型在乌兹别克语上的零样本性能，并探索了基于提示学习或对比学习的适配方法。这些工作不仅验证了现有前沿技术在乌兹别克语上的有效性，也进一步催生了专门针对突厥语系语言特点的模型优化与数据增强策略，形成了从基础资源建设到方法创新的完整研究链条。

数据集最近研究