turdibek/shipaker-dataset

Name: turdibek/shipaker-dataset
Creator: turdibek
Published: 2026-05-01 11:03:03
License: 暂无描述

Hugging Face2026-05-01 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/turdibek/shipaker-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

Shipaker.uz数据集是一个包含卡拉卡尔帕克语（Karakalpak）健康和医学文章的集合，这些文章是从shipaker.uz网站爬取的。该网站由乌兹别克斯坦卡拉卡尔帕克斯坦的一个公共卫生组织运营，发布关于疾病预防、营养、心理学和一般健康等主题的文章。数据集包含文章ID、标题、内容（HTML和纯文本）、作者、发布日期、文章链接和特色图片链接等信息。

A collection of health and medicine articles in the Karakalpak language, scraped from shipaker.uz. The site is run by a public health organization in Karakalpakstan, Uzbekistan, and publishes articles on topics such as disease prevention, nutrition, psychology, and general wellness. The dataset includes columns such as article ID, title, content (HTML and plain text), author, publication date, article URL, and featured image URL.

提供机构：

turdibek

搜集汇总

数据集介绍

构建方式

该数据集源自乌兹别克斯坦卡拉卡尔帕克斯坦地区公共卫生组织运营的shipaker.uz网站，聚焦卡拉卡尔帕克语（Karakalpak）健康与医学文章。通过爬虫技术系统采集网站内容，仅纳入卡拉卡尔帕克语文稿，覆盖疾病预防、营养学、心理学及日常保健等主题。原始HTML文本经进一步处理，提取为无格式的纯文本字段，并保留文章ID、标题、作者、发布日期及特色图片链接等元数据，构建出多列结构化的数据集。

特点

数据集规模较小（n<1K），专注于低资源语言——卡拉卡尔帕克语的医学文本，这在自然语言处理领域尤为珍贵。其内容由专业公共卫生组织撰写，具备领域权威性。包含八个字段，其中content_html保留原始排版样式，content_text则提供纯净文本，便于不同应用场景；作者字段附有资质信息，增强了内容的可信度。整体上，该数据集为低资源语言医学文本分类与生成任务提供了高质量基础。

使用方法

用户可通过HuggingFace Datasets库便捷加载，采用Python命令'from datasets import load_dataset; ds = load_dataset("turdibek/shipaker-dataset", split="train")'获取训练子集。数据集的字段设计支持文本分类与文本生成两类任务：可利用content_text和标题进行预训练或微调，也可基于作者、发布日期等元数据构建多模态特征。适合用于卡拉卡尔帕克语医学领域的模型开发，或跨语言医学信息提取研究。

背景与挑战

背景概述

shipaker-dataset由研究人员Turdibek等人于2026年创建，专注于卡拉卡尔帕克语健康与医学文本的收集与整理。该数据集源自乌兹别克斯坦卡拉卡尔帕克斯坦共和国公共卫生组织运营的shipaker.uz网站，收录了关于疾病预防、营养学、心理学及全面健康等主题的优质文章。作为首个面向低资源语言卡拉卡尔帕克语的医疗领域数据集，它为文本分类与文本生成任务提供了重要的基础资源，填补了该语言在自然语言处理研究中的数据空白，对推动少数民族语言在医疗健康领域的智能化应用具有开创性意义。

当前挑战

该数据集面临的核心挑战在于：首先，卡拉卡尔帕克语作为低资源语言，缺乏大规模标注语料与成熟的自然语言处理工具，shipaker-dataset仅包含不满千条样本，严重制约了深度学习模型的训练效果与泛化能力。其次，数据来源于单一网站，内容领域局限于健康与医学，存在明显的领域偏差和风格单一性，难以覆盖现实应用中的多样化表达。此外，HTML原始文本的噪声、作者署名与发布日期的格式不统一等问题，增加了数据清洗与预处理的复杂度，对后续模型的鲁棒性构成潜在挑战。

常用场景

经典使用场景

在低资源语言自然语言处理领域，shipaker-dataset作为首个公开可用的卡拉卡尔帕克语健康医学文本语料库，其经典使用场景主要聚焦于文本分类与文本生成任务。研究者可基于该数据集构建疾病预防、营养学、心理学及一般健康等主题的分类模型，或训练面向卡拉卡尔帕克语的医疗问答与文本摘要生成系统。该语料库的发布显著弥补了中亚低资源语言在专业领域数据匮乏的缺憾，为少数民族语言的智能化信息处理奠定了坚实基础。

衍生相关工作

该数据集已衍生出多项具有开拓性的研究工作：一方面，研究者基于此语料库探索了针对卡拉卡尔帕克语的预训练语言模型微调策略，验证了在极低资源场景下跨语言知识迁移的有效性；另一方面，该数据集被用于构建首个该语言健康领域的命名实体识别与关系抽取基准，促进了结构化医学知识库的自动构建。此外，以shipaker-dataset为基准，学界还开展了多语言医疗文本分类的对比研究，揭示了小语种在领域适应任务中的独特挑战与应对路径。

数据集最近研究