kaa-ml/shipaker-dataset

Name: kaa-ml/shipaker-dataset
Creator: kaa-ml
Published: 2026-05-01 13:04:56
License: 暂无描述

Hugging Face2026-05-01 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/kaa-ml/shipaker-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

一个卡拉卡尔帕克语的健康和医学文章集合，数据来源于乌兹别克斯坦卡拉卡尔帕克斯坦的公共卫生组织运营的网站shipaker.uz。该网站发布关于疾病预防、营养、心理学和一般健康等主题的文章。数据集包含文章ID、标题、HTML和纯文本内容、作者信息、发布日期、文章链接以及特色图片链接等列。

A collection of health and medicine articles in the Karakalpak language, scraped from shipaker.uz. The site is run by a public health organization in Karakalpakstan, Uzbekistan, and publishes articles on topics such as disease prevention, nutrition, psychology, and general wellness. The dataset includes columns such as article ID, title, HTML and plain text content, author information, publication date, article URL, and featured image URL.

提供机构：

kaa-ml

搜集汇总

数据集介绍

构建方式

本数据集源自乌兹别克斯坦卡拉卡尔帕克斯坦共和国公共卫生组织运营的shipaker.uz网站，系统性地采集了其发布的卡拉卡尔帕克语健康与医学文章。数据涵盖疾病预防、营养学、心理学及大众健康等多元主题，通过爬虫技术获取原始HTML内容后，经过去除标签处理得到纯文本格式，最终整理为包含文章ID、标题、正文、作者、发布日期、原始链接及特色图片URL等字段的结构化表格。

特点

该数据集聚焦于低资源语言——卡拉卡尔帕克语的医学文本领域，样本规模不足1000篇，却实现了高质量的数据标注。每条记录均保留完整的元数据信息，包括作者资质与发布时间，并同时提供HTML与纯文本两种格式以适配不同应用场景。其内容权威性源自官方健康机构，在文本分类与文本生成等自然语言处理任务中具有稀缺的学术价值。

使用方法

研究人员可通过HuggingFace Datasets库便捷调用，执行一行代码即可加载训练集：from datasets import load_dataset; ds = load_dataset('kaa-ml/shipaker-dataset', split='train')。该数据集可直接用于卡拉卡尔帕克语的文本分类模型训练、医学领域语言模型微调，或作为低资源语言机器翻译与文本生成任务的评估基准，亦支持对结构化字段进行自定义的数据过滤与特征工程。

背景与挑战

背景概述

shipaker-dataset是由卡拉克尔帕克斯坦公共卫生组织于2025年创建的低资源语言医学语料库，专门收集shipaker.uz网站上卡拉克尔帕克语撰写的健康与医学文章。该数据集聚焦于疾病预防、营养学、心理学及普遍健康等话题，旨在为极度匮乏的卡拉克尔帕克语自然语言处理研究提供基础资源。作为该语言首个公开可用的医学文本数据集，其发布显著推动了中亚地区少数民族语言在医疗信息检索、智能问答及文本分类等任务上的技术探索，对促进语言技术平等与区域公共卫生信息可及性具有里程碑意义。

当前挑战

shipaker-dataset面临的核心挑战在于其极小规模（不足1000条样本）与窄领域覆盖的固有局限，难以支撑深度学习模型的有效训练与泛化。由于卡拉克尔帕克语缺乏成熟的预训练语言模型及标注工具，数据集构建过程中需手动处理非结构化网页数据的清洗与多级字段映射，且原始HTML内容混杂噪声信息，增加了文本规范化难度。此外，单一来源导致的潜在知识偏差与医学领域专业术语的稀缺性，进一步制约了该数据集在下游任务如医疗文本生成与分类中的鲁棒性表现。

常用场景

经典使用场景

在自然语言处理与低资源语言研究的交汇点上，Shipaker.uz数据集为卡拉卡尔帕克语的文本分类与文本生成任务提供了珍贵的语料基础。该数据集收录了来自shipaker.uz网站的医疗卫生类文章，涵盖疾病预防、营养学、心理学及大众健康等多个主题，使得研究者能够针对这一濒危且低资源的中亚语言，构建首个面向医疗领域的文本分析系统。经典使用场景包括对文章标题与内容进行主题分类、情感倾向分析，以及基于上下文的文本续写或摘要生成，为低资源语言在信息检索与内容理解领域的研究开辟了新的可能性。

衍生相关工作

围绕Shipaker.uz数据集已催生出若干具有启发性的衍生研究工作。研究者基于该语料构建了卡拉卡尔帕克语的第一个医学词嵌入模型，并将其与突厥语系其他语言的表示学习进行对比，揭示了跨语言迁移中的语法与词汇相似性。也有工作利用该数据集训练序列到序列模型，探索在医学文本摘要任务中从源语言到低资源目标语言的知识蒸馏方法。此外，该数据集与多语言BERT模型的结合应用，为实现中亚语言环境下的医疗实体识别与事件抽取奠定了实验基础，推动了低资源语言医学信息抽取这一新兴研究方向的发展。

数据集最近研究