kaa-ml/kknews-dataset

Name: kaa-ml/kknews-dataset
Creator: kaa-ml
Published: 2026-05-01 13:06:17
License: 暂无描述

Hugging Face2026-05-01 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/kaa-ml/kknews-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

KKNews.uz数据集包含Qaraqalpaqstan Xabar Agentligi (kknews.uz)的新闻文章，支持5种语言：俄语、乌兹别克语（拉丁和西里尔字母）、卡拉卡尔帕克语（西里尔和拉丁字母）。数据集包含文章的ID、语言代码、类别信息、标题、内容（HTML和纯文本）、摘要、URL、发布日期等详细信息。数据来源于kknews.uz网站的WordPress REST API。

The KKNews.uz Dataset contains articles from Qaraqalpaqstan Xabar Agentligi (kknews.uz) in 5 languages: Russian, Uzbek (Latin and Cyrillic), and Karakalpak (Cyrillic and Latin). The dataset includes details such as article ID, language code, category information, title, content (HTML and plain text), excerpt, URL, publication date, etc. The data is sourced from the WordPress REST API of the kknews.uz website.

提供机构：

kaa-ml

搜集汇总

数据集介绍

构建方式

该数据集源自Qaraqalpaqstan Xabar Agentligi（kknews.uz）这一新闻机构的多语种新闻平台，通过WordPress REST API进行系统化数据采集而成。每一篇新闻条目均以结构化方式呈现，涵盖文章的唯一标识符、语言代码、分类信息、标题、原始HTML内容及纯文本内容、摘要、链接地址、发布日期与最后修改日期等多元字段。数据覆盖俄语、乌兹别克语（拉丁与西里尔两种书写系统）、卡拉卡尔帕克语（同样包含拉丁与西里尔字母变体）共五种语言变体，充分体现了该地区复杂的语言生态。采集范围超过一万篇，样本规模处于十万以内，为低资源语言的文本分析奠定了坚实基础。

特点

KKNews.uz数据集最突出的特质在于其多语言与多书写系统的并置，尤其在乌兹别克语和卡拉卡尔帕克语中同时保留了拉丁字母与西里尔字母的平行版本，这使得研究者能够深入探索语言接触、文字改革及信息传播中的转写差异。数据字段从文章元数据到正文内容一应俱全，特别是提供明文内容和HTML原始内容，兼顾了文本挖掘与格式研究的双重需求。语言代码如'kk'和'qq'清晰标识字母体系，为多语言自然语言处理任务提供了清晰的标签指引。此类资源配置在中亚语言资源库中较为稀有，对低资源语言研究具有重要价值。

使用方法

该数据集适用于文本分类与文本生成等监督学习任务。研究者可利用category_id和category_name字段构建新闻分类模型，或使用多语言内容进行跨语言文本生成训练。lang字段可直接作为分类标签，用于语言识别和文字系统判别任务。content_text字段提供了干净纯文本，可直接输入到Transformer类模型进行微调。此外，title与excerpt字段可用于摘要生成，featured_image_url字段支持多模态研究集成。数据已以CC-BY-4.0许可开放，可自由用于学术研究与非商业项目。建议使用者针对各语言子集分别构建评测集，以评估模型在资源不均条件下的表现差异。

背景与挑战

背景概述

KKNews.uz Dataset 是一个面向低资源语言新闻文本分类与生成的多语种数据集，由卡拉卡尔帕克斯坦新闻社（Qaraqalpaqstan Xabar Agentligi）于2026年创建，涵盖俄语、乌兹别克语（拉丁及西里尔字母）、卡拉卡尔帕克语（拉丁及西里尔字母）共计五种语言。该数据集通过抓取 kknews.uz 网站的 WordPress REST API 构建，包含超过一万篇标注了语言、类别、发布时间等元数据的新闻文章。其核心研究问题在于推动中亚地区低资源语言的自然语言处理研究，尤其是为卡拉卡尔帕克语等濒危语言提供基准数据资源。该数据集在跨语言迁移学习、多语种文本分类与低资源语言生成任务中具有重要价值，为提升小语种在NLP领域的可见性和模型性能贡献了关键资源。

当前挑战

该数据集所解决的领域问题在于低资源语言新闻文本的自动处理能力匮乏，例如卡拉卡尔帕克语和乌兹别克语西里尔字母变体在传统NLP模型中几乎未被覆盖，导致相关新闻分类、摘要生成或翻译任务缺乏训练数据。构建过程中面临的挑战包括：多语种数据的一致性标注，特别是同一新闻在不同语言版本间的语义对齐；WordPress API 返回的HTML内容需经过复杂清洗以提取纯净文本；以及西里尔与拉丁字母变体间的标准化转换问题。此外，数据集仅覆盖18,067条款目，相比主流资源规模较小，类别分布不均也可能引入偏差，需在后续研究中使用层次化或数据增强策略来缓解稀疏性。

常用场景

经典使用场景

KKNews数据集汇聚了来自卡拉卡尔帕克斯坦新闻机构的多语言新闻语料，涵盖俄语、乌兹别克语、卡拉卡尔帕克语等多种语言形态，是低资源语言处理研究的珍贵资源。研究者常借助该数据集开展文本分类任务，例如依据新闻主题、语言类别或来源进行自动标注，从而训练出适应多语言环境的高效分类器。此外，该数据集在文本生成领域亦展现出重要价值，可用于训练新闻摘要生成、标题自动撰写等模型，助力提升低资源语言的自然语言生成能力。

衍生相关工作

基于KKNews数据集，学术界已涌现出若干经典工作，例如多语言新闻文本的跨语言分类与情感分析研究，以及针对低资源语言的语言模型预训练与微调实验。此外，该数据集被广泛用于评估多语言表示模型（如XLM-R、mBERT）在中亚语言上的表现，推动了对低资源语言词向量对齐与跨语言迁移学习方法的深入探索。部分工作还利用该数据集构建了多语言新闻摘要生成系统，验证了低资源场景下序列到序列模型的泛化能力。

数据集最近研究