turdibek/kknews-dataset
收藏Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/turdibek/kknews-dataset
下载链接
链接失效反馈官方服务:
资源简介:
KKNews.uz数据集包含来自Qaraqalpaqstan Xabar Agentligi (kknews.uz)的新闻文章,涵盖5种语言(俄语、乌兹别克语(拉丁和西里尔)、卡拉卡尔帕克语(西里尔和拉丁))。数据集支持文本分类和文本生成任务,适用于新闻、卡拉卡尔帕克斯坦、多语言等相关研究。数据集大小在10K到100K之间,包含文章ID、语言代码、类别信息、标题、内容(HTML和纯文本)、摘要、URL、发布日期、作者信息等列。数据通过WordPress REST API从kknews.uz网站抓取。
The KKNews.uz Dataset contains news articles from Qaraqalpaqstan Xabar Agentligi (kknews.uz) in 5 languages (Russian, Uzbek in Latin and Cyrillic, Karakalpak in Cyrillic and Latin). The dataset supports text classification and text generation tasks, suitable for research related to news, Karakalpakstan, multilingual studies, etc. The dataset size ranges between 10K and 100K, including columns such as article ID, language code, category information, title, content (HTML and plain text), excerpt, URL, publication date, author information, etc. The data was scraped from the kknews.uz website via the WordPress REST API.
提供机构:
turdibek
搜集汇总
数据集介绍

构建方式
KKNews-Dataset 源自卡拉卡尔帕克斯坦新闻机构 kknews.uz,通过其 WordPress REST API 系统性地采集而成。原始数据涵盖俄罗斯语、乌兹别克语(拉丁与西里尔字母)、卡拉卡尔帕克语(拉丁与西里尔字母)五种语言文字版本的新闻文章。每条记录包含文章标识符、语言代码、分类信息、标题、HTML 原文、纯文本正文、摘要、URL、发布时间、最后修改时间、作者标识符及封面图片链接等多维度字段。数据集规模介于 10,000 至 100,000 条之间,以结构化 JSON 形式保存,为多语言自然语言处理研究提供了宝贵的低资源语言新闻语料。
特点
该数据集最显著的特征在于其多语言覆盖能力,聚焦中亚地区使用较少的卡拉卡尔帕克语与乌兹别克语,并包含俄罗斯语作为参考语言。每种语言版本的文章在内容上具有高度的对齐性,可用于跨语言信息检索、机器翻译及文本分类任务。数据字段设计精细,既保留了新闻的原始 HTML 结构,也提取了纯净的文本格式,方便研究者根据不同需求灵活选择。此外,时间戳字段支持对新闻时序性的分析,而分类信息则为主题建模和情感分析提供了标注基础。
使用方法
该数据集主要适用于文本分类与文本生成两大任务。对于文本分类,可直接利用 lang 字段实现语言识别实验,或依托 category_name 字段训练新闻主题分类器。在文本生成方面,title 与 content_text 字段可构建标题生成或摘要生成模型。研究者可借助 Hugging Face Datasets 库快速加载数据,并通过 lang 字段筛选特定语言子集。推荐将内容文本与标题配对用于序列到序列学习,或将同一新闻的不同语言版本对齐后用于跨语言模型训练。鉴于其采用 CC-BY-4.0 许可协议,使用时应注明原始来源 kknews.uz。
背景与挑战
背景概述
在多语言自然语言处理领域,低资源语言的数据稀缺是制约模型性能提升的关键瓶颈。KKNews数据集由卡拉卡尔帕克斯坦新闻社(kknews.uz)于2023年左右创建,涵盖了俄语、乌兹别克语(拉丁及西里尔字母)和卡拉卡尔帕克语(拉丁及西里尔字母)共五种语言的新闻文章,总计约数万篇。该数据集的核心研究问题在于为卡拉卡尔帕克语等低资源语言提供高质量的平行与非平行文本资源,以推动文本分类和文本生成等任务在多语言场景下的研究。其影响力体现在为突厥语系语言处理、中亚地区信息化建设以及低资源语言模型预训练提供了宝贵的基准语料。
当前挑战
该数据集所解决的领域问题在于,卡拉卡尔帕克语作为使用人口不足百万的濒危语言,缺乏大规模且结构化的新闻文本语料,严重阻碍了该语言在信息检索、舆情分析和机器翻译等自然语言处理任务上的发展。构建过程中遇到的挑战包括:1)从WordPress REST API爬取数据时需处理不同语言的字符编码(如西里尔与拉丁字母的混合)和HTML内容的格式差异;2)需手动校对多语言标签及类别的一致性,以避免噪声数据影响模型训练;3)在确保数据代表性和避免版权风险的前提下,对持续更新的新闻源进行高效采集与去重。
常用场景
经典使用场景
kknews-dataset 汇聚了来自卡拉卡尔帕克斯坦新闻社(kknews.uz)的多语种新闻语料,涵盖俄语、乌兹别克语(拉丁与西里尔字母)、卡拉卡尔帕克语(拉丁与西里尔字母)等五种语言。这一数据集最经典的使用场景在于支撑低资源语言的自然语言处理研究,尤其是针对中亚地区语言如卡拉卡尔帕克语的文本分类与语言建模任务。研究者可通过该语料进行新闻话题归类、情感分析以及跨语言迁移学习的基础实验,借助其丰富的元数据(如类别、时间戳)探索时序演进的舆论主题分布与跨文化语义对齐。
实际应用
从实际应用视角来看,kknews-dataset 可服务于中亚地区的多语种新闻聚合平台与智能推荐系统,助力新闻生产者自动标注文章主题,并为不同语言用户生成个性化的内容分发列表。此外,该数据集能够部署于舆情监控场景,通过实时分析卡拉卡尔帕克斯坦本地媒体的报道重心,辅助决策者感知社会舆论动向与文化传播趋势。其多元语言覆盖也使其成为跨境新闻翻译引擎与区域知识图谱构建的宝贵资源,推动信息无障碍获取与民族语言数字生态的可持续发展。
衍生相关工作
围绕 kknews-dataset 衍生的相关工作包括构建面向中亚语言的通用多语言文本分类基准(如 KKNEWS-Bench),以及开发针对西里尔与拉丁字母变体间形态映射的专用工具。研究者基于该数据集训练了第一代卡拉卡尔帕克语词向量与掩码语言模型(如 KKGPT),推动了该语种在命名实体识别与依存分析上的首次系统评估。其他衍生工作还包括将数据集扩展为多源平行语料,支撑弱监督跨语言对齐研究,以及结合知识图谱技术建立卡拉卡尔帕克斯坦新闻事件数据库,为区域社会计算与跨文化语义理解奠定了实验基石。
以上内容由遇见数据集搜集并总结生成



