KyrgyzNER
收藏arXiv2025-09-23 更新2025-09-25 收录
下载链接:
https://24.kg/
下载链接
链接失效反馈官方服务:
资源简介:
KyrgyzNER数据集是第一个为吉尔吉斯语手动标注的命名实体识别数据集,包含从24.KG新闻门户网站收集的1,499篇新闻文章。数据集包含10,900个句子和39,075个实体提及,涵盖27个命名实体类别。该数据集旨在解决吉尔吉斯语等低资源语言在自然语言处理任务中的资源匮乏问题,为未来研究提供基准。
提供机构:
The Cramer Project
创建时间:
2025-09-23
搜集汇总
数据集介绍

构建方式
在低资源语言技术发展的背景下,KyrgyzNER数据集的构建采用了系统化的人工标注流程。研究团队从24.KG新闻门户获取了1499篇2017年至2022年的吉尔吉斯语新闻稿件,通过Doccano标注工具组织59名母语标注者进行多轮标注。标注过程遵循MATTER框架,包含数据准备、人工标注、专家验证、一致性检查和迭代优化五个阶段,最终通过10折交叉验证达到0.89的科恩卡帕系数,确保了标注质量的高可靠性。
特点
作为首个吉尔吉斯语命名实体识别数据集,KyrgyzNER包含10900个句子和39075个实体标注,覆盖27个实体类别。该数据集显著特征体现在实体分布的极端不平衡性,前四类高频实体占比达70%,而如动物、奖项等稀有类别仅有个位数样本。数据集采用CoNLL-2003格式存储,使用Apertium-Kir工具进行分词,既保证了与主流NER框架的兼容性,又充分考虑了吉尔吉斯语的黏着语特性。
使用方法
该数据集适用于低资源语言命名实体识别模型的训练与评估,研究者可通过划分999篇训练文本和500篇测试文本来构建基准实验。使用时应重点关注类别不平衡问题,建议采用上采样或数据增强技术提升稀有实体识别效果。数据集支持传统CRF模型到多语言Transformer模型的跨范式比较,实验表明XLM-RoBERTa模型在此数据集上达到0.73的F1值,为后续研究提供了可复现的基线标准。
背景与挑战
背景概述
自然语言处理领域长期存在资源分配不均的问题,高资源语言拥有丰富的标注数据集,而低资源语言则面临工具和数据的严重匮乏。在此背景下,KyrgyzNER数据集于2025年由Cramer Project联合俄罗斯科学院圣彼得堡分部、吉尔吉斯国立技术大学等机构的研究团队共同创建,旨在填补吉尔吉斯语在命名实体识别任务上的空白。该数据集基于24.KG新闻门户的1499篇新闻报道构建,包含10,900个句子和39,075个实体标注,涵盖27个实体类别,成为吉尔吉斯语首个手工标注的命名实体识别基准数据集。该资源的建立为低资源语言处理研究提供了重要实验平台,推动了跨语言模型在突厥语系语言上的适应性研究。
当前挑战
该数据集面临的核心挑战体现在领域问题和构建过程两个维度。在领域问题层面,吉尔吉斯语作为黏着语具有复杂的形态变化规律,实体边界识别受词缀变化影响显著;27个实体类别存在严重分布不均,高频类别占比70%而稀有类别仅有个位数样本,导致模型对长尾实体识别困难。构建过程中,语境依赖的实体歧义消解成为主要难点,例如'Президент'在不同语境下需标注为职称或人名;嵌套实体处理需遵循'最大实体原则',标注一致性维护需要59名标注者通过多轮验证流程;此外,新闻领域文本的单一性限制了模型向社交媒体、法律文本等领域的泛化能力,而低资源语言缺乏预训练工具也增加了基础模型构建的难度。
常用场景
经典使用场景
在低资源语言处理领域,KyrgyzNER数据集作为首个吉尔吉斯语命名实体识别标注资源,其最经典的应用场景体现在为多语言预训练模型提供微调基准。该数据集通过包含27个实体类别的39,075个标注实例,有效支撑了条件随机场与Transformer架构模型的性能对比实验。特别是在跨语言迁移学习中,研究者借助该数据集验证了XLM-RoBERTa等模型在吉尔吉斯语上的泛化能力,为突厥语系低资源语言处理提供了可复现的评估框架。
解决学术问题
该数据集显著解决了吉尔吉斯语作为低资源语言在自然语言处理中的标注资源缺失问题。通过系统化的标注体系和人工验证流程,它为命名实体识别中的类别不平衡、实体歧义消解等核心挑战提供了实证基础。其27个细粒度实体分类体系突破了传统仅标注人、地、机构的三类局限,为研究多类别NER在形态复杂语言中的表现创造了条件,尤其对跨语言迁移学习中的负迁移现象分析具有重要价值。
衍生相关工作
该数据集已衍生出多项重要研究工作,包括基于多语言BERT和XLM-RoBERTa的基线模型性能对比分析,以及针对类别不平衡问题的数据增强策略探索。相关研究进一步拓展到吉尔吉斯语多标签文本分类任务,建立了突厥语系语言处理的技术链路。部分工作开始探索将标注体系适配到社交媒体文本,推动从规范新闻语料到非规范文本的NER技术迁移。
以上内容由遇见数据集搜集并总结生成



