five

AgaCKNER: First Kurdish Sorani Named Entity Recognition Dataset

收藏
DataCite Commons2025-04-10 更新2025-04-16 收录
下载链接:
https://data.mendeley.com/datasets/b3wvj6jgx8/1
下载链接
链接失效反馈
官方服务:
资源简介:
AgaCKNER is the first publicly accessible Named Entity Recognition (NER) dataset in the Kurdish Sorani language, developed to advance research in low-resource language processing. Derived from the Rudaw Media Network, AgaCKNER encompasses a broad array of topics across five distinct domains: Kurdistan news, Middle East news, world news, economic news, and sports news, that are meticulously curated from over 160 articles. The dataset includes 2,534 sentences and 64,563 tokens, pre-processed and formatted in CoNLL for NER tasks. Entities are labelled in BIO format under five categories: PERSON, LOCATION, ORGANIZATION, DATE, and OUTSIDE. AgaCKNER is an essential resource for Kurdish Sorani natural language processing, greatly enhancing research in low-resource languages. Its structure makes it easily adaptable for generating training, validation, and test splits.

AgaCKNER是首个公开可获取的库尔德语索拉尼方言命名实体识别(Named Entity Recognition, NER)数据集,旨在推动低资源语言处理领域的研究。该数据集源自鲁道媒体网络(Rudaw Media Network),涵盖库尔德新闻、中东新闻、世界新闻、经济新闻及体育新闻五大领域的多元主题,所有内容均从160余篇文章中精心遴选而成。数据集包含2534个句子与64563个Token,已针对NER任务完成预处理,并采用CoNLL格式编排。实体以BIO格式标注,共分为五类:PERSON(人物)、LOCATION(地点)、ORGANIZATION(组织)、DATE(日期)及OUTSIDE(非实体)。AgaCKNER是库尔德语索拉尼方言自然语言处理研究的核心资源,极大推动了低资源语言领域的学术探索。其结构化设计便于快速生成训练集、验证集与测试集的划分。
提供机构:
Mendeley Data
创建时间:
2025-03-19
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
AgaCKNER是首个公开可用的库尔德索拉尼语命名实体识别数据集,旨在推动低资源语言处理研究。它基于Rudaw Media Network的160多篇文章构建,涵盖新闻、经济、体育等多个领域,包含2,534个句子和64,563个标记,采用CoNLL格式和BIO标注,实体类别包括人物、地点、组织、日期等。该数据集结构清晰,便于分割用于模型训练和评估。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作