codemurt/uyghur_ner_dataset
收藏Hugging Face2023-07-30 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/codemurt/uyghur_ner_dataset
下载链接
链接失效反馈官方服务:
资源简介:
---
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
- split: extra
path: data/extra-*
dataset_info:
features:
- name: tokens
sequence: string
- name: ner_tags
sequence: int64
- name: langs
sequence: string
- name: spans
sequence: string
splits:
- name: train
num_bytes: 538947
num_examples: 473
- name: extra
num_bytes: 11497
num_examples: 109
download_size: 140314
dataset_size: 550444
license: mit
task_categories:
- token-classification
language:
- ug
size_categories:
- n<1K
---
# Uyghur NER dataset
## Description
This dataset is in [WikiAnn](https://huggingface.co/datasets/wikiann) format. The dataset is assembled from named entities parsed from Wikipedia, Wiktionary and Dbpedia. For some words, new case forms have been created using [Apertium-uig](https://github.com/apertium/apertium-uig). Some locations have been translated using the Google Translate API.
The dataset is divided into two parts: `train` and `extra`. `Train` has full sentences, `extra` has only named entities.
Tags: `O (0), B-PER (1), I-PER (2), B-ORG (3), I-ORG (4), B-LOC (5), I-LOC (6)`
## Data example
```
{
'tokens': ['قاراماي', 'شەھىرى', '«مەملىكەت', 'بويىچە', 'مىللەتل…'],
'ner_tags': [5, 0, 0, 0, 0],
'langs': ['ug', 'ug', 'ug', 'ug', 'ug'],
'spans': ['LOC: قاراماي']
}
```
## Usage with `datasets` library
```py
from datasets import load_dataset
dataset = load_dataset("codemurt/uyghur_ner_dataset")
```
配置项:
- 配置名称:default
数据文件:
- 拆分集:train
路径:data/train-*
- 拆分集:extra
路径:data/extra-*
数据集信息:
特征字段:
- 名称:tokens(词元),类型:字符串序列
- 名称:ner_tags(命名实体识别标签),类型:64位整数序列
- 名称:langs(语言标识),类型:字符串序列
- 名称:spans(实体跨度),类型:字符串序列
拆分集详情:
- 拆分集名称:train
字节大小:538947
样本数量:473
- 拆分集名称:extra
字节大小:11497
样本数量:109
下载总大小:140314
数据集总大小:550444
开源协议:MIT许可证
任务类别:词元分类(token-classification)
语言:维吾尔语(ug)
样本规模:样本数少于1K
# 维吾尔语命名实体识别数据集
## 数据集说明
本数据集采用WikiAnn(https://huggingface.co/datasets/wikiann)格式构建,数据源自维基百科、维基词典及DBpedia中提取的命名实体。针对部分词汇,本数据集通过Apertium-uig(https://github.com/apertium/apertium-uig)生成了新的词形变化形式;部分地点名称则借助谷歌翻译API完成译制。
本数据集分为`train`与`extra`两个拆分集:`train`包含完整句子,`extra`仅包含命名实体片段。
标签说明:`O (0):非实体`, `B-PER (1):人物实体起始`, `I-PER (2):人物实体延续`, `B-ORG (3):组织机构实体起始`, `I-ORG (4):组织机构实体延续`, `B-LOC (5):地点实体起始`, `I-LOC (6):地点实体延续`
## 数据示例
json
{
"tokens": ["قاراماي", "شەھىرى", "«مەملىكەت", "بويىچە", "مىللەتل…"],
"ner_tags": [5, 0, 0, 0, 0],
"langs": ["ug", "ug", "ug", "ug", "ug"],
"spans": ["LOC: قاراماي"]
}
## 使用`datasets`库加载
python
from datasets import load_dataset
dataset = load_dataset("codemurt/uyghur_ner_dataset")
提供机构:
codemurt
原始信息汇总
Uyghur NER Dataset Summary
Dataset Structure
Configurations
- Default Config:
- Train Data:
data/train-* - Extra Data:
data/extra-*
- Train Data:
Features
- Tokens: Sequence of strings
- Ner_tags: Sequence of int64
- Langs: Sequence of strings
- Spans: Sequence of strings
Splits
- Train:
- Size: 538947 bytes
- Examples: 473
- Extra:
- Size: 11497 bytes
- Examples: 109
Size and License
- Download Size: 140314 bytes
- Dataset Size: 550444 bytes
- License: MIT
Task and Language
- Task Category: Token-classification
- Language: Uyghur (ug)
- Size Category: Less than 1K examples
Tags
O (0), B-PER (1), I-PER (2), B-ORG (3), I-ORG (4), B-LOC (5), I-LOC (6)
搜集汇总
数据集介绍

构建方式
在自然语言处理领域,维吾尔语命名实体识别数据集的构建融合了多源知识库的整合与语言技术工具的应用。该数据集遵循WikiAnn格式,其核心内容源自维基百科、维基词典及Dbpedia中提取的命名实体。为丰富语言形态,部分词汇通过Apertium-uig工具生成了新的格变形式,而地理位置名称则借助谷歌翻译API进行了跨语言转换。数据集划分为训练集与附加集两部分,前者包含完整句子,后者仅聚焦于命名实体本身,共同构成了面向实体识别任务的标注语料。
特点
该数据集在维吾尔语信息处理中展现出鲜明的结构化特征与语言多样性。其标注体系采用经典的BIO格式,涵盖人物、组织与地点三类实体,并统一以整数编码表示,便于模型直接处理。每条数据均包含词元序列、实体标签、语言代码及实体跨度信息,其中语言代码恒定为维吾尔语标识,确保了语料的纯净性。数据规模虽属小型,但兼具完整句子与独立实体两种形式,为模型训练与评估提供了灵活的数据支撑。
使用方法
借助Hugging Face的datasets库,研究者可便捷地加载并应用此数据集于命名实体识别任务。通过调用load_dataset函数并指定数据集名称,即可获取包含训练集与附加集的结构化数据对象。数据已预分割为训练与额外两部分,用户可直接用于模型训练、验证或测试流程。该接口支持标准的数据迭代与特征访问,能够无缝集成至主流深度学习框架中,加速维吾尔语实体识别模型的开发与实验进程。
背景与挑战
背景概述
在自然语言处理领域,命名实体识别(NER)是信息抽取的关键任务之一,旨在从非结构化文本中识别并分类实体,如人名、组织名和地名。对于资源稀缺的语言,如维吾尔语,高质量标注数据集的构建尤为迫切。该数据集由研究人员或机构基于WikiAnn格式,整合维基百科、维基词典和Dbpedia的解析实体,并借助Apertium-uig工具生成新词形,部分地名通过谷歌翻译API处理,旨在为维吾尔语NER研究提供标准化语料。其创建填补了该语言在实体识别任务上的数据空白,对推动低资源语言的信息处理技术发展具有积极意义。
当前挑战
该数据集致力于解决维吾尔语命名实体识别任务,面临领域挑战包括:低资源语言中实体边界模糊和形态变化复杂,导致模型泛化能力受限;多源数据整合可能引入标注不一致性,影响模型精度。构建过程中,挑战体现在:从维基百科等开放资源提取实体时,需处理数据稀疏性和噪声问题;使用Apertium-uig工具生成新词形时,可能产生非自然语言形式;依赖谷歌翻译API进行地名翻译,存在文化语境丢失风险。这些因素共同增加了数据集的质量控制和模型应用的难度。
常用场景
经典使用场景
在自然语言处理领域,维吾尔语命名实体识别(NER)任务常面临资源稀缺的挑战。该数据集以WikiAnn格式构建,整合了维基百科、维基词典和DBpedia中的命名实体,并利用Apertium-uig工具生成新词形,为研究者提供了标准化的标注语料。其经典使用场景在于训练和评估跨语言或低资源语言的NER模型,通过序列标注方法识别文本中的人名、组织名和地名,为后续信息提取任务奠定基础。
实际应用
在实际应用中,该数据集可服务于多语言搜索引擎、内容推荐系统和舆情监测平台。例如,在社交媒体分析中,它能自动识别维吾尔语文本中的关键实体,帮助机构追踪热点事件或人物动态;在数字图书馆建设中,可用于文献自动标注和知识图谱构建,提升文化遗产的数字化管理效率。
衍生相关工作
围绕该数据集衍生的经典工作主要包括跨语言NER模型适配研究,如基于XLM-R或mBERT的迁移学习框架。部分学者利用其探索低资源条件下的数据增强策略,例如通过回译或实体替换技术扩充语料。这些研究不仅优化了维吾尔语NER性能,也为其他资源稀缺语言提供了可复用的方法论参考。
以上内容由遇见数据集搜集并总结生成



