codemurt/uyghur_ner_dataset

Name: codemurt/uyghur_ner_dataset
Creator: codemurt
Published: 2023-07-30 05:33:25
License: 暂无描述

Hugging Face2023-07-30 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/codemurt/uyghur_ner_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

--- configs: - config_name: default data_files: - split: train path: data/train-* - split: extra path: data/extra-* dataset_info: features: - name: tokens sequence: string - name: ner_tags sequence: int64 - name: langs sequence: string - name: spans sequence: string splits: - name: train num_bytes: 538947 num_examples: 473 - name: extra num_bytes: 11497 num_examples: 109 download_size: 140314 dataset_size: 550444 license: mit task_categories: - token-classification language: - ug size_categories: - n<1K --- # Uyghur NER dataset ## Description This dataset is in [WikiAnn](https://huggingface.co/datasets/wikiann) format. The dataset is assembled from named entities parsed from Wikipedia, Wiktionary and Dbpedia. For some words, new case forms have been created using [Apertium-uig](https://github.com/apertium/apertium-uig). Some locations have been translated using the Google Translate API. The dataset is divided into two parts: `train` and `extra`. `Train` has full sentences, `extra` has only named entities. Tags: `O (0), B-PER (1), I-PER (2), B-ORG (3), I-ORG (4), B-LOC (5), I-LOC (6)` ## Data example ``` { 'tokens': ['قاراماي', 'شەھىرى', '«مەملىكەت', 'بويىچە', 'مىللەتل…'], 'ner_tags': [5, 0, 0, 0, 0], 'langs': ['ug', 'ug', 'ug', 'ug', 'ug'], 'spans': ['LOC: قاراماي'] } ``` ## Usage with `datasets` library ```py from datasets import load_dataset dataset = load_dataset("codemurt/uyghur_ner_dataset") ```

配置项： - 配置名称：default 数据文件： - 拆分集：train 路径：data/train-* - 拆分集：extra 路径：data/extra-* 数据集信息：特征字段： - 名称：tokens（词元），类型：字符串序列 - 名称：ner_tags（命名实体识别标签），类型：64位整数序列 - 名称：langs（语言标识），类型：字符串序列 - 名称：spans（实体跨度），类型：字符串序列拆分集详情： - 拆分集名称：train 字节大小：538947 样本数量：473 - 拆分集名称：extra 字节大小：11497 样本数量：109 下载总大小：140314 数据集总大小：550444 开源协议：MIT许可证任务类别：词元分类（token-classification）语言：维吾尔语（ug）样本规模：样本数少于1K # 维吾尔语命名实体识别数据集 ## 数据集说明本数据集采用WikiAnn（https://huggingface.co/datasets/wikiann）格式构建，数据源自维基百科、维基词典及DBpedia中提取的命名实体。针对部分词汇，本数据集通过Apertium-uig（https://github.com/apertium/apertium-uig）生成了新的词形变化形式；部分地点名称则借助谷歌翻译API完成译制。本数据集分为`train`与`extra`两个拆分集：`train`包含完整句子，`extra`仅包含命名实体片段。标签说明：`O (0)：非实体`, `B-PER (1)：人物实体起始`, `I-PER (2)：人物实体延续`, `B-ORG (3)：组织机构实体起始`, `I-ORG (4)：组织机构实体延续`, `B-LOC (5)：地点实体起始`, `I-LOC (6)：地点实体延续` ## 数据示例 json { "tokens": ["قاراماي", "شەھىرى", "«مەملىكەت", "بويىچە", "مىللەتل…"], "ner_tags": [5, 0, 0, 0, 0], "langs": ["ug", "ug", "ug", "ug", "ug"], "spans": ["LOC: قاراماي"] } ## 使用`datasets`库加载 python from datasets import load_dataset dataset = load_dataset("codemurt/uyghur_ner_dataset")

提供机构：

codemurt

原始信息汇总

Uyghur NER Dataset Summary

Dataset Structure

Configurations

Default Config:
- Train Data: data/train-*
- Extra Data: data/extra-*

Features

Tokens: Sequence of strings
Ner_tags: Sequence of int64
Langs: Sequence of strings
Spans: Sequence of strings

Splits

Train:
- Size: 538947 bytes
- Examples: 473
Extra:
- Size: 11497 bytes
- Examples: 109

Size and License

Download Size: 140314 bytes
Dataset Size: 550444 bytes
License: MIT

Task and Language

Task Category: Token-classification
Language: Uyghur (ug)
Size Category: Less than 1K examples

Tags

O (0), B-PER (1), I-PER (2), B-ORG (3), I-ORG (4), B-LOC (5), I-LOC (6)

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，维吾尔语命名实体识别数据集的构建融合了多源知识库的整合与语言技术工具的应用。该数据集遵循WikiAnn格式，其核心内容源自维基百科、维基词典及Dbpedia中提取的命名实体。为丰富语言形态，部分词汇通过Apertium-uig工具生成了新的格变形式，而地理位置名称则借助谷歌翻译API进行了跨语言转换。数据集划分为训练集与附加集两部分，前者包含完整句子，后者仅聚焦于命名实体本身，共同构成了面向实体识别任务的标注语料。

特点

该数据集在维吾尔语信息处理中展现出鲜明的结构化特征与语言多样性。其标注体系采用经典的BIO格式，涵盖人物、组织与地点三类实体，并统一以整数编码表示，便于模型直接处理。每条数据均包含词元序列、实体标签、语言代码及实体跨度信息，其中语言代码恒定为维吾尔语标识，确保了语料的纯净性。数据规模虽属小型，但兼具完整句子与独立实体两种形式，为模型训练与评估提供了灵活的数据支撑。

使用方法

借助Hugging Face的datasets库，研究者可便捷地加载并应用此数据集于命名实体识别任务。通过调用load_dataset函数并指定数据集名称，即可获取包含训练集与附加集的结构化数据对象。数据已预分割为训练与额外两部分，用户可直接用于模型训练、验证或测试流程。该接口支持标准的数据迭代与特征访问，能够无缝集成至主流深度学习框架中，加速维吾尔语实体识别模型的开发与实验进程。

背景与挑战

背景概述

在自然语言处理领域，命名实体识别（NER）是信息抽取的关键任务之一，旨在从非结构化文本中识别并分类实体，如人名、组织名和地名。对于资源稀缺的语言，如维吾尔语，高质量标注数据集的构建尤为迫切。该数据集由研究人员或机构基于WikiAnn格式，整合维基百科、维基词典和Dbpedia的解析实体，并借助Apertium-uig工具生成新词形，部分地名通过谷歌翻译API处理，旨在为维吾尔语NER研究提供标准化语料。其创建填补了该语言在实体识别任务上的数据空白，对推动低资源语言的信息处理技术发展具有积极意义。

当前挑战

该数据集致力于解决维吾尔语命名实体识别任务，面临领域挑战包括：低资源语言中实体边界模糊和形态变化复杂，导致模型泛化能力受限；多源数据整合可能引入标注不一致性，影响模型精度。构建过程中，挑战体现在：从维基百科等开放资源提取实体时，需处理数据稀疏性和噪声问题；使用Apertium-uig工具生成新词形时，可能产生非自然语言形式；依赖谷歌翻译API进行地名翻译，存在文化语境丢失风险。这些因素共同增加了数据集的质量控制和模型应用的难度。

常用场景

经典使用场景

在自然语言处理领域，维吾尔语命名实体识别（NER）任务常面临资源稀缺的挑战。该数据集以WikiAnn格式构建，整合了维基百科、维基词典和DBpedia中的命名实体，并利用Apertium-uig工具生成新词形，为研究者提供了标准化的标注语料。其经典使用场景在于训练和评估跨语言或低资源语言的NER模型，通过序列标注方法识别文本中的人名、组织名和地名，为后续信息提取任务奠定基础。

实际应用

在实际应用中，该数据集可服务于多语言搜索引擎、内容推荐系统和舆情监测平台。例如，在社交媒体分析中，它能自动识别维吾尔语文本中的关键实体，帮助机构追踪热点事件或人物动态；在数字图书馆建设中，可用于文献自动标注和知识图谱构建，提升文化遗产的数字化管理效率。

衍生相关工作

围绕该数据集衍生的经典工作主要包括跨语言NER模型适配研究，如基于XLM-R或mBERT的迁移学习框架。部分学者利用其探索低资源条件下的数据增强策略，例如通过回译或实体替换技术扩充语料。这些研究不仅优化了维吾尔语NER性能，也为其他资源稀缺语言提供了可复用的方法论参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集