ljvmiranda921/tlunified-ner

Name: ljvmiranda921/tlunified-ner
Creator: ljvmiranda921
Published: 2024-07-13 21:14:46
License: 暂无描述

Hugging Face2024-07-13 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/ljvmiranda921/tlunified-ner

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含来自Cruz和Cheng（2021）的TLUnified语料库的标注样本，主要用于命名实体识别（NER）任务。数据集包含约7,000个文档，主要来源于Tagalog新闻报告，类似于ConLL 2003的领域。数据集分为训练集、验证集和测试集，分别包含6252、782和782个样本。数据集的标注过程由三位母语为Tagalog的标注者完成，标注过程中使用了Cohens Kappa和F1-score来评估标注者之间的一致性。数据集的字段包括id、tokens和ner_tags，其中ner_tags用于标注实体类型，包括Person (PER)、Organization (ORG)和Location (LOC)。

This dataset contains the annotated TLUnified corpora from Cruz and Cheng (2021). It is a curated sample of around 7,000 documents for the named entity recognition (NER) task. The majority of the corpus are news reports in Tagalog, resembling the domain of the original ConLL 2003. The dataset is divided into train, validation, and test sets, containing 6252, 782, and 782 examples respectively. The annotation process was carried out by three native Tagalog speakers, and Cohens Kappa and F1-score were used to evaluate inter-annotator agreement. The dataset fields include id, tokens, and ner_tags, where ner_tags are used to label entity types, including Person (PER), Organization (ORG), and Location (LOC).

提供机构：

ljvmiranda921

原始信息汇总

数据集概述

名称: TLUnified-NER
许可证: GPL-3.0
任务类别:
- 词元分类
- 命名实体识别
语言: Tagalog (tl)
大小: 1K<n<10K
标签:
- 低资源
- 命名实体识别
注释创建者: 专家生成
多语言性: 单语种

数据集详细信息

训练与评估索引:
- 配置: conllpp
- 任务: 词元分类
- 任务ID: 实体提取
- 分割:
  - 训练分割: train
  - 评估分割: test
- 列映射:
  - 词元: tokens
  - 实体标签: tags
- 评估指标:
  - 类型: seqeval
  - 名称: seqeval
数据字段:
- id: 字符串类型
- tokens: 字符串列表类型
- ner_tags: 分类标签列表，可能值包括 O (0), B-PER (1), I-PER (2), B-ORG (3), I-ORG (4), B-LOC (5), I-LOC (6)
注释过程:
- 作者与两名注释者共同标注，历时四个月
- 注释者均为Tagalog母语者
- 遵循Reiters (2017)的标注流程
- 通过计算Cohens Kappa和F1-score评估注释一致性
  - Cohens Kappa (所有词元): 0.81
  - Cohens Kappa (仅注释词元): 0.65
  - F1-score: 0.91

数据集统计

数据集	示例数	PER	ORG	LOC
训练	6252	6418	3121	3296
开发	782	793	392	409
测试	782	818	423	438

引用信息

@misc{miranda2023developing, title={Developing a Named Entity Recognition Dataset for Tagalog}, author={Lester James V. Miranda}, year={2023}, eprint={2311.07161}, archivePrefix={arXiv}, primaryClass={cs.CL} }

搜集汇总

数据集介绍

构建方式

在低资源语言处理领域，构建高质量标注数据集是推动自然语言处理技术发展的关键。TLUnified-NER数据集的构建过程体现了严谨的学术规范，其核心语料源自Cruz与Cheng（2021）整理的TLUnified文本集合。研究团队选取了约七千份以他加禄语为主的新闻文档，由三位母语标注专家历时四个月，遵循迭代式标注流程完成实体标注。每轮标注后，团队会系统性地解决标注分歧、更新标注指南并修正历史标注，严格遵循Reiter（2017）提出的标注方法论。最终标注结果通过计算科恩卡帕系数（整体0.81，已标注部分0.65）与F1分数（0.91）验证了标注者间的高一致性，确保了数据集的可靠性。

特点

作为针对他加禄语设计的命名实体识别数据集，TLUnified-NER展现出鲜明的语言学特征与技术价值。数据集共包含6252条训练样本、782条验证样本与782条测试样本，实体类型涵盖人物（PER）、组织（ORG）与地点（LOC）三类，采用经典的BIO标注体系。其语料主要来源于新闻领域，与CoNLL-2003数据集保持领域相似性，为跨语言模型迁移研究提供了可比性基础。数据集提供两种配置格式：默认配置包含分词语序列与NER标签序列，适用于传统序列标注任务；指令配置则采用文本-实体对结构，支持基于指令的实体抽取研究。这种双格式设计兼顾了传统方法与新兴范式的研究需求。

使用方法

在自然语言处理实践中，TLUnified-NER数据集为低资源语言实体识别研究提供了标准化实验平台。研究者可通过HuggingFace数据集库直接加载数据集，默认配置适用于基于Transformer架构的序列标注模型训练，其数据字段包含id、tokens和符合IOB2规范的ner_tags。对于指令微调研究，可选用instruction配置，该配置以文本片段、实体提及、类型标签三元组形式组织数据。数据集已预分割为训练集、验证集与测试集，支持使用seqeval指标进行标准性能评估。通过配套的spaCy项目工具链，用户可进一步将原始标注转换为IOB格式，或复现从云端存储到模型训练的全流程实验。

背景与挑战

背景概述

TLUnified-NER数据集由Lester James V. Miranda于2023年构建，旨在为低资源语言他加禄语（Tagalog）提供高质量的命名实体识别（NER）标注资源。该数据集基于Cruz和Cheng（2021）的TLUnified语料库，精选约7000份新闻文档，涵盖人物（PER）、组织（ORG）和地点（LOC）三类实体，其标注过程由三位母语专家历时四个月完成，遵循严格的迭代标注协议，并报告了较高的标注者间一致性（Cohen's Kappa达0.81）。作为他加禄语自然语言处理领域的重要基准，该数据集填补了该语言在实体识别任务上的数据空白，为跨语言模型迁移和低资源语言研究提供了关键支撑。

当前挑战

在命名实体识别领域，低资源语言如他加禄语面临标注数据稀缺、模型泛化能力不足的固有挑战。TLUnified-NER数据集旨在应对这些难题，但其构建过程亦遭遇多重困难：一是语料标注需克服语言特异性，如实体边界模糊和缩写歧义，导致标注者间一致性维护成本较高；二是原始文本多源自新闻领域，存在领域偏差，限制了模型在其他文本类型（如社交媒体或学术文献）的应用；三是数据规模相对有限（约7800个示例），虽经精心筛选，但仍可能影响深度学习模型的性能上限。这些挑战共同凸显了低资源语言NLP任务中数据质量与规模平衡的复杂性。

常用场景

经典使用场景

在低资源语言处理领域，TLUnified-NER数据集为塔加洛语（Tagalog）的命名实体识别任务提供了关键支持。该数据集主要应用于训练和评估序列标注模型，特别是针对新闻文本中的人名、组织名和地名三类实体进行自动识别。研究者通常利用其标准化的训练、验证和测试划分，构建基于Transformer架构的预训练模型微调流程，以提升模型在低资源语言环境下的实体边界检测与类型分类性能。

实际应用

在实际应用中，TLUnified-NER数据集为塔加洛语地区的新闻媒体分析、政府文档自动化处理及社交媒体信息挖掘提供了技术基础。例如，媒体机构可利用基于该数据集训练的模型快速提取新闻报道中的关键实体，辅助内容分类与事件追踪；公共服务部门则能借助实体识别技术自动化处理户籍、地理信息系统中的文本数据，提升多语言社会的信息化治理效率。

衍生相关工作

围绕该数据集衍生的经典工作包括Cruz与Cheng（2021）提出的原始TLUnified语料构建框架，以及Miranda（2023）基于spaCy项目实现的标准化数据处理流程。后续研究多聚焦于跨语言预训练模型（如mBERT、XLM-R）在塔加洛语NER任务上的适应性优化，并催生了针对低资源语言的标注增强方法、多任务学习架构等创新方向，逐步形成了塔加洛语计算语言学的技术生态。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集