prachuryyaIITG/APTFiNER

Name: prachuryyaIITG/APTFiNER
Creator: prachuryyaIITG
Published: 2026-05-02 05:34:56
License: 暂无描述

Hugging Face2026-05-02 更新2026-03-29 收录

下载链接：

https://hf-mirror.com/datasets/prachuryyaIITG/APTFiNER

下载链接

链接失效反馈

官方服务：

资源简介：

APTFiNER是一个通过使用大型语言模型（LLMs）进行注释保留翻译来创建高质量细粒度命名实体识别数据集的框架。利用APTFiNER，创建了六种语言的细粒度命名实体识别数据集：阿萨姆语（as）、博多语（brx）、马拉地语（mr）、尼泊尔语（ne）、泰米尔语（ta）和泰卢固语（te）。数据集统计信息包括每种语言的训练集、开发集和测试集中的句子数、实体数和标记数，以及注释者间一致性（IAA）分数。该数据集是AWED-FiNER生态系统的一部分。

APTFiNER is a framework to create high-quality fine-grained named entity recognition datasets through annotation preserving translation using LLMs. Utilizing APTFiNER, fine-grained named entity recognition dataset is created in six languages: Assamese (as), Bodo (brx), Marathi (mr), Nepali (ne), Tamil (ta) and Telugu (te). The dataset statistics include the number of sentences, entities, and tokens for each languages train, development, and test sets, along with Inter-Annotator Agreement (IAA) scores. The dataset is a part of the AWED-FiNER ecosystem.

提供机构：

prachuryyaIITG

搜集汇总

数据集介绍

构建方式

APTFiNER数据集基于注释保留翻译（Annotation Preserving Translation）框架构建，利用大语言模型将现有细粒度命名实体识别数据集翻译为六种低资源印度语言：阿萨姆语、博多语、马拉地语、尼泊尔语、泰米尔语和泰卢固语。该过程在保留原始实体标注的同时，确保翻译后的文本语义准确且标注完整，最终生成高质量的多语言NER数据集。

特点

该数据集的显著特点在于其覆盖了六种语言的高质量标注，训练集规模从博多语的近37,000个实体到马拉地语的超过172,000个实体不等，且每种语言均包含独立的训练、开发和测试集分割。尤为重要的是，测试集均报告了极高的注释者间一致性（IAA）分数（Cohen's κ值介于0.873至0.901之间），彰显了标注的可靠性与精确度。

使用方法

研究者可通过HuggingFace平台直接加载APTFiNER数据集，因其采用标准token-classification格式，易于接入各类序列标注模型。此外，该数据集融入AWED-FiNER生态系统，支持借助智能代理工具进行交互式NER，例如通过Python的smolagents库实例化专家模型，即可对特定语言（如博多语）的句子执行命名实体识别任务。

背景与挑战

背景概述

APTFiNER数据集由印度理工学院古瓦哈提分校的Prachuryya Kaushik、Adittya Gupta等研究团队于LREC 2026会议上提出，核心致力于解决低资源语言中细粒度命名实体识别（NER）领域的数据稀缺问题。该数据集通过创新的注释保留翻译框架，利用大语言模型将高质量英文NER数据迁移至六种印度低资源语言——阿萨姆语、博多语、马拉地语、尼泊尔语、泰米尔语和泰卢固语，从而创建了大规模、高一致性的细粒度NER语料库。数据集合计包含超过67万条训练语句与逾110万个实体标注，其构建不仅填补了这些语言在细粒度信息抽取领域的空白，还为跨语言NER研究提供了可靠的基准资源，有力推动了多语言自然语言处理在弱势语言中的发展。

当前挑战

APTFiNER面临的挑战主要包括三方面：首先，在领域问题上，现有NER系统在缺乏标注数据的情况下难以识别超细粒度的实体类别（如特定人物头衔、医学药物名称），对低资源语言的覆盖尤为薄弱，导致语言技术与语种多样性之间存在显著鸿沟；其次，在构建过程中，注释保留翻译需应对源语言与目标语言之间的形态句法差异以及实体边界漂移，LLM生成译文中的实体遗漏或语义偏移会直接影响标注质量；再者，评估环节需设计高难度的跨语言一致性验证策略，确保翻译后实体标签的等价性不因语言转换而失真。

常用场景

经典使用场景

APTFiNER数据集在细粒度命名实体识别（NER）领域开辟了全新范式，其核心价值在于通过注释保持翻译技术，将高质量标注资源从资源丰富语言迁移至低资源语言。该数据集覆盖阿萨姆语、博多语、马拉地语等六种印度语言，为多语言NER研究提供了可复现的标准化基准。结合AWED-FiNER生态系统中的智能体工具，研究者可直接调用预训练专家模型，在保留原始实体标签完整性的前提下，处理稀缺语言的实体抽取任务，显著降低跨语言NER的数据构建成本。

解决学术问题

该数据集精准回应了低资源语言NER研究中长期存在的标注数据匮乏与标注不一致性困境。通过引入基于大语言模型的注释保持翻译机制，APTFiNER巧妙跨越了语言边界，在六种语言上实现高达0.875至0.901的标注者间一致性，证明其生成的标注数据具有接近人工标注的可靠性。这一突破性成果瓦解了资源丰富语言与低资源语言之间的数据鸿沟，为推进多语言信息抽取、跨文化文本挖掘等学术探索提供了坚实的数据基石，其方法论更引发了对注释迁移策略通用性的广泛讨论。

衍生相关工作

APTFiNER的诞生催生了多项具有范式影响力的后续研究。其所属的AWED-FiNER生态系统进一步扩展至36种语言，覆盖超过66亿使用者，并衍生出交互式演示工具与智能体框架。同期提出的SampurNER数据集参考其构建思路，将细粒度NER覆盖范围扩展至22种印度语言。此外，跨语言注释投影增强方法CLASSER通过挖掘脚本相似性，巧妙改进了低资源语言间的实体对齐效率。这些工作共同构建起一个从数据构建到工具部署的完整研究链条，持续推动低资源NER领域的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集