SampurNER

Hugging Face2025-11-15 更新2025-11-16 收录

下载链接：

https://huggingface.co/datasets/prachuryyaIITG/SampurNER

下载链接

链接失效反馈

官方服务：

资源简介：

我们介绍了SampurNER，这是一个细粒度命名实体识别（FgNER）数据集，涵盖了22种印度语，这些语言被超过20亿人使用。我们提出了一种基于实体的机器翻译（EaMaTa）框架，利用最大的手动标注英文FgNER数据集*FewNERD*，在22种语言中创建了一个大规模的FgNER数据集。平均而言，每个语言的数据集包含超过15.3万个句子、35.4万个实体和330万个标记。覆盖的语言包括：阿萨姆语(as)、孟加拉语(bn)、博多语(brx)、多格里语(doi)、古吉拉特语(gu)、印地语(hi)、卡纳达语(kn)、克什米尔语(ks)、贡根语(gom)、迈蒂利语(mai)、马拉雅拉姆语(ml)、曼尼普尔语(mni)、马拉地语(mr)、尼泊尔语(ne)、奥里亚语(or)、旁遮普语(pa)、梵语(sa)、桑塔利语(sat)、信德语(sd)、泰米尔语(ta)、泰卢固语(te)和乌尔都语(ur)。各种严格的分析和人工评估证实了数据集的高质量，并证明了基于实体的机器翻译（EaMaTa）框架的有效性，与当前最先进的技术相比，F1分数提高了9%。

创建时间：

2025-11-08

原始信息汇总

SampurNER 数据集概述

数据集基本信息

数据集名称：SampurNER
任务类型：词元分类
许可证：MIT
支持语言：22种印度语言

语言覆盖范围

阿萨姆语、孟加拉语、博多语、多格里语、古吉拉特语、印地语、卡纳达语、克什米尔语、孔卡尼语、迈蒂利语、马拉雅拉姆语、曼尼普尔语、马拉地语、尼泊尔语、奥里亚语、旁遮普语、梵语、桑塔利语、信德语、泰米尔语、泰卢固语、乌尔都语

数据集规模

每种语言平均包含：
- 超过153k句子
- 354k实体
- 3.3M词元

数据划分统计

包含训练集、开发集和测试集，各语言具体统计如下：

语言	训练集	开发集	测试集
阿萨姆语	107,249句/237,260实体/2,194,925词元	15,438句/34,560实体/318,105词元	30,658句/67,466实体/625,870词元
孟加拉语	119,296句/287,264实体/2,484,304词元	17,513句/42,877实体/368,063词元	33,374句/79,340实体/689,690词元
博多语	117,659句/262,792实体/2,354,696词元	16,762句/37,496实体/336,269词元	33,615句/74,576实体/672,246词元
多格里语	112,329句/264,154实体/2,885,149词元	17,619句/42,526实体/459,537词元	34,931句/82,597实体/903,796词元
古吉拉特语	126,581句/315,919实体/2,828,298词元	18,122句/45,431实体/406,929词元	28,959句/69,207实体/619,889词元
印地语	124,887句/290,192实体/3,298,116词元	17,882句/41,824实体/457,573词元	35,713句/82,440实体/908,513词元
卡纳达语	115,565句/266,523实体/2,083,241词元	16,962句/39,781实体/308,326词元	26,327句/59,365实体/453,817词元
克什米尔语	123,679句/288,544实体/2,910,937词元	17,417句/40,350实体/408,053词元	35,106句/81,181实体/823,040词元
孔卡尼语	83,415句/182,806实体/1,637,018词元	12,276句/27,262实体/243,817词元	23,759句/51,483实体/463,980词元
迈蒂利语	108,826句/256,701实体/2,763,005词元	10,224句/22,706实体/245,657词元	19,899句/43,530实体/472,498词元
马拉雅拉姆语	91,743句/199,485实体/1,504,839词元	15,608句/35,140实体/265,049词元	23,480句/50,319实体/377,213词元
曼尼普尔语	110,068句/246,084实体/2,264,925词元	15,561句/34,869实体/321,556词元	31,463句/69,739实体/644,709词元
马拉地语	125,543句/309,220实体/2,614,024词元	17,650句/43,407实体/367,882词元	36,237句/89,295实体/754,851词元
尼泊尔语	125,695句/311,439实体/2,661,064词元	18,252句/45,778实体/389,382词元	35,498句/87,112实体/747,802词元
奥里亚语	118,633句/289,943实体/2,427,051词元	18,090句/45,247实体/376,152词元	32,477句/78,893实体/657,395词元
旁遮普语	96,986句/234,436实体/2,348,393词元	17,655句/44,415实体/443,788词元	36,920句/92,655实体/928,798词元
梵语	69,581句/152,269实体/1,214,021词元	10,043句/22,175实体/176,574词元	19,729句/42,643实体/341,208词元
桑塔利语	87,650句/153,533实体/2,223,951词元	12,526句/22,159实体/312,706词元	24,921句/43,264实体/619,556词元
信德语	90,362句/214,371实体/2,218,078词元	17,221句/42,845实体/440,340词元	32,159句/78,317实体/809,085词元
泰米尔语	96,004句/216,285实体/1,711,203词元	10,702句/23,542实体/183,893词元	25,160句/55,927实体/441,141词元
泰卢固语	85,893句/193,425实体/1,505,321词元	16,790句/39,909实体/309,345词元	21,729句/47,988实体/372,946词元
乌尔都语	122,794句/298,069实体/298,069词元	17,570句/43,205实体/465,417词元	35,198句/35,198实体/929,427词元

引用信息

bibtex @inproceedings{kaushik2026sampurner, title={SampurNER: Fine-grained Named Entity Recognition dataset for 22 Indian Languages}, author={Kaushik, Prachuryya and Anand, Ashish}, booktitle={Proceedings of the AAAI Conference on Artificial Intelligence}, volume={40}, year={2026} }

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，多语言命名实体识别数据集的构建面临资源稀缺的挑战。SampurNER通过创新的实体锚定机器翻译框架，将大规模人工标注的英文细粒度命名实体数据集FewNERD转化为22种印度语言的平行语料。该方法在翻译过程中保留实体边界与类型信息，经人工评估验证其质量优于现有技术方案，显著提升跨语言实体识别性能。

特点

作为覆盖南亚语言生态的里程碑式资源，该数据集囊括22种印度宪法规定的官方语言，每种语言平均包含15.3万句子、35.4万实体和330万词汇。其细粒度标注体系继承自FewNERD的完整实体分类层级，语言跨度从使用广泛的印地语、孟加拉语到资源极度匮乏的博多语、多格拉语，为低资源语言NLP研究提供了重要基础。

使用方法

研究者可通过HuggingFace平台直接加载数据集进行跨语言实体识别模型训练，其标准化的训练集、验证集与测试集划分支持端到端实验评估。该资源特别适用于多语言联合训练、零样本跨语言迁移等前沿研究方向，通过兼容Transformers库的接口可实现与主流深度学习框架的无缝集成，推动印度语系自然语言处理技术发展。

背景与挑战

背景概述

随着自然语言处理技术在全球范围内的普及，多语言命名实体识别成为跨语言信息抽取的核心任务。SampurNER数据集由研究者Prachuryya Kaushik与Ashish Anand于2026年构建，旨在填补印度语言细粒度命名实体识别资源的空白。该数据集覆盖22种印度官方语言，通过实体锚定机器翻译框架将英文标注数据FewNERD转化为大规模多语言资源，平均每种语言包含15.3万句文本与35.4万个实体标注。其创新性方法论为南亚语言计算语言学提供了重要基础设施，推动跨语言知识迁移研究的发展。

当前挑战

细粒度命名实体识别需解决实体类别语义粒度精细化的核心难题，包括实体边界模糊性与嵌套实体识别等传统瓶颈。在数据集构建过程中，面临低资源语言标注稀缺与语言形态多样性双重挑战，特别是对桑塔利语等极低资源语言的实体对齐与语义保真。机器翻译框架需克服印度语言间语法结构差异与书写系统多样性，确保实体类型在跨语言转换中的一致性，同时维持翻译质量与标注准确度的平衡。

常用场景

经典使用场景

在自然语言处理领域，SampurNER数据集为22种印度语言提供了细粒度命名实体识别的标准基准。该数据集通过实体锚定机器翻译框架构建，平均每种语言包含超过15万句子和35万实体，支持多语言模型的训练与评估。研究人员利用其丰富的标注数据开发跨语言实体识别系统，显著提升了低资源语言的性能表现。

衍生相关工作

基于该数据集衍生的研究推动了多语言预训练模型的创新，如改进的XLM-R架构在印度语言上的适配工作。相关团队进一步扩展了细粒度实体链接任务，建立了跨语言实体对齐基准。在AAAI等顶级会议上涌现的后续研究，持续优化着实体锚定翻译框架在低资源语言上的迁移效果。

数据集最近研究