five

Naamah

收藏
arXiv2026-04-29 更新2026-05-02 收录
下载链接:
https://huggingface.co/datasets/akhil2808/Naamah
下载链接
链接失效反馈
官方服务:
资源简介:
Naamah是由先进计算发展中心·班加罗尔团队构建的大规模梵语命名实体识别(NER)银标准数据集,包含102,942个句子和732,267个标记。该数据集通过结合DBpedia实体提取与24B参数混合推理模型的生成能力创建,覆盖人物、地点和组织三类实体,平均句长7.11词。其创新性在于绕过传统语法模板,利用领域优化的语言模型生成符合梵语形态特征的合成数据,解决了古典语言标注资源稀缺的瓶颈。该数据集主要用于支持梵语数字人文研究,如知识图谱构建和历史文献分析,并验证了领域对齐的分词器对低资源古典语言处理的关键作用。

Naamah is a large-scale Sanskrit Named Entity Recognition (NER) silver-standard dataset constructed by the Advanced Computing Development Center, Bangalore team. It contains 102,942 sentences and 732,267 tokens. This dataset was created by combining DBpedia entity extraction with the generation capabilities of a 24-billion-parameter hybrid inference model, covering three types of entities: persons, locations, and organizations, with an average sentence length of 7.11 words. Its innovation lies in bypassing traditional grammatical templates, using domain-optimized language models to generate synthetic data that conforms to the morphological features of Sanskrit, thus addressing the bottleneck of scarce annotation resources for classical languages. This dataset is primarily used to support Sanskrit digital humanities research such as knowledge graph construction and historical document analysis, and has verified the critical role of domain-aligned tokenizers in low-resource classical language processing.
提供机构:
先进计算发展中心·班加罗尔
创建时间:
2026-04-29
原始信息汇总

数据集概述:Naamah

Naamah 是一个大型、银标准、合成生成的梵语命名实体识别(NER)数据集,包含 102,942 个句子。该数据集利用 Sarvam-M(一个针对印度语言的 24B 参数混合推理模型)的生成能力,结合来自 DBpedia 的结构化实体播种生成。

  • 语言: 梵语(sa
  • 许可证: MIT
  • 任务: 命名实体识别(NER)
  • 格式: BIO(Beginning-Inside-Outside)标注
  • 总示例数: 102,942
  • 唯一标记数(词汇量): 123,923
  • 总标记数: 732,267
  • 创建方法: 大语言模型生成(Sarvam-M)+ DBpedia 播种 + Python 启发式预处理

数据字段

每条数据包含以下字段:

  • id:句子的唯一标识符(字符串类型)。
  • tokens:表示子词或单词的字符串列表(序列类型)。
  • ner_tags:遵循 BIO 方案的分类标签列表(序列类型),标签映射如下:
标签 ID 标签字符串 描述
0 O 外部(非实体)
1 B-PER 人物开始
2 I-PER 人物内部
3 B-LOC 地点开始
4 I-LOC 地点内部
5 B-ORG 组织开始
6 I-ORG 组织内部

数据划分

数据集中仅包含一个划分:

  • 训练集(train): 102,942 个示例
搜集汇总
数据集介绍
main_image_url
构建方式
在梵语数字化资源极度匮乏的背景下,Naamah数据集应运而生。其构建方式独具匠心,首先通过SPARQL查询从大规模多语言知识库DBpedia中系统性地提取人物、地点和组织三大类实体种子,确保实体来源的多样性和广泛性。随后,研究团队利用一个专门为印度语言优化的240亿参数混合推理模型Sarvam-M,将这些实体种子融入语义连贯的梵语句子中,这一生成式方法避开了僵硬的语法模板,使得句子在形态和句法上自然多样。最后,通过基于规则的Python预处理层对原始输出进行过滤,剔除标记不一致、格式错误或边界模糊的样本,最终保留了102,942条高质量银标准句子,以JSONL格式呈现,并采用标准的BIO标注方案。
特点
Naamah数据集的核心特色在于其规模、多样性与针对性。该数据集包含102,942条句子,总词符数达732,267个,其中唯一词符数为123,923个,展现了高度的词汇丰富性。尤其值得注意的是,实体集合不仅包含传统的印度古典实体,还融入了如Giacomo Libera等现代国际人物和地名的天城文转写形式,这迫使下游模型必须学习底层的句法模式而非依赖词汇熟悉度。此外,数据集的平均句子长度仅为7.11个词符,结构紧凑,便于模型捕捉实体形态变化。实验表明,采用域适应分词器的IndicBERTv2在该数据集上取得了0.9615的验证F1值,显著优于通用多语言模型XLM-RoBERTa,揭示了对于梵语这类形态丰富语言,分词器与语言的匹配度比模型参数量更为关键。
使用方法
Naamah数据集的使用方法直观且高效,适用于训练和评估梵语命名实体识别系统。用户可直接从Hugging Face平台获取JSONL格式的数据,该格式遵循BIO标注框架,标签映射为数字标识符(如O:0, B-PER:1),便于直接输入序列标注模型。建议使用者采用与IndicBERTv2类似的域适应分词器,以保持梵语复合词(如sandhi现象)的语义完整性。在训练时,可参考论文中采用的标签优先策略,即将BIO标签仅分配给实体的第一个子词,其余子词用忽略索引-100掩码,迫使模型基于词根进行预测。此数据集特别适合作为预训练或迁移学习的基础,也可与少量人工标注的金标准数据结合,进一步提升模型在真实古典文本上的泛化能力。
背景与挑战
背景概述
梵语作为南亚知识史的核心载体,其数字化进程长期受困于标注资源的匮乏,尤其体现在命名实体识别(NER)这一构建知识图谱、数字语文学等下游任务的基石领域。由印度高级计算发展中心(C-DAC)的Annarao Kulkarni与Akhil Rajeev P于2025年提出的Naamah数据集,旨在填补这一空白。该数据集包含102,942条高质量银标准句子,通过融合DBpedia结构化实体抽取与面向印度语言的240亿参数混合推理模型的生成管道,绕过了传统规则模板的僵硬性,产出了形态多样、句法自然的语料。Naamah的诞生不仅为低资源古典语言的NER研究提供了规模化训练基础,更通过对比XLM-RoBERTa与IndicBERTv2的实验,揭示了领域对齐的分词策略对梵语实体识别的重要性,为后续数字人文与计算语言学研究开辟了新路径。
当前挑战
该数据集面临的核心挑战源于梵语自身的语言学复杂性及资源建设的双重困境。首先,梵语具有高度形态复合性,实体通过复杂的变格与连音(sandhi)融合,如单个实体“Rama”可呈现超过24种表层形式,而传统规则系统与字符串匹配难以捕捉此类变异。其次,数据构建过程需克服标注稀缺瓶颈:手动标注依赖稀有领域专家,成本高昂且难以规模化;现有方法如跨语言投影因结构错位引入噪声,通用大语言模型则缺乏对印度文字领域知识的扎根,生成结果易出错。Naamah通过DBpedia种子多样性确保实体覆盖,并利用领域优化模型生成句法自然的数据,再经预过滤去除不一致标签,但合成数据的质量仍受限于源实体偏倚与过滤启发式规则,且复杂连音模式在真实古典文献中尚未充分模拟,从银标准迈向黄金标准仍需专家验证与标注体系适配。
常用场景
经典使用场景
在数字人文与梵文计算语言学的交叉领域中,Naamah数据集主要被用于训练和评估面向古典语言的命名实体识别模型。该数据集包含了102,942条合成梵文句子,覆盖人物、地点和组织三大实体类别,标注格式采用标准的BIO标签体系。研究者利用这一资源,能够将现代深度学习架构应用于梵文文本的信息抽取任务,从而绕过传统规则方法在处理复杂形态变化时的局限性。Naamah特别适合用于验证不同tokenizer设计对梵文实体边界识别的影响,以及探索大规模合成数据对低资源古典语言NER性能的提升效果。
解决学术问题
Naamah数据集的核心贡献在于有效缓解了古典梵文NER研究中标注资源极度匮乏的困境。长期以来,梵文因其复杂的词形变化、丰富的格标记以及连音现象,使得人工标注高质量语料库成本高昂、进展缓慢。Naamah通过结合DBpedia结构化知识抽取与针对印度语言的24B参数混合推理大模型生成,创造性地避开了跨语言标注投影中的对齐误差问题。该数据集为学术界提供了一个可复现、大规模的银标准训练基石,使得研究者能够系统性地比较领域适应型tokenizer与通用多语言tokenizer在梵文NER任务上的表现差异,揭示了语言对齐的分词策略对于古典语言模型性能的至关重要性。
衍生相关工作
Naamah数据集的提出催生了一系列重要的后续研究,特别是在梵文NER的tokenizer优化与低资源合成数据策略方面。论文中通过对XLM-RoBERTa与IndicBERTv2的对比实验,首次系统性地论证了领域适应型tokenizer在处理梵文连音和屈折形态上的优势,这一发现直接推动了后续针对古典语言的分词器定制工作。此外,Naamah所采用的DBpedia种子抽取与LLM驱动的生成流水线,为其他低资源古典语言(如巴利语、阿维斯塔语等)的数据集构建提供了可借鉴的范式。该数据集的公开也促进了将银标准与少量金标准人工标注相结合的半监督学习方法的发展,进一步提升了古典语言NER系统的稳健性。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作