five

Naamah

收藏
Hugging Face2026-02-26 更新2026-02-27 收录
下载链接:
https://huggingface.co/datasets/akhil2808/Naamah
下载链接
链接失效反馈
官方服务:
资源简介:
Naamah 是一个大规模、银标准的合成梵语命名实体识别(NER)数据集,包含102,942个句子。该数据集通过结合 Sarvam-M(一个针对印度语言优化的24B参数混合推理模型)的生成能力和 DBpedia 的结构化实体种子生成。为确保下游模型学习到稳健的语法模式(如 Vibhakti 格尾),数据集特意融合了古典梵语实体和现代全球实体的音译。初始生成的200,000个句子经过基于 Python 的启发式过滤,最终形成高质量语料库,确保严格的 BIO 标签对齐。数据集结构包括每个条目的唯一 ID、标记列表(梵语/音译词)和对应的 NER 标签列表(整数 ID 形式)。标签遵循 BIO 方案,涵盖人物(PER)、地点(LOC)和组织(ORG)的起始和内部标记。

Naamah is a large-scale silver-standard synthetic Sanskrit Named Entity Recognition (NER) dataset containing 102,942 sentences. It is constructed by combining the generative capabilities of Sarvam-M, a 24B-parameter hybrid inference model optimized for Indian languages, and structured entity seeds from DBpedia. To ensure that downstream models learn robust syntactic patterns such as Vibhakti case endings, the dataset intentionally incorporates transliterations of both classical Sanskrit entities and modern global entities. The initially generated 200,000 sentences underwent Python-based heuristic filtering, resulting in a high-quality corpus with strictly aligned BIO tags. The dataset structure includes a unique ID for each entry, a list of tokens (Sanskrit/transliterated words), and a corresponding list of NER labels in integer ID format. The labels follow the BIO schema, covering the beginning and inside tokens for person (PER), location (LOC), and organization (ORG) entities.
创建时间:
2026-02-12
搜集汇总
数据集介绍
main_image_url
构建方式
在低资源语言处理领域,构建高质量标注数据集常面临挑战。Naamah数据集的构建巧妙地融合了前沿生成技术与结构化知识源,其核心流程依托于专为印度语言优化的Sarvam-M混合推理大模型。该模型接收从DBpedia中提取的实体种子,生成包含这些实体的原始梵语句子。为确保数据质量,研究团队对初始生成的二十万句子进行了基于Python启发式规则的严格过滤,重点校验BIO标注格式的一致性,最终精炼出十万余条高质量的银标准语料,有效平衡了生成规模与标注准确性。
特点
作为面向梵语的大规模命名实体识别数据集,Naamah展现出若干鲜明特征。其语料规模宏大,包含超过十万个句子和七十三万余个词元,为模型训练提供了充足的数据支撑。在实体构成上,数据集有意融合了古典梵语实体与现代全球实体的梵文转写,旨在促使模型学习诸如格尾变化等深层语法模式,而非简单记忆传统名称。数据格式采用标准的BIO标注体系,涵盖人物、地点和组织三类实体,结构清晰规范,为下游任务提供了直接可用的基准。
使用方法
该数据集主要服务于梵语命名实体识别任务的研究与模型开发。使用者可通过HuggingFace数据集库直接加载,其数据字段包括句子ID、词元序列及对应的NER标签序列。研究人员可利用该数据训练或评估序列标注模型,尤其适用于探索低资源语言环境下,合成数据对模型泛化能力的提升效果。鉴于其合成数据的特性,建议在应用前进行必要的质量验证,并可考虑与少量人工标注数据结合使用,以优化最终性能。
背景与挑战
背景概述
在自然语言处理领域,低资源语言的命名实体识别任务长期面临数据稀缺的困境,尤其是对于梵语这类古典语言。Naamah数据集应运而生,由研究团队于近期创建,其核心在于利用Sarvam-M这一针对印度语言优化的混合推理大模型,结合DBpedia的结构化实体种子,生成了大规模、高质量的银标准合成数据。该数据集旨在推动梵语信息抽取技术的发展,通过引入多样化的古典与现代实体,增强模型对梵语语法形态(如Vibhakti格尾变化)的泛化能力,从而为低资源语言处理研究提供了宝贵的资源支撑。
当前挑战
Naamah数据集所针对的梵语命名实体识别任务,其挑战主要源于语言的古典性与形态复杂性,模型需准确解析高度屈折的词汇形态与实体边界。在构建过程中,研究团队面临合成数据质量控制的难题,初始生成的二十万句子需通过启发式过滤严格对齐BIO标注,以消除噪声并确保标注一致性。此外,平衡古典梵语实体与现代全球实体的比例,避免模型对特定名称模式的过拟合,亦是构建过程中的关键挑战。
常用场景
经典使用场景
在低资源语言处理领域,Naamah数据集为梵语命名实体识别任务提供了关键支持。该数据集通过合成方法生成了大规模标注语料,典型应用场景包括训练和评估跨语言或单语言NER模型,尤其适用于探索梵语文本中人物、地点和组织等实体的自动识别。研究者利用其丰富的标注结构,能够深入分析梵语语法特征如格尾变化对实体边界判定的影响,从而推动计算语言学在古典语言分析中的进展。
解决学术问题
Naamah数据集有效缓解了梵语作为低资源语言在自然语言处理研究中标注数据稀缺的困境。它通过结合Sarvam-M模型的生成能力与DBpedia的结构化知识,构建了高质量的银标准语料,解决了传统方法中因数据不足导致的模型泛化能力弱的问题。该数据集支持对实体识别中语法形态敏感性的研究,为探索合成数据在低资源场景下的有效性提供了实证基础,对促进印度语系语言的信息提取研究具有重要学术意义。
衍生相关工作
围绕Naamah数据集,已衍生出一系列针对低资源语言处理的经典研究工作。这些工作主要集中于探索合成数据生成方法在印度语系语言中的适应性,以及基于迁移学习的跨语言NER模型构建。部分研究进一步利用该数据集的标注模式,开发了结合语法规则的混合模型,以提升对梵语复杂形态结构的识别性能。这些成果不仅丰富了低资源语言处理的技术路径,也为其他古典语言的计算机辅助研究提供了可借鉴的框架。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作