HindiNER-golden-dataset
收藏Hugging Face2025-06-11 更新2025-06-12 收录
下载链接:
https://huggingface.co/datasets/nis12ram/HindiNER-golden-dataset
下载链接
链接失效反馈官方服务:
资源简介:
HindiNER-golden-dataset是一个包含952个多样化源文本的小型、多样化、高质量的通用印地语命名实体识别数据集。这些源文本是从nisram-hindi-text-0.0数据集中采样的,并且它们的标签是通过Llama-3.3-70B-Instruct模型生成并经过两次手动校正的。
The HindiNER-golden-dataset is a small, diverse, and high-quality general-purpose Hindi named entity recognition (NER) dataset comprising 952 diverse source texts. These source texts are sampled from the nisram-hindi-text-0.0 dataset, and their annotation labels were generated by the Llama-3.3-70B-Instruct model and subsequently manually corrected twice.
创建时间:
2025-06-10
搜集汇总
数据集介绍

构建方式
在印地语命名实体识别研究领域,数据稀缺问题长期存在。本数据集采用三重质量保障机制构建:首先基于Llama-3.3-70B-Instruct模型对源文本进行初始标注,采用贪婪采样策略生成结构化实体数据;随后进行两轮人工校正,首轮剔除低质量实体对并统一语义类型标准,次轮通过模型测试反馈建立规则化清洗流程,最终形成952条经双重校验的高质量样本。
特点
作为专门针对印地语设计的通用领域命名实体识别数据集,其核心特征体现在实体类型的语境化标注体系。每个样本包含原始文本和结构化标签,实体类型采用印地语表述且充分考虑上下文语义,避免了传统粗粒度分类的局限性。数据集虽规模有限,但覆盖主题多样,实体标注遵循严格的质量控制标准,为低资源语言NLP研究提供了宝贵的标注范例。
使用方法
该数据集主要适用于具备印地语-英语双语能力的指令微调模型进行LoRA训练。使用者可通过加载标准数据分割直接获取训练样本,输入字段为原始印地语文本,标签字段采用固定JSON格式包含实体类型及对应值序列。建议在预处理阶段注意实体边界的一致性检查,并充分考虑数据集规模限制,可采用交叉验证或迁移学习策略优化模型性能。
背景与挑战
背景概述
印地语命名实体识别作为自然语言处理领域的关键任务,长期面临高质量标注数据稀缺的挑战。由研究者nis12ram于近期构建的HindiNER-golden-dataset,旨在填补通用领域印地语NER数据集的空白。该数据集从多源文本中精选952个样本,采用大语言模型生成与双重人工校正相结合的创新标注流程,显著提升了标注质量。其出现为低资源语言的实体识别研究提供了重要数据支撑,推动了跨语言NLP技术的发展。
当前挑战
该数据集致力于解决印地语命名实体识别中的标注规范性与数据多样性问题。构建过程中面临三重挑战:首先需克服低资源语言标注标准缺失导致的实体类型界定模糊;其次需处理大语言模型生成标签时存在的语义偏差与上下文理解局限;最后需通过人工校验平衡标注效率与质量,尤其需要消除STEM领域文本覆盖不足带来的领域偏差。这些挑战共同凸显了低资源语言NER数据构建的技术复杂性。
常用场景
经典使用场景
在印地语自然语言处理领域,该数据集主要应用于命名实体识别任务的模型训练与评估。研究者通过其高质量标注样本,能够有效训练模型识别印地语文本中的人名、地名、组织机构等实体类型,为低资源语言的NER研究提供重要数据支撑。
实际应用
在实际应用层面,该数据集支撑的模型可应用于印地语文档智能处理、新闻媒体内容分析、跨语言情报检索等场景。特别是在印度本土数字化服务中,能有效提升政府文档处理、商业数据挖掘和社交媒体监控的自动化水平,具有重要的社会应用价值。
衍生相关工作
基于该数据集衍生的经典工作包括印地语专用LoRA适配器的开发、跨语言NER迁移学习框架的构建,以及多模态印地语信息处理系统的研究。这些工作显著提升了印地语NLP工具链的完整性,为后续构建更大规模的印地语语言模型提供了重要技术铺垫。
以上内容由遇见数据集搜集并总结生成



