five

HiNER

收藏
arXiv2022-04-29 更新2024-07-31 收录
下载链接:
https://github.com/cfiltnlp/HiNER
下载链接
链接失效反馈
官方服务:
资源简介:
HiNER是一个大规模的印地语命名实体识别数据集,由印度理工学院孟买分校计算机与人工智能实验室创建。该数据集包含109,146个句子和2,220,856个标记,共标注了11个类别。数据集的创建过程涉及单个标注者,通过使用自开发的NER工具和引擎进行数据标注和后编辑。HiNER数据集主要用于提高印地语NLP任务的性能,特别是在命名实体识别领域,旨在解决印地语资源匮乏的问题。

HiNER is a large-scale Hindi named entity recognition (NER) dataset developed by the Computer and Artificial Intelligence Laboratory at the Indian Institute of Technology Bombay. This dataset contains 109,146 sentences and 2,220,856 annotated tokens, spanning a total of 11 entity categories. The dataset was constructed by a single annotator, who conducted data annotation and post-editing using self-developed NER tools and engines. Primarily intended to improve the performance of Hindi natural language processing (NLP) tasks, particularly in the field of named entity recognition, the HiNER dataset aims to address the issue of resource scarcity for the Hindi language.
提供机构:
印度理工学院孟买分校计算机与人工智能实验室
创建时间:
2022-04-29
原始信息汇总

HiNER - 印地语命名实体识别数据集

关于

该仓库包含2022年在语言资源和评估会议(LREC)上发布的印地语命名实体识别数据集(HiNER)。arXiv预印本可在此处获取。

最新更新

  • 版本0.0.5:HiNER初始发布

使用方法

您需要安装datasets包才能使用HuggingFace数据集仓库。请使用以下命令通过pip安装:

code pip install datasets

要使用包含所有标签的原始数据集,请使用:

python from datasets import load_dataset hiner = load_dataset(cfilt/HiNER-original)

要使用仅包含PER、LOC和ORG标签的简化数据集,请使用:

python from datasets import load_dataset hiner = load_dataset(cfilt/HiNER-collapsed)

CoNLL格式的数据集文件也可以在本Git仓库的data文件夹中找到。

模型

我们的最佳性能模型托管在HuggingFace模型仓库中:

模型 HiNER - Original HiNER - Collapsed 描述
XLM-R<sub>large</sub> HiNER-Original-XLM-R-Large HiNER-Collapsed-XLM-R-Large 在XLM-R<sub>large</sub>多语言语言模型上进行微调
MuRIL<sub>base</sub> HiNER-Original-MuRIL-Base HiNER-Collapsed-MuRIL-Base 在MuRIL<sub>base</sub>多语言语言模型上进行微调

维护者

Diptesh Kanojia<br/> Rudra Murthy V<br/>

引用

Murthy, R., Bhattacharjee, P., Sharnagat, R., Khatri, J., Kanojia, D. and Bhattacharyya, P., 2022. HiNER: A Large Hindi Named Entity Recognition Dataset. arXiv preprint arXiv:2204.13743.

BiBTeX引用

latex @InProceedings{murthy-EtAl:2022:LREC, author = {Murthy, Rudra and Bhattacharjee, Pallab and Sharnagat, Rahul and Khatri, Jyotsana and Kanojia, Diptesh and Bhattacharyya, Pushpak}, title = {HiNER: A large Hindi Named Entity Recognition Dataset}, booktitle = {Proceedings of the Language Resources and Evaluation Conference}, month = {June}, year = {2022}, address = {Marseille, France}, publisher = {European Language Resources Association}, pages = {4467--4476}, abstract = {Named Entity Recognition (NER) is a foundational NLP task that aims to provide class labels like Person, Location, Organisation, Time, and Number to words in free text. Named Entities can also be multi-word expressions where the additional I-O-B annotation information helps label them during the NER annotation process. While English and European languages have considerable annotated data for the NER task, Indian languages lack on that front- both in terms of quantity and following annotation standards. This paper releases a significantly sized standard-abiding Hindi NER dataset containing 109,146 sentences and 2,220,856 tokens, annotated with 11 tags. We discuss the dataset statistics in all their essential detail and provide an in-depth analysis of the NER tag-set used with our data. The statistics of tag-set in our dataset shows a healthy per-tag distribution especially for prominent classes like Person, Location and Organisation. Since the proof of resource-effectiveness is in building models with the resource and testing the model on benchmark data and against the leader-board entries in shared tasks, we do the same with the aforesaid data. We use different language models to perform the sequence labelling task for NER and show the efficacy of our data by performing a comparative evaluation with models trained on another dataset available for the Hindi NER task. Our dataset helps achieve a weighted F1 score of 88.78 with all the tags and 92.22 when we collapse the tag-set, as discussed in the paper. To the best of our knowledge, no available dataset meets the standards of volume (amount) and variability (diversity), as far as Hindi NER is concerned. We fill this gap through this work, which we hope will significantly help NLP for Hindi. We release this dataset with our code and models for further research at https://github.com/cfiltnlp/HiNER}, url = {https://aclanthology.org/2022.lrec-1.475} }

搜集汇总
数据集介绍
main_image_url
构建方式
在印地语命名实体识别研究领域,数据资源的稀缺性长期制约着模型性能的提升。HiNER数据集的构建遵循了严谨的学术规范,其标注过程以CoNLL-2003共享任务的指南为基础,并融合了OntoNotes的标注理念。研究团队从ILCI旅游领域语料库和Goldhahn等人构建的新闻语料库中选取了共计108,608个句子作为原始文本。为了提升标注效率与一致性,团队专门开发了一套基于PaCMan架构的在线标注工具,该工具集成了后端NER引擎提供初步标注建议,由一名专业标注人员进行人工校对与确认。针对标注过程中的歧义实例,采用了作者多数投票机制进行最终裁定,从而确保了数据标注的准确性与权威性。
特点
HiNER数据集在印地语NLP资源中展现出显著的规模优势与质量特征。该数据集包含超过10万个句子与220余万个词元,其规模远超WikiANN、FIRE 2014等现有印地语NER数据集。标注体系采用了包含11个实体类型的细粒度标签集,在继承Person、Location、Organization等经典类别之外,创新性地引入了Language、Game、Literature、Religion、Festival等具有文化特色的实体类别,并对TIMEX和NUMEX进行了专门标注。数据在训练集、开发集与测试集之间按照70%、10%、20%的比例进行了分层划分,确保了各类实体在分割中的均衡分布,为模型训练与评估提供了可靠的基础。
使用方法
该数据集主要用于训练与评估印地语命名实体识别模型。研究者可按照其提供的标准分割,直接使用训练集进行模型训练,并利用开发集进行超参数调优。在模型评估阶段,测试集可用于计算精确率、召回率与F1分数等核心指标。论文中展示了使用mBERT、XLM-R、IndicBERT及MuRIL等多种预训练语言模型在该数据集上进行微调的实验范例,为后续研究提供了可复现的基准。此外,该数据集支持零样本迁移学习实验,例如将在HiNER上训练的模型应用于FIRE 2014等其它印地语数据集,以检验模型的泛化能力。数据以CC-BY-SA 4.0协议公开发布,便于学术界用于下游NLP任务的研究与开发。
背景与挑战
背景概述
在自然语言处理领域,命名实体识别作为一项基础性任务,对于信息抽取、机器翻译及问答系统等下游应用具有关键支撑作用。2022年,由印度理工学院孟买分校CFILT实验室联合IBM、沃尔玛实验室及萨里大学的研究团队共同发布了HiNER数据集,旨在填补印地语命名实体识别资源在规模与标注标准上的双重空白。该数据集包含超过10万句子与220万词例,标注了包括人物、地点、组织、时间及数字等11类实体标签,其规模显著超越了以往如WikiANN、FIRE 2014等现有资源。HiNER的构建严格遵循CoNLL-2003共享任务标注规范,并引入了更细粒度的实体类别,为低资源语言的深度学习模型训练提供了高质量、多样化的标注数据,有力推动了印地语乃至其他印度语言的自然语言处理研究进展。
当前挑战
HiNER数据集面临的挑战主要体现在领域问题与构建过程两方面。在领域问题上,印地语命名实体识别本身因语言特性而存在固有难点:缺乏大写字母等形态标记,导致实体边界难以界定;专有名词常与普通词汇同形,引发语义歧义;拼写形式随地域变化呈现多样性;自由语序结构则削弱了词性标记与句法模式的辅助作用。这些语言特征使得传统基于规则或浅层机器学习的方法难以取得高精度。在构建过程中,研究团队需克服标注资源稀缺的困境:现有标注数据规模有限且多为自动生成的银标准数据,质量参差不齐;为确保标注一致性,仅依赖单一标注员进行人工标注,虽通过争议实例多数表决机制保障质量,但难以提供标注者间一致性度量;同时,为提升标注效率而开发的辅助NER引擎,受限于训练数据规模,在多词实体识别上误差显著,增加了后期校验负担。
常用场景
经典使用场景
在印地语自然语言处理领域,HiNER数据集为命名实体识别任务提供了大规模、高质量的人工标注资源。该数据集广泛应用于训练和评估各类序列标注模型,特别是基于深度学习的架构,如BiLSTM-CRF和Transformer模型。研究者利用其标准化的训练、开发和测试划分,系统性地比较不同预训练语言模型在印地语实体识别上的性能表现,为低资源语言的NLP研究奠定了坚实的实验基础。
实际应用
在实际应用层面,基于HiNER数据集训练的命名实体识别系统可广泛应用于印地语信息处理场景。在新闻媒体领域,系统能够自动提取人物、地点、组织等关键信息,辅助内容分类和知识图谱构建。在旅游信息服务中,可识别景点名称、时间表达和数字实体,提升智能问答系统的准确性。此外,该系统还能支持跨语言信息检索、机器翻译的前处理以及社交媒体内容分析,为印度本土的数字服务提供核心技术支撑。
衍生相关工作
HiNER数据集的发布催生了多项印地语NLP领域的创新研究。学者们基于该数据集开展了多语言迁移学习探索,比较了mBERT、XLM-R和MuRIL等预训练模型在低资源场景下的适应性。部分研究进一步细化了实体分类体系,针对宗教、文学等特定领域实体开发了专用识别模型。同时,该数据集促进了标注工具链的完善,研究者开发了结合主动学习策略的半自动标注平台,显著提升了印地语文本的标注效率和质量标准。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作