five

NER-Bangla-Dataset

收藏
github2023-03-06 更新2024-05-31 收录
下载链接:
https://github.com/MISabic/NER-Bangla-Dataset
下载链接
链接失效反馈
官方服务:
资源简介:
用于孟加拉语命名实体识别的数据集,包含71,284个句子,983,663个令牌,使用IOB和BIOES标记方案。

A dataset for Named Entity Recognition (NER) in Bengali, comprising 71,284 sentences and 983,663 tokens, annotated using the IOB and BIOES tagging schemes.
创建时间:
2020-04-05
原始信息汇总

NER-Bangla-Dataset 概述

数据集统计信息

  • 句子数量:71,284
  • 词元数量:983,663
  • 唯一词元数量:96,154
  • 词元化句子长度:5-30
  • 标注方案:IOB, BIOES

引用信息

若在研究中使用此数据集,请引用以下文献:

  • Karim, Redwanul et al. (2019). A step towards information extraction: Named entity recognition in Bangla using deep learning. Journal of Intelligent & Fuzzy Systems. 37. 1-13. 10.3233/JIFS-179349.
搜集汇总
数据集介绍
main_image_url
构建方式
NER-Bangla-Dataset的构建基于大规模孟加拉语文本,涵盖了71,284个句子和983,663个词汇,其中包含96,154个独特词汇。数据集的句子长度控制在5到30个词汇之间,确保了数据的多样性和代表性。标注方案采用了IOB和BIOES两种格式,为命名实体识别任务提供了丰富的标注信息。
特点
该数据集的特点在于其广泛的词汇覆盖和多样化的句子结构,能够有效支持孟加拉语命名实体识别的研究。数据集中的词汇和句子长度分布合理,标注方案灵活,适用于多种深度学习模型的训练和评估。此外,数据集的构建过程严格遵循学术标准,确保了数据的质量和可靠性。
使用方法
使用NER-Bangla-Dataset时,研究人员可以通过加载数据集中的句子和标注信息,进行命名实体识别模型的训练和测试。数据集的标注格式支持多种深度学习框架,便于模型的开发和验证。建议在使用时引用相关文献,以确保学术研究的透明性和可追溯性。
背景与挑战
背景概述
NER-Bangla-Dataset是一个专注于孟加拉语命名实体识别(NER)的数据集,由Karim等人于2019年创建。该数据集包含71,284个句子和983,663个标记,涵盖了广泛的文本内容,旨在支持孟加拉语信息提取的研究。通过采用IOB和BIOES两种标注方案,该数据集为深度学习模型提供了丰富的训练和测试资源。其发布标志着孟加拉语自然语言处理领域的一个重要里程碑,推动了该语言在信息提取和文本分析方面的研究进展。
当前挑战
NER-Bangla-Dataset面临的挑战主要包括两个方面。首先,孟加拉语作为一种低资源语言,其语法结构和词汇多样性为命名实体识别带来了独特的复杂性,尤其是在处理复合词和多义词时。其次,数据集的构建过程中,标注的一致性和准确性是一个关键问题,特别是在缺乏标准化标注指南的情况下。此外,数据集的规模虽然较大,但在覆盖领域和文本类型上仍存在一定的局限性,这可能影响模型在不同应用场景中的泛化能力。
常用场景
经典使用场景
NER-Bangla-Dataset 数据集在自然语言处理领域中的经典使用场景主要集中在孟加拉语(Bangla)的命名实体识别(NER)任务上。该数据集通过提供大量标注的孟加拉语句子,支持研究人员开发和测试各种深度学习模型,以识别文本中的人名、地名、组织名等实体。这一场景不仅推动了孟加拉语NLP技术的发展,还为多语言NLP研究提供了宝贵的资源。
实际应用
在实际应用中,NER-Bangla-Dataset 被广泛用于开发孟加拉语的智能信息提取系统。例如,在新闻媒体、社交媒体分析和法律文本处理中,该数据集支持的NER模型能够自动识别和分类关键实体,从而提高信息检索的效率和准确性。此外,该数据集还为孟加拉语机器翻译和语音识别系统的开发提供了重要的数据支持。
衍生相关工作
NER-Bangla-Dataset 的发布催生了一系列相关研究,特别是在基于深度学习的孟加拉语NLP领域。例如,Karim等人(2019)利用该数据集开发了基于深度学习的NER模型,显著提升了孟加拉语实体识别的性能。此外,该数据集还被用于多语言NLP研究,推动了跨语言实体识别技术的发展,为全球NLP社区提供了重要的参考。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作