NER Dataset, SINGGALANG
收藏github2024-02-21 更新2024-05-31 收录
下载链接:
https://github.com/ialfina/ner-dataset-modified-dee
下载链接
链接失效反馈官方服务:
资源简介:
该仓库包含用于印尼语命名实体识别的数据集,包括三个原始数据集和三个修订版数据集,每个数据集包含20,000个句子。此外,还提供了一个名为SINGGALANG的新数据集,包含48,957个句子,使用MDEE_Gazetteer版本的扩展DBpedia进行标注。数据集遵循Stanford-NER的数据集格式,使用四种命名实体类别:Person、Place、Organisation和O。
This repository contains datasets for Named Entity Recognition (NER) in Indonesian, comprising three original datasets and three revised datasets, each consisting of 20,000 sentences. Additionally, a new dataset named SINGGALANG is provided, which includes 48,957 sentences annotated using the extended DBpedia from the MDEE_Gazetteer version. The datasets adhere to the Stanford-NER dataset format and utilize four named entity categories: Person, Place, Organisation, and O.
创建时间:
2017-09-22
原始信息汇总
数据集概述
主要内容
-
NER数据集:包含三个版本,每个版本由20,000个句子组成,来自印尼语维基百科文章,自动标注。
- 使用原始DEE创建的20k-dee.txt,附带20k-dee.prop属性文件。
- 使用Modified DEE创建的20k-mdee.txt,附带20k-mdee.prop属性文件。
- 使用Modified DEE加gazetteer创建的20k-mdee-gazz.txt,附带20k-mdee-gazz.prop属性文件。
- 由Luthfi等人创建的gold standard。
-
修订版NER数据集:位于
revised-20k文件夹中,是对主文件夹中三个NER数据集的修订版本。 -
原始印尼DBpedia名称:位于
original-dbpedia文件夹中。 -
扩展DBpedia版本:位于
expanded-dbpedia文件夹中,包括MDEE和MDEE_Gazetteer两个版本。 -
SINGGALANG数据集:包含48,957个句子,使用MDEE_Gazetteer版本的扩展DBpedia进行标注,位于
singgalang文件夹中。
数据集格式
- 符合Stanford-NER的数据集格式。
- 使用四种类型的命名实体:
- "Person":人名
- "Place":地名
- "Organisation":组织名
- "O":其他
引用信息
- 使用该数据集发表论文时,需引用以下出版物:
- DEE NER数据集:Ika Alfina, Ruli Manurung, Mohamad Ivan Fanany, "DBpedia Entities Expansion in Automatically Building Dataset for Indonesian NER", ICACSIS 2016.
- MDEE和Singgalang NER数据集:Ika Alfina, Septiviana Savitri, Mohamad Ivan Fanany, "Modified DBpedia Entities Expansion for Tagging Automatically NER Dataset", ICACSIS 2017.
- Gold Standard:Andry Luthfi, Bayu Distiawan, Ruli Manurung, "Building an Indonesian named entity recognizer using Wikipedia and DBPedia", IALP 2014.
如何使用数据集创建NER模型
- 建议使用Stanford NER库。
- 创建NER模型的步骤包括:
-
下载Stanford NER库。
-
下载数据集及其属性文件。
-
使用Stanford NER分类器创建模型,例如:
java -cp stanford-ner.jar edu.stanford.nlp.ie.crf.CRFClassifier -prop 20k-mdee.prop
-
创建或使用测试数据集进行模型评估。
-
搜集汇总
数据集介绍

构建方式
NER Dataset, SINGGALANG的构建基于Modified DBpedia Entities Expansion (MDEE)方法,该方法通过扩展印尼语DBpedia实体来自动生成命名实体识别(NER)数据集。具体而言,数据集包含48,957个句子,这些句子通过MDEE_Gazetteer版本的扩展DBpedia进行标注。此外,该数据集还包含了三个不同版本的NER数据集,每个版本均包含20,000个句子,这些句子均从印尼语维基百科文章中自动标注生成。
使用方法
使用该数据集进行NER模型训练时,建议使用Stanford NER库。首先,下载Stanford-NER库和数据集及其属性文件。接着,使用Stanford NER分类器创建模型,例如通过命令行工具加载属性文件进行训练。训练完成后,可以使用测试数据集对模型进行评估。为了提高训练效率,建议在命令行中增加堆内存大小参数,以适应计算机的内存限制。最后,通过Stanford NER库加载训练好的模型,对测试数据集进行评估,以验证模型的性能。
背景与挑战
背景概述
NER Dataset, SINGGALANG 是由 Ika Alfina 等研究人员在2017年提出的一个印尼语命名实体识别(NER)数据集。该数据集基于 Modified DBpedia Entities Expansion (MDEE) 项目构建,旨在通过自动标注技术为印尼语的自然语言处理任务提供高质量的训练数据。数据集包含了从印尼语维基百科文章中提取的句子,并标注了人名、地名、组织名等实体类别。SINGGALANG 数据集作为该项目的扩展版本,包含了48,957个句子,进一步丰富了印尼语NER研究的资源。该数据集的发布为印尼语的信息抽取、文本分类等任务提供了重要的数据支持,推动了印尼语自然语言处理领域的发展。
当前挑战
NER Dataset, SINGGALANG 在构建和应用过程中面临多重挑战。首先,印尼语作为一种资源相对匮乏的语言,缺乏高质量的标注数据,这为自动标注模型的训练带来了困难。其次,数据集的构建依赖于DBpedia的扩展版本,尽管MDEE_Gazetteer方法提升了标注的准确性,但自动标注过程中仍可能存在噪声和错误,影响模型的性能。此外,印尼语的语法结构和实体表达的多样性增加了实体识别的复杂性,尤其是在处理复合词和多义词时,模型的表现可能受到限制。最后,数据集的规模虽然较大,但与英语等主流语言相比仍显不足,限制了深度学习模型的训练效果。这些挑战为研究者提供了进一步优化数据集和模型的方向。
常用场景
经典使用场景
在自然语言处理领域,NER Dataset, SINGGALANG 数据集被广泛用于训练和评估印尼语命名实体识别模型。该数据集包含丰富的印尼语文本,涵盖了人名、地名、组织名等多种实体类别,为研究者提供了一个标准化的基准,用于测试和改进NER算法的性能。通过使用该数据集,研究者能够深入探索印尼语文本中的实体识别问题,并推动该领域的技术进步。
解决学术问题
NER Dataset, SINGGALANG 数据集解决了印尼语命名实体识别研究中数据稀缺的问题。通过提供大量标注准确的印尼语文本,该数据集为研究者提供了一个可靠的实验平台,用于验证和改进NER模型的性能。此外,该数据集还支持跨语言NER研究,为多语言自然语言处理任务提供了宝贵的数据资源,推动了印尼语NLP领域的发展。
实际应用
在实际应用中,NER Dataset, SINGGALANG 数据集被广泛应用于印尼语文本的信息提取和知识图谱构建。例如,在新闻分析、社交媒体监控和智能客服系统中,该数据集可以帮助识别文本中的关键实体,从而提升系统的智能化水平。此外,该数据集还被用于开发印尼语搜索引擎和推荐系统,为用户提供更加精准的信息检索和个性化服务。
数据集最近研究
最新研究方向
在自然语言处理领域,印尼语命名实体识别(NER)的研究逐渐受到关注。SINGGALANG数据集的发布为这一领域提供了重要的资源支持。该数据集基于扩展的DBpedia MDEE_Gazetteer版本生成,包含48,957个句子,涵盖了人名、地名、组织名等四类实体。近年来,研究者们利用该数据集探索了基于深度学习的NER模型优化方法,特别是在低资源语言环境下的性能提升。此外,结合多语言预训练模型如mBERT和XLM-R,研究者们进一步验证了跨语言迁移学习在印尼语NER任务中的有效性。这些研究不仅推动了印尼语NLP技术的发展,也为其他低资源语言的NER研究提供了借鉴。
以上内容由遇见数据集搜集并总结生成



