ner-dataset-modified-dee

github2018-10-18 更新2024-05-31 收录

下载链接：

https://github.com/hallochen/ner-dataset-modified-dee

下载链接

链接失效反馈

官方服务：

资源简介：

用于构建印尼语命名实体识别（NER）的数据集，符合Stanford-NER的数据集格式，包含四种类别：人物、地点、组织和其他。数据集包含20,000个来自印尼语维基百科文章的自动标记句子，提供三个版本。

A dataset designed for constructing Named Entity Recognition (NER) in Indonesian, adhering to the Stanford-NER dataset format. It encompasses four categories: person, location, organization, and miscellaneous. The dataset comprises 20,000 automatically tagged sentences sourced from Indonesian Wikipedia articles, available in three versions.

创建时间：

2018-10-18

原始信息汇总

数据集概述

数据集名称

ner-dataset-modified-dee

数据集用途

用于构建印尼语的命名实体识别（NER）系统。

数据集格式

符合Stanford-NER的数据集格式。

实体类别

PERSON: 人名
PLACE: 地名
ORG: 组织名
Other

数据集版本

原始DEE版本：文件名为20k-dee.txt，属性文件为20k-dee.prop。
Modified DEE版本：文件名为20k-mdee.txt，属性文件为20k-mdee.prop。
Modified DEE + gazettes版本：文件名为20k-mdee-gazz.txt，属性文件为20k-mdee-gazz.prop。

数据集内容

每个版本包含20,000个来自印尼语维基百科文章的自动标记句子。

使用许可

数据集可免费使用，若用于发表论文或出版物，需引用相关出版物。

引用信息

Ika Alfina, Septiviana Savitri, and Mohamad Ivan Fanany, "Modified DBpedia Entities Expansion for Tagging Automatically NER Dataset", in Proceeding of 9th International Conference on Advanced Computer Science and Information Systems 2017. ICACSIS 2017. (accepted).

搜集汇总

数据集介绍

构建方式

本数据集ner-dataset-modified-dee，旨在构建适用于印尼语命名实体识别（NER）的模型。该数据集遵循斯坦福NER的格式，包含四类标签：人名（PERSON）、地名（PLACE）、组织名（ORG）以及其他（Other）。数据集由20,000个自动标注的印尼语维基百科文章句子组成，并提供了三种版本：原始DEE创建的数据集、修改后的DEE创建的数据集以及结合 gazettes 的修改后DEE数据集。

特点

该数据集的特点在于，它不仅基于原始DEE项目，还引入了修改后的DEE方法，并进一步结合 gazettes 以增强实体识别的准确性。数据集完全免费使用，但在学术出版物中引用数据集时，需标注相关论文。此外，每种版本的数据集都附带相应的属性文件，便于模型训练时的参数配置。

使用方法

使用本数据集构建NER模型的步骤包括：下载斯坦福NER库，获取数据集及其属性文件，使用Stanford NER分类器根据属性文件训练模型，并调整JVM堆内存大小以适应计算机的内存限制。训练完成后，可使用测试数据集评估模型性能。具体命令行操作已在README中详细说明，确保用户可以顺利进行模型训练与评估。

背景与挑战

背景概述

ner-dataset-modified-dee数据集是一项旨在构建印度尼西亚语命名实体识别（NER）的研究成果，其遵循了斯坦福NER的数据集格式。该数据集由Ika Alfina、Septiviana Savitri和Mohamad Ivan Fanany等研究人员于2017年构建，并在国际会议上发表了相关论文。该数据集的核心研究问题是提高印度尼西亚语NER的标注质量和准确性，它为印度尼西亚语的自然语言处理领域贡献了重要的资源，对相关研究和应用发展产生了显著影响。

当前挑战

在数据集构建过程中，研究人员面临了多个挑战。首先，确保数据标注的准确性和一致性是一项艰巨的任务，尤其是在涉及多种语言和命名习惯的情况下。其次，构建过程中需要克服的技术挑战包括自动标注系统的开发与优化，以及 gazettes 的整合以增强模型的识别能力。此外，数据集构建完成后，如何高效地利用该数据集训练出性能优异的NER模型，以及如何评估模型的性能，也是当前面临的挑战之一。

常用场景

经典使用场景

在自然语言处理领域，尤其是针对印度尼西亚语的命名实体识别（NER）任务，ner-dataset-modified-dee数据集提供了遵循斯坦福NER格式的基准资源。该数据集包含经过自动标注的20,000个印度尼西亚语维基百科文章句子，涵盖人名、地名、组织名和其他类别。其经典使用场景在于构建和训练NER模型，以便能够准确识别文本中的命名实体。

实际应用

在实际应用中，ner-dataset-modified-dee数据集可用于增强信息检索系统、改善推荐算法，以及提升聊天机器人和语音助手对印度尼西亚语的理解能力，从而在本地化和区域化的语言技术解决方案中发挥着关键作用。

衍生相关工作

基于ner-dataset-modified-dee数据集，研究者已衍生出多项相关工作，包括对NER模型的优化、跨领域实体识别的探索，以及结合 gazettes 的数据集版本，这些工作进一步扩展了数据集的应用范围，并推动了印度尼西亚语自然语言处理领域的进步。

以上内容由遇见数据集搜集并总结生成