地名数据集

github2024-11-20 更新2024-11-22 收录

下载链接：

https://github.com/GISer2000/chinese_ner_place

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含外交部门公开的新闻标题，共500条标注数据，使用BIO-三位序列标注法进行标注，数据划分为训练集、验证集和测试集，比例为8:1:1。

This dataset consists of 500 annotated news headlines publicly released by diplomatic departments. All samples are annotated using the BIO three-sequence tagging scheme, and the dataset is split into training, validation, and test sets with a ratio of 8:1:1.

创建时间：

2024-11-18

原始信息汇总

中文地名提取数据集

简介

本项目使用中文数据集，训练了一个用于从中文非结构化的文本中提取地名的模型。参考了《Transformer based named entity recognition for place name extraction from unstructured text》的方法。

文件说明

data：包含标注数据的文本文件。
bert_ner.ipynb：基线模型。
bert_crf_ner.ipynb：拟议模型。
crf.py：条件随机场（Conditional Random Field），拟议模型需要用到。
model：需要下载bert-base-chinese模型，并放置在此目录。

标注数据

使用MarkStudio进行实体标注。
采用BIO-三位序列标注法(B-begin，I-inside，O-outside)进行标注。

拟议模型

Embedding layer：
- Pre-trained: Transformer
Intermediate layers：
- Transformer
Classification layer：
- CRF

数据集说明

数据来源：外交部门公开的新闻标题。
数据量：500条标注数据。
数据划分：train:val:test ——> 8:1:1。

测试结果

模型	Accuracy	Macro-Precision	Macro-Recall	Macro-F1
BERT	0.9962	0.9822	0.9880	0.9851
BERT_CRF	0.9962	0.9880	0.9880	0.9880

搜集汇总

数据集介绍

构建方式

地名数据集的构建基于《Transformer based named entity recognition for place name extraction from unstructured text》一文中提出的方法，专门针对中文非结构化文本进行地名提取。数据集的标注过程采用MarkStudio工具，利用BIO三位序列标注法对地名进行精确标注。具体而言，B-X表示实体X的开头，I-X表示实体X的中间或结尾，O表示不属于任何类型的实体。数据集包含500条标注数据，涵盖外交部门公开的新闻标题，并按照8:1:1的比例划分为训练集、验证集和测试集。

特点

地名数据集的显著特点在于其针对中文非结构化文本的专门设计，以及使用先进的BIO三位序列标注法进行精确标注。此外，数据集的构建过程中采用了预训练的Transformer模型和条件随机场（CRF）进行分类，确保了地名提取的高精度和高召回率。数据集的多样性体现在其涵盖的外交部门公开新闻标题，为地名提取任务提供了丰富的语境和实例。

使用方法

使用地名数据集时，用户需首先下载并配置bert-base-chinese模型，并将其放置在指定的model目录中。随后，用户可以通过运行bert_ner.ipynb或bert_crf_ner.ipynb文件来加载和训练模型。对于模型的训练和评估，用户可以参考README文件中提供的详细步骤和参数设置。数据集的标注数据和模型文件均提供了清晰的说明，确保用户能够顺利进行地名提取任务的实验和应用。

背景与挑战

背景概述

地名数据集的创建源于对从非结构化文本中高效提取地理信息的需求。该数据集由一组研究人员和机构于近期开发，旨在通过使用Transformer模型和条件随机场（CRF）技术，提升地名识别的准确性和效率。其核心研究问题是如何在复杂的中文文本环境中，准确地识别和标注地名实体。这一研究不仅填补了中文地名识别领域的空白，还为地理信息系统（GIS）和自然语言处理（NLP）领域的进一步发展提供了宝贵的资源。

当前挑战

地名数据集在构建过程中面临多项挑战。首先，中文文本的复杂性使得地名识别任务尤为艰巨，需要高度精确的模型和标注方法。其次，数据集的标注依赖于BIO三位序列标注法，这种标注方法虽然有效，但在处理多义词和歧义地名时仍存在困难。此外，尽管BERT和BERT_CRF模型在测试集上表现优异，但在实际应用中，如何处理大规模文本和实时数据仍是一个未解的难题。这些挑战不仅影响了数据集的构建效率，也对其在实际应用中的表现提出了更高的要求。

常用场景

经典使用场景

地名数据集在自然语言处理领域中，主要用于从非结构化的中文文本中提取地名信息。通过使用预训练的Transformer模型结合条件随机场（CRF），该数据集能够高效地识别和标注文本中的地名实体。这一过程不仅提升了地名提取的准确性，还为后续的地理信息系统（GIS）应用提供了可靠的数据支持。

衍生相关工作

地名数据集的发布和应用，催生了多项相关研究工作。例如，基于该数据集的改进模型在多个自然语言处理竞赛中取得了优异成绩，进一步验证了其有效性。此外，该数据集还被用于开发新的地理信息提取工具，推动了地理信息科学和自然语言处理技术的交叉研究。

数据集最近研究