WikiNER-fr-gold

Name: WikiNER-fr-gold
Creator: 南布列塔尼大学, 法国国家科学研究中心, 法国信息与随机系统研究所
Published: 2024-10-29 16:00:16
License: 暂无描述

arXiv2024-10-29 更新2024-11-06 收录

下载链接：

http://arxiv.org/abs/2411.00030v1

下载链接

链接失效反馈

官方服务：

资源简介：

WikiNER-fr-gold是一个法语命名实体识别（NER）的金标准语料库，由南布列塔尼大学、法国国家科学研究中心和法国信息与随机系统研究所共同创建。该数据集包含26,818条句子，约700,000个标记，是从原始WikiNER-fr语料库中随机抽取的20%进行手动校正后得到的。数据集的创建过程包括定义实体类型、制定标注指南、手动校正错误和一致性问题。该数据集主要用于自然语言处理中的命名实体识别任务，旨在提高法语NER系统的准确性和可靠性。

WikiNER-fr-gold is a gold-standard corpus for French named entity recognition (NER), jointly created by the University of South Brittany, the French National Centre for Scientific Research (CNRS) and the French Institute of Information and Stochastic Systems. It contains 26,818 sentences and approximately 700,000 tokens, which is derived by randomly sampling 20% of the original WikiNER-fr corpus and conducting manual correction. The dataset creation process includes defining entity types, formulating annotation guidelines, and manually correcting labeling errors and consistency issues. This dataset is primarily used for named entity recognition tasks in natural language processing, aiming to improve the accuracy and reliability of French NER systems.

提供机构：

南布列塔尼大学, 法国国家科学研究中心, 法国信息与随机系统研究所

创建时间：

2024-10-29

搜集汇总

数据集介绍

构建方式

WikiNER-fr-gold数据集的构建基于原始WikiNER数据集的法国部分，通过随机抽取20%的句子进行手动校正。原始WikiNER数据集的标注过程依赖于维基百科的超链接，通过分类模型对维基百科页面进行分类，并将这些分类映射到维基百科文章中的提及。然而，这种半监督方法未经过手动验证，因此存在一定的不一致性和错误。为了创建金标准版本，研究团队对抽取的句子进行了详细的错误分析和修正，确保标注的一致性和准确性。

特点

WikiNER-fr-gold数据集的主要特点在于其高质量的标注和广泛的应用范围。该数据集包含了26,818个句子，约700,000个标记，涵盖了四种实体类型：人名（PER）、地点（LOC）、组织（ORG）和杂项（MISC）。其标注格式采用BIOES格式，能够清晰地标识实体的边界。此外，该数据集经过手动校正，减少了原始数据集中的错误和不一致性，使其成为训练和评估命名实体识别系统的理想选择。

使用方法

WikiNER-fr-gold数据集适用于多种自然语言处理任务，特别是命名实体识别（NER）。用户可以通过加载数据集并使用BIOES格式的标注来训练NER模型，或者用于评估现有模型的性能。该数据集的高质量标注和广泛覆盖的实体类型使其成为研究和开发中的宝贵资源。此外，数据集附带的标注指南和工具可以帮助用户更好地理解和利用数据集，确保在不同应用场景中的有效使用。

背景与挑战

背景概述

在自然语言处理（NLP）领域，命名实体识别（NER）是一项关键任务，旨在从非结构化文本中识别出实体并为其分配预定义的类别。WikiNER-fr-gold数据集由Danrun Cao、Nicolas Béchet和Pierre-François Marteau等人创建，是对原始WikiNER法语部分的修订版本。该数据集包含26,818个句子，约700,000个标记，涵盖了人名（PER）、地点（LOC）、组织（ORG）和其他（MISC）四种类型的实体。通过手动校正，WikiNER-fr-gold旨在提供一个高质量的法语NER语料库，以支持NER系统的训练和评估。

当前挑战

构建WikiNER-fr-gold数据集面临多项挑战。首先，原始WikiNER语料库的标注过程采用半监督方式，缺乏手动验证，导致标注质量参差不齐。其次，法语语料库中存在大量由维基百科超链接生成的不一致和错误标注，如重复提及和嵌套实体的标注问题。此外，某些实体的复杂性使得分类变得困难，尤其是涉及地缘政治的实体。最后，由于缺乏与其他标注方案的对比，某些实体的标注选择可能存在争议，例如头衔类实体的标注标准。

常用场景

经典使用场景

WikiNER-fr-gold数据集在自然语言处理领域中，主要用于法语命名实体识别（NER）任务。该数据集通过精心校正的标注，提供了高质量的实体边界和类别信息，适用于训练和评估NER模型。其经典使用场景包括但不限于：在法语文本中自动识别和分类人名、地名、组织机构名和其他实体类型，从而提升信息抽取、文本挖掘和机器翻译等应用的准确性。

实际应用

在实际应用中，WikiNER-fr-gold数据集被广泛用于构建和优化法语NER系统，这些系统在新闻自动化处理、社交媒体监控、法律文书分析和医疗记录管理等领域具有重要应用。通过提高实体识别的准确性，这些系统能够更有效地提取关键信息，支持决策制定和信息检索，从而在多个行业中实现更高的自动化水平和效率。

衍生相关工作

基于WikiNER-fr-gold数据集，研究者们开发了多种NER模型和工具，如基于深度学习的序列标注模型和多任务学习框架。这些工作不仅提升了法语NER的性能，还促进了跨语言NER技术的进步。此外，该数据集还激发了对多语言NER数据集构建和标注方法的深入研究，推动了自然语言处理领域的标准化和互操作性。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集