FENEC
收藏github2024-05-01 更新2024-05-31 收录
下载链接:
https://github.com/alicemillour/FENEC
下载链接
链接失效反馈官方服务:
资源简介:
FENEC是一个平衡样本数据集,包含六种不同类型,用于评估法语命名实体。数据集根据fin Quæro方案进行命名实体标注。
FENEC is a balanced sample dataset comprising six distinct categories, designed for the evaluation of French named entities. The dataset has been annotated for named entities in accordance with the fin Quæro scheme.
创建时间:
2022-04-27
原始信息汇总
FENEC 数据集概述
数据集描述
FENEC(FrEnch Named-entity Evaluation Corpus)是一个包含六个不同文体的平衡样本语料库,按照fin Quæro方案标注了命名实体。
数据集内容
| # | 文档名 | 来源 | 时期 | 文体 | 句子数(词数) | 许可证 |
|---|---|---|---|---|---|---|
| 1 | prose01-Voltaire | Traité sur la Tolérance, Voltaire | XVIIIe | prose | 40 (1020) | Project Gutenberg |
| 2 | prose02-Zola | Le Ventre de Paris, Émile Zola | XIXe | prose | 51 (1002) | Project Gutenberg |
| 3 | prose03-Giono | LHomme qui plantait des arbres, Jean Giono | XXe | prose | 53 (1013) | Public Domain |
| 4 | poetry01-Baudelaire | Les Fleurs du Mal, Baudelaire | XIXe | poésie | 30 (1014) | Project Gutenberg |
| 5 | poetry02-Rimbaud | OEuvres dArthur Rimbaud - Vers et proses | XIXe | poésie | 52 (1027) | Project Gutenberg |
| 6 | multi01-UDFrenchGSD | UD French GSD | XXIe | multisources | 35 (1021) | CC BY-SA 4.0 |
| 7 | multi02-Sequoia | Sequoia | XXIe | multisources | 44 (1002) | Licence LGPL-LR |
| 8 | multi03-FQB | French Question Bank | XXIe | multisources | 102 (1006) | Licence LGPL-LR |
| 9 | information01-APIL | APIL (office du tourisme Othe-Armance) | XXIe | informations | 29 (1002) | Licence LGPL-LR |
| 10 | information02-Wikinews | Wikinews | XXIe | informations | 46 (1024) | CC BY 2.5 |
| 11 | information03-LEstRepublicain | LEst Républicain | XXIe | informations | 40 (1000) | CC BY-SA 2.0 |
| 12 | encyclopedia01-WikiNER | WikiNER français | XXIe | encyclopédie | 36 (1003) | CC BY 4.0 |
| 13 | spoken01-Rhapsodie | Spoken (Rhapsodie) | XXIe | parole | 70 (1028) | CC BY-SA 4.0 |
| 14 | spoken02-Rhapsodie | Spoken (Rhapsodie) | XXIe | parole | 78 (1014) | CC BY-SA 4.0 |
| 15 | spoken03-Rhapsodie | Spoken (Rhapsodie) | XXIe | parole | 65 (1019) | CC BY-SA 4.0 |
引用信息
Alice Millour, Yoann Dupont, Alexane Jouglar, and Karën Fort. 2022. FENEC : un corpus équilibré pour l’évaluation des entités nommées en français (FENEC : a balanced sample corpus for French named entity recognition ). In Actes de la 29e Conférence sur le Traitement Automatique des Langues Naturelles. Volume 1 : conférence principale, pages 82–94, Avignon, France. ATALA.
搜集汇总
数据集介绍

构建方式
FENEC数据集的构建基于多种来源的文本,涵盖了从十八世纪到二十一世纪的多个时期和不同体裁,包括散文、诗歌、多来源文本、信息类文本、百科全书和口语等。这些文本经过精心挑选和平衡,以确保数据集在不同体裁和时期上的代表性。数据集中的每个文档都经过详细的标注,遵循Quæro命名实体识别方案,确保了标注的一致性和准确性。
特点
FENEC数据集的主要特点在于其多样性和平衡性。数据集包含了15个不同来源的文档,涵盖了六种不同的体裁,从古典文学到现代口语,确保了在不同文本类型和风格上的广泛覆盖。此外,数据集的标注遵循严格的命名实体识别方案,提供了高质量的标注数据,适合用于评估和训练命名实体识别模型。
使用方法
FENEC数据集适用于命名实体识别(NER)任务的评估和训练。用户可以通过加载数据集中的标注文本,利用现有的自然语言处理工具或自定义模型进行实体识别。数据集提供了详细的文档信息和标注格式,便于用户进行数据预处理和模型训练。引用时,建议遵循提供的引用格式,以确保学术规范和数据来源的透明性。
背景与挑战
背景概述
FENEC(FrEnch Named-entity Evaluation Corpus)是一个用于法语命名实体识别评估的平衡样本语料库,由Alice Millour、Yoann Dupont、Alexane Jouglar和Karën Fort于2022年创建。该数据集包含了六个不同文体的文档,涵盖了从十八世纪到二十一世纪的广泛文本,并根据Quæro精细方案进行了命名实体标注。FENEC的构建旨在为法语命名实体识别提供一个标准化的评估基准,推动自然语言处理领域在该方向的研究进展。
当前挑战
FENEC数据集在构建过程中面临了多重挑战。首先,不同文体和时期的文本在语言风格和命名实体的分布上存在显著差异,如何确保数据集的平衡性和代表性是一个重要挑战。其次,命名实体的标注需要高度专业化的知识,确保标注的一致性和准确性也是一大难题。此外,数据集的多样性要求从多个来源获取文本,涉及版权和许可问题,增加了数据集构建的复杂性。
常用场景
经典使用场景
FENEC数据集在法语命名实体识别(Named Entity Recognition, NER)领域中具有广泛的应用。其经典使用场景包括构建和评估法语NER模型的性能,特别是在多领域文本中的实体识别任务。由于FENEC包含了从文学作品到新闻、百科全书等多种文本类型,研究人员可以利用该数据集来测试模型在不同语境下的泛化能力。
实际应用
在实际应用中,FENEC数据集可用于开发和优化法语信息提取系统,如自动文档摘要、搜索引擎优化和智能客服系统。通过在不同领域文本上的训练和测试,这些系统能够更准确地识别和处理法语中的命名实体,从而提高信息处理的效率和准确性。
衍生相关工作
基于FENEC数据集,研究者们开展了多项相关工作,包括改进法语NER模型的架构设计、探索跨领域迁移学习方法以及开发新的评估指标。这些工作不仅推动了法语NER技术的发展,还为其他语言的命名实体识别研究提供了宝贵的参考和借鉴。
以上内容由遇见数据集搜集并总结生成



