stefan-it/autotrain-flair-hipe2022-fr-hmbert

Name: stefan-it/autotrain-flair-hipe2022-fr-hmbert
Creator: stefan-it
Published: 2023-09-04 19:03:16
License: 暂无描述

Hugging Face2023-09-04 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/stefan-it/autotrain-flair-hipe2022-fr-hmbert

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集主要用于命名实体识别（NER）模型的微调，涉及多种语言和数据集，包括英语、德语、法语、芬兰语、瑞典语和荷兰语。数据集来源于HIPE-2020、HIPE-2022和Europeana等项目，具体包括AjMC、NewsEye、TopRes19th、ICDAR-Europeana和LeTemps等。

This dataset is used for fine-tuning Named Entity Recognition (NER) models using the Flair framework on datasets from the HIPE-2022 Shared Task. It includes text data in various languages from HIPE-2020, HIPE-2022, and Europeana for evaluating and training language models.

提供机构：

stefan-it

原始信息汇总

NER Fine-Tuning

数据集

来源: HIPE-2022
任务: HIPE-2022 Shared Task

使用的语言模型

平台: Lambda Cloud
实例: A10 (24GB) 和 A100 (40GB)
框架: Flair

数据集概览

语言	数据集
英语	[AjMC] - [TopRes19th]
德语	[AjMC] - [NewsEye]
法语	[AjMC] - [ICDAR-Europeana] - [LeTemps] - [NewsEye]
芬兰语	[NewsEye]
瑞典语	[NewsEye]
荷兰语	[ICDAR-Europeana]

结果

评估指标: 平均 F1-score
运行次数: 5 次不同种子

模型	英语 AjMC	德语 AjMC	法语 AjMC	德语 NewsEye	法语 NewsEye	芬兰语 NewsEye	瑞典语 NewsEye	荷兰语 ICDAR	法语 ICDAR	法语 LeTemps	英语 TopRes19th	平均
hmBERT (32k) Schweter et al.	85.36 ± 0.94	89.08 ± 0.09	85.10 ± 0.60	39.65 ± 1.01	81.47 ± 0.36	77.28 ± 0.37	82.85 ± 0.83	82.11 ± 0.61	77.21 ± 0.16	65.73 ± 0.56	80.94 ± 0.86	76.98
hmTEAMS (Ours)	86.41 ± 0.36	88.64 ± 0.42	85.41 ± 0.67	41.51 ± 2.82	83.20 ± 0.79	79.27 ± 1.88	82.78 ± 0.60	88.21 ± 0.39	78.03 ± 0.39	66.71 ± 0.46	81.36 ± 0.59	78.32

搜集汇总

数据集介绍

构建方式

该数据集基于HIPE-2022共享任务中的多语种历史文档语料库构建，聚焦于法语命名实体识别（NER）任务。利用Flair框架对hmBERT模型进行微调，采用配置驱动的超参数搜索策略，通过脚本`flair-fine-tuner.py`实现模型优化。同时，借助Hugging Face AutoTrain Advanced工具自动化微调流程，在A10和A100 GPU实例上完成训练，确保高效计算与可复现性。数据集涵盖了法语的多领域来源，包括AjMC、ICDAR-Europeana、LeTemps和NewsEye等，以支持历史文本的细粒度实体标注。

使用方法

使用该数据集时，需先通过Git克隆Flair框架并切换到指定提交版本，随后安装依赖。接着克隆hmTEAMS仓库并进入bench目录，通过Hugging Face CLI进行授权登录以获取模型访问权限。用户可通过`flair-fine-tuner.py`脚本执行配置驱动的微调，或利用AutoTrain Advanced工具自动化训练，需设置环境变量如`CONFIG`和`HF_TOKEN`。具体实现细节参考`script.py`文件，支持自定义超参数配置以适应不同NER任务需求。

背景与挑战

背景概述

在自然语言处理领域，命名实体识别（NER）作为信息抽取的核心任务，其性能高度依赖于领域适配与多语言泛化能力。该数据集源自2022年HIPE评测任务（HIPE-2022 Shared Task），由Stefan Schweter等研究人员基于Flair框架构建，旨在探索历史文档中多语言实体的识别与消歧。研究团队利用hmBERT与hmTEAMS等预训练语言模型，针对英语、德语、法语、芬兰语、瑞典语及荷兰语六种语言，覆盖AjMC、NewsEye、ICDAR-Europeana等九个历史文档数据集进行微调。该工作不仅推动了历史文本领域的NER技术发展，还通过开源模型库与自动化微调脚本（如AutoTrain Advanced）为后续研究提供了可复现的基准。其核心研究问题聚焦于如何通过跨语言迁移与领域自适应提升低资源历史语料的标注精度，对数字人文与计算语言学领域产生了显著影响。

当前挑战

该数据集面临的核心挑战在于历史文档中语言变异与噪声的复杂性。首先，历史文本的拼写不规范、印刷模糊及语法演变导致实体边界模糊，传统NER模型易受领域漂移影响，例如德语NewsEye数据集的F1值仅约40%，显著低于现代文本表现。其次，多语言覆盖的异构性带来标注一致性难题，不同语料库（如法语ICDAR与LeTemps）的实体类型定义与标注粒度存在差异，跨语言迁移时需平衡通用特征与语言特异性。此外，构建过程中面临资源稀缺问题，历史语料的手工标注成本高昂，且部分语言（如芬兰语）的预训练模型匮乏，需依赖单语数据增强或跨领域微调策略。最后，模型在低资源场景下的鲁棒性不足，同一语言内不同数据集（如法语AjMC与NewsEye）的性能波动超过15%，亟需更优的领域自适应算法与知识蒸馏技术。

常用场景

经典使用场景

该数据集专为历史文本中的命名实体识别任务而设计，其核心应用场景聚焦于跨语种、跨领域的历史文档信息抽取。基于HIPE-2022共享任务所构建的标注语料，覆盖英语、德语、法语、芬兰语、瑞典语及荷兰语六种语言，并整合了AjMC、NewsEye、ICDAR-Europeana等多样化历史语料库。研究者可借助Flair框架对该数据集进行微调，从而训练出能够精准识别历史文献中人物、地点、组织等实体类别的NER模型，尤其适用于印刷文本与手写文档混合的复杂历史场景。

解决学术问题

该数据集着力解决历史文档领域长期存在的标注资源匮乏与领域迁移难题。传统NER模型多基于现代文本训练，在历史语料上表现不佳，原因在于历史语言使用习惯、拼写变体及印刷噪声等差异。通过提供多语言、多领域的高质量标注数据，该数据集系统性地支撑了跨时代、跨语言的命名实体识别研究，显著提升了模型在历史文本上的泛化能力。其意义在于为数字人文学者提供了一种可复现的基准评估框架，推动了历史信息抽取技术的标准化进程。

实际应用

在实际应用中，该数据集驱动的NER模型被广泛部署于历史档案数字化与文化遗产保护领域。例如，图书馆与档案馆可利用这些模型自动从19世纪报纸、历史手稿及政府文件中提取关键实体，从而构建结构化知识库，支持历史事件关联分析、人物关系图谱构建及地理信息溯源。此外，该技术也被应用于数字人文平台，辅助学者快速检索海量历史文献中的特定实体，大幅提升史料整理与研究的效率。

数据集最近研究