HIPE-2022

github2023-12-23 更新2024-05-31 收录

下载链接：

https://github.com/stefan-it/hmBench

下载链接

链接失效反馈

官方服务：

资源简介：

本仓库提供了一个针对历史语言模型在NER数据集上的基准测试，主要关注HIPE-2022等数据集。

This repository provides a benchmark test for historical language models on NER datasets, with a primary focus on datasets such as HIPE-2022.

创建时间：

2023-10-06

原始信息汇总

数据集概述

数据集来源

HIPE-2020
HIPE-2022
Europeana

数据集列表

语言	数据集名称及来源
英语	AjMC - TopRes19th
德语	AjMC - NewsEye - HIPE-2020
法语	AjMC - ICDAR-Europeana - LeTemps - NewsEye - HIPE-2020
芬兰语	NewsEye
瑞典语	NewsEye
荷兰语	ICDAR-Europeana

数据集使用

用于评估和微调历史语言模型，主要关注命名实体识别（NER）任务。
使用Flair进行模型微调，确保一定程度的可重复性。
提供配置驱动的超参数搜索，以及使用Hugging Face AutoTrain Advanced进行模型微调的脚本。

最佳模型

hmTEAMS: Fine-Tuned Historical NER Models (hmTEAMS)
hmBERT: Fine-Tuned Historical NER Models (hmBERT)
hmByT5: Fine-Tuned Historical NER Models (hmByT5)

结果展示

所有模型评估结果可在Hugging Face Model Hub的hmLeaderboard空间查看，链接为这里。

搜集汇总

数据集介绍

构建方式

HIPE-2022数据集的构建主要依托于历史语言模型的基准测试，特别是针对命名实体识别（NER）任务。该数据集整合了多个历史语言模型，如hmBERT、hmTEAMS和hmByT5，并通过Flair框架对这些模型进行微调。数据来源包括HIPE-2020、HIPE-2022以及Europeana等多个历史文本数据集，涵盖了英语、德语、法语、芬兰语、瑞典语和荷兰语等多种语言。通过配置驱动的超参数搜索，确保了模型在不同语言和历史文本上的适应性和性能。

使用方法

使用HIPE-2022数据集时，首先需要安装Flair框架及其相关依赖，并通过Hugging Face Model Hub进行授权。用户可以通过配置驱动的超参数搜索脚本`flair-fine-tuner.py`对NER模型进行微调。此外，数据集还支持使用Hugging Face的AutoTrain Advanced工具进行自动化微调，用户只需提供相应的配置文件和访问令牌即可启动训练。所有微调配置均位于`./configs`文件夹中，用户可根据具体需求选择相应的配置文件进行模型训练与评估。

背景与挑战

背景概述

HIPE-2022数据集是历史语言模型领域的重要资源，专注于命名实体识别（NER）任务。该数据集由HIPE社区于2022年发布，旨在为历史文本的自动处理提供基准支持。数据集涵盖了多种语言，包括英语、德语、法语等，并整合了多个历史文本来源，如AjMC、NewsEye和ICDAR-Europeana等。HIPE-2022的创建得到了Google TPU Research Cloud的支持，其核心研究问题在于如何通过历史语言模型提升对历史文本中命名实体的识别能力。该数据集对历史语言学、数字人文等领域的研究具有重要推动作用，为跨语言、跨时代的文本分析提供了宝贵的数据基础。

当前挑战

HIPE-2022数据集在解决历史文本命名实体识别问题时面临多重挑战。首先，历史文本的语言风格与现代文本存在显著差异，词汇、语法和拼写的变化增加了模型训练的复杂性。其次，数据集的构建过程中需要处理多语言、多来源的文本，数据标注的一致性和准确性成为关键问题。此外，历史文本的稀缺性和不完整性也对数据集的规模和质量提出了挑战。在模型训练方面，如何设计高效的超参数搜索策略以优化历史语言模型的性能，以及如何在有限的计算资源下实现大规模模型的微调，均是亟待解决的技术难题。

常用场景

经典使用场景

HIPE-2022数据集在历史语言模型的命名实体识别（NER）任务中展现了其独特的价值。该数据集广泛应用于多语言历史文本的实体识别，特别是在处理19世纪至20世纪的欧洲历史文献时，能够有效识别出人名、地名、组织名等关键实体。通过结合hmBERT、hmTEAMS等历史语言模型，HIPE-2022为研究者提供了一个标准化的基准，用于评估模型在跨语言和历史文本中的表现。

解决学术问题

HIPE-2022数据集解决了历史文本处理中的多个学术难题。首先，它填补了历史语言模型在跨语言实体识别领域的空白，尤其是在处理多语言历史文献时，模型能够有效应对语言变迁和拼写差异带来的挑战。其次，该数据集通过提供丰富的标注数据，帮助研究者更好地理解历史文本中的语义结构和实体关系，推动了历史语言学与自然语言处理的交叉研究。

实际应用

在实际应用中，HIPE-2022数据集为文化遗产数字化和档案管理提供了重要支持。例如，欧洲的图书馆和档案馆利用该数据集训练的语言模型，能够自动化地识别和标注历史文献中的关键实体，从而加速文献的数字化进程。此外，该数据集还被用于构建历史知识图谱，帮助研究者更高效地挖掘和分析历史事件中的关键人物和地点。

数据集最近研究