EHRI Multilingual Subject Indexing Test Dataset

github2025-01-20 更新2025-01-24 收录

下载链接：

https://github.com/EHRI/ehri-masi-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由与大屠杀相关的档案材料描述文本组成，每个文本都与EHRI术语控制词汇中的一个或多个主题词相关联。数据集分为训练和测试部分，分别包含25,732和10,860个描述。还有一个用于评估目的的较小测试集（名为`eval`），包含167个项目。

This dataset consists of descriptive texts of archival materials related to the Holocaust. Each text is associated with one or more subject terms from the EHRI controlled vocabulary thesaurus. The dataset is split into training and test sets, containing 25,732 and 10,860 descriptions respectively. There is also a smaller test set named `eval` for evaluation purposes, which includes 167 items.

创建时间：

2025-01-14

原始信息汇总

EHRI 多语言主题索引测试数据集

概述

该数据集包含从与大屠杀相关的档案材料描述中提取的文本，每个文本都与EHRI术语受控词汇表中的一个或多个主题词相关联。该数据集用于支持多语言自动主题索引的研究，并在相关论文中进行了详细描述。

作者

Maria Dermentzi, Orcid: 0000-0001-8159-7600
Mike Bryant, Orcid: 0000-0003-0765-7390
Fabio Rovigo, Orcid: 0000-0001-5760-3185
Herminio García-González, Orcid: 0000-0001-5590-4857

许可证

详见随附文件：LICENSE.txt

数据收集

数据于2023年10月11日从EHRI门户导出。

结构

数据集分为训练集和测试集，分别包含25,732和10,860个描述。此外，还有一个用于评估的较小测试集（名为eval），包含167个项目。

数据处理

数据集的处理过程及分层技术在相关论文中有详细描述。

格式

数据采用Annif全文本文档语料库格式进行结构化，每个文件的基名是EHRI门户上项目的ID。例如，描述的文本包含在some-id.txt中，相关的主题词包含在some-id.tsv中。

可重复性

要复现论文中的结果，请按照以下步骤操作：

安装GIT LFS。
创建并激活虚拟环境。
克隆并安装修改版的Annif。
克隆数据集到数据目录。
激活示例projects.cfg。
加载测试词汇表。
克隆EHRI微调的BERT模型到models目录。
训练Annif模型。
评估Annif模型。
评估EHRI微调模型。
评估MDeBERTa零样本模型。

版本历史

v1.0.0 (2025-01-15): 论文提交的初始版本。

搜集汇总

数据集介绍

构建方式

EHRI多语言主题索引测试数据集的构建基于大屠杀相关档案材料的描述文本，这些文本与EHRI术语控制词汇表中的主题词相关联。数据来源于EHRI门户网站，经过严格的导出和分层处理，分为训练集和测试集，分别包含25,732和10,860条描述，并额外提供了一个包含167项的小型评估集。数据格式采用Annif全文本文档语料库格式，每个文件的基名对应EHRI门户上的项目ID，确保了数据的结构化和可追溯性。

使用方法

使用该数据集时，首先需安装GIT LFS并配置虚拟环境，随后克隆数据集和修改版的Annif工具。通过加载测试词汇表、克隆预训练模型，并依次训练和评估多个Annif模型，用户可以复现论文中的实验结果。具体步骤包括安装依赖、加载词汇表、训练模型以及评估模型性能，最终实现对多语言主题索引任务的全面测试和验证。

背景与挑战

背景概述

EHRI多语言主题索引测试数据集（EHRI Multilingual Subject Indexing Test Dataset）由欧洲大屠杀研究基础设施（EHRI）项目于2023年创建，旨在支持多语言自动化主题索引的研究。该数据集基于与大屠杀相关的档案材料描述文本，并关联了EHRI术语控制词汇中的主题词。主要研究人员包括Maria Dermentzi、Mike Bryant、Fabio Rovigo和Herminio García-González等。该数据集的核心研究问题在于如何利用自然语言处理技术，特别是大语言模型（LLMs），在多语言环境下实现高效的主题索引。其研究成果对档案学、数字人文以及多语言信息检索领域具有重要影响。

当前挑战

该数据集面临的挑战主要体现在两个方面。首先，在领域问题层面，多语言主题索引的复杂性要求模型能够处理多种语言的语义差异，同时准确捕捉与大屠杀相关的特定术语和语境。其次，在数据构建过程中，研究人员需克服数据来源的多样性和语言表达的异质性，确保数据的一致性和标注的准确性。此外，如何在大规模多语言数据集上训练和评估模型，尤其是在资源有限的情况下，也是一个重要的技术挑战。这些挑战不仅考验了模型的泛化能力，也对数据预处理和模型优化提出了更高的要求。

常用场景

经典使用场景

EHRI多语言主题索引测试数据集主要用于多语言自动主题索引的研究。该数据集包含了与大屠杀相关的档案材料描述文本，每段文本都与EHRI术语控制词汇表中的一个或多个主题词相关联。研究人员可以利用该数据集进行多语言文本分类、主题索引算法的开发与优化，以及跨语言信息检索系统的构建与评估。

解决学术问题

该数据集解决了多语言环境下自动主题索引的难题，尤其是在大屠杀研究领域。通过提供标准化的主题词汇和丰富的多语言文本，研究人员能够开发出更精确的自动索引算法，提升跨语言信息检索的效率与准确性。此外，该数据集还为比较不同机器学习模型在多语言主题索引任务中的表现提供了基准。

实际应用

在实际应用中，EHRI多语言主题索引测试数据集被广泛用于档案馆、图书馆和数字人文项目中。通过自动主题索引技术，档案管理员能够更高效地管理和检索多语言档案材料，尤其是在涉及多语言用户群体的场景中。此外，该数据集还为文化遗产保护和大屠杀研究提供了重要的技术支持。

数据集最近研究