MHERCL
收藏arXiv2025-02-13 更新2025-02-15 收录
下载链接:
https://huggingface.co/datasets/n28div/MHERCL
下载链接
链接失效反馈官方服务:
资源简介:
MHERCL是一个关注音乐遗产领域的历史文本数据集,由博洛尼亚大学LILEC实验室创建。该数据集针对命名实体识别、分类和链接任务进行了标注,包含了大量长期不活跃的实体。数据集选材自历史时期的音乐期刊,旨在解决历史文档中的实体链接问题。
MHERCL is a historical text dataset focusing on the field of musical heritage, created by the LILEC Laboratory of the University of Bologna. This dataset is annotated for named entity recognition, classification and entity linking tasks, and contains a large number of long-term inactive entities. The dataset is sourced from music journals of historical periods, aiming to address the entity linking issues in historical documents.
提供机构:
博洛尼亚大学LILEC实验室
创建时间:
2025-02-13
搜集汇总
数据集介绍

构建方式
MHERCL 数据集的构建基于历史音乐期刊的文本,这些文本来源于 Polifonia Corpus。数据集中的句子均由人工标注,涵盖了音乐遗产领域的命名实体识别、分类和链接任务。构建过程首先从音乐期刊模块中抽取出版日期在 1823 年至 1900 年之间的英语句子,并确保每个句子至少包含一个命名实体。然后,由训练有素的大学生进行人工标注,将命名实体链接到对应的 Wikidata 唯一标识符。数据集的标注遵循 Abstract Meaning Representation (AMR) 的命名实体标注指南,确保了标注的准确性和一致性。
使用方法
MHERCL 数据集可用于评估和改进历史文档中的命名实体识别、分类和链接模型。数据集以 CoNLL-U 格式和 JSONL 格式发布,方便研究人员使用。在实验中,可以将 MHERCL 与现有模型进行对比,以评估模型在历史文档中的性能。此外,MHERCL 还可用于开发新的实体链接模型,特别是针对长尾实体和 NIL 链接的模型。
背景与挑战
背景概述
MHERCL 数据集,全称为 Musical Heritage named Entities Recognition, Classification and Linking,是一个专注于音乐遗产领域的历史文本数据集。该数据集由意大利博洛尼亚大学 LILEC 研究小组创建,旨在解决历史文本中命名实体识别、分类和链接的挑战。MHERCL 数据集包含从音乐领域的历史期刊中提取的手动注释句子,涵盖了在现有知识库中代表性不足或缺失的命名实体。该数据集的创建填补了历史文本处理领域的空白,为文化遗产研究提供了宝贵的资源。MHERCL 数据集对相关领域的影响力体现在其解决了历史文本处理中的关键问题,并为研究人员提供了针对音乐遗产领域进行实体链接的基准数据集。
当前挑战
MHERCL 数据集面临的挑战主要包括:1) 历史文本中命名实体的识别和链接难度较大,由于历史文本的数字化质量参差不齐,以及历史语言与现代语言的差异,导致实体识别和链接的准确性受到影响;2) 现有知识库中音乐遗产领域的命名实体代表性不足,难以满足音乐遗产研究的需求;3) 历史文本中存在大量不在知识库中的实体(NIL 链接),对实体链接模型的性能提出了更高的要求。为了应对这些挑战,MHERCL 数据集采用了手动注释的方式,确保了数据的质量和准确性。同时,MHERCL 数据集还提出了 Entity Linking Dynamics (ELD) 和 Constrained-BLINK (C-BLINK) 两种模型,以解决历史文本中实体链接的难题。ELD 是一种无监督的实体链接模型,通过博弈论方法进行实体消歧,有效解决了实体链接中的流行度偏差问题。C-BLINK 则是在 BLINK 模型的基础上,增加了类型和时间约束,以提高实体链接的准确性。MHERCL 数据集和相关模型的提出,为历史文本处理和音乐遗产研究提供了新的思路和方法。
常用场景
经典使用场景
MHERCL数据集主要应用于历史文本中的命名实体识别、分类和链接(NEL)任务,特别是在音乐领域。它包含了从音乐历史期刊中抽取的句子,这些句子经过人工标注,包含命名实体的识别、分类和链接信息。MHERCL数据集的特点是包含了在著名知识库中代表性不足或缺失的命名实体,这对于训练和评估NEL模型在处理历史文本时的性能至关重要。
解决学术问题
MHERCL数据集解决了在历史文本中进行NEL时遇到的几个关键问题。首先,历史文本的数字化质量通常较差,这给NEL模型带来了挑战。其次,历史文本中的实体在训练数据中很少出现,或者在知识库中完全不存在。最后,实体链接器倾向于表现出流行度偏差,倾向于链接到训练集中频繁出现的实体。MHERCL数据集通过提供专门针对音乐领域的历史文本,并包含大量的长尾实体,为解决这些问题提供了宝贵的资源。
实际应用
MHERCL数据集的实际应用场景包括文化遗产的保护和研究、历史文本的数字化和知识提取。例如,它可以帮助研究人员更好地理解历史音乐期刊中的内容,从而为音乐史的研究提供新的视角。此外,MHERCL数据集还可以用于开发和评估新的NEL模型,这些模型可以应用于更广泛的历史文本分析任务。
数据集最近研究
最新研究方向
MHERCL数据集的最新研究方向主要聚焦于解决历史文本中实体链接的挑战,特别是在音乐遗产领域。MHERCL数据集包含许多在主流知识库中未充分代表或缺失的实体,这对于研究历史实体链接(HEL)任务至关重要。该数据集的发布为研究者提供了一个新的基准,以评估和改进实体识别、分类和链接模型在处理历史文本时的性能。研究团队提出了一个基于博弈论的无监督实体链接模型(ELD),该模型通过避免监督训练阶段,能够更好地处理低频实体,并减少对流行度偏差的依赖。此外,他们还引入了一种方法,通过利用知识图谱(KG)中的约束来减少检索式实体链接模型中的不可能链接。这些研究进展为历史文本中的实体链接提供了新的思路和方法,有助于提高模型在处理低频实体和NIL链接方面的性能。
相关研究论文
- 1Musical Heritage Historical Entity Linking博洛尼亚大学LILEC实验室 · 2025年
以上内容由遇见数据集搜集并总结生成



