ENEIDE
收藏arXiv2025-11-13 更新2025-11-16 收录
下载链接:
https://github.com/sntcristian/ENEIDE
下载链接
链接失效反馈官方服务:
资源简介:
ENEIDE是由马切拉塔大学等机构联合构建的历史意大利语多领域实体链接语料库,涵盖19至20世纪的文学与政治文本。该数据集通过半自动方式从《数字札记本》和《阿尔多·莫罗数字档案》两大学术数字版本中提取,包含丰富的命名实体标注并与维基数据建立关联。其创建过程融合了人工校对与自动化处理,确保实体消歧的准确性,主要应用于数字人文领域的实体链接研究,旨在解决历史文献中因时序演变和长尾实体导致的消歧难题。
ENEIDE is a multi-domain historical Italian entity linking corpus jointly constructed by the University of Macerata and other institutions, covering literary and political texts from the 19th to 20th centuries. The corpus was extracted semiautomatically from two academic digital editions, namely *Digital Notebook* and *Aldo Moro Digital Archive*, and contains rich named entity annotations linked to Wikidata. Its development process integrates manual proofreading and automated processing to ensure the accuracy of entity disambiguation. It is primarily applied to entity linking research in the field of digital humanities, aiming to address the disambiguation challenges posed by temporal evolution and long-tail entities in historical documents.
提供机构:
马切拉塔大学, 博洛尼亚大学, 巴黎综合理工学院
创建时间:
2025-11-13
原始信息汇总
ENEIDE 数据集概述
数据集简介
ENEIDE 是一个历时性、多领域的意大利语实体链接资源,涵盖两个世纪的人文主义文献。
数据来源
- Digital Zibaldone (DZ):贾科莫·莱奥帕尔迪的《思想杂录》(1817-1832)
- Aldo Moro Digitale (AMD):意大利政治家阿尔多·莫罗的完整作品集(1930年代-1978年)
主要特征
领域覆盖
- DZ:文学、历史、哲学和语言学文本
- AMD:政治、法律和新闻文本
实体类型
- DZ:人物(
PER)、地点(LOC)、文学作品(WORK) - AMD:人物(
PER)、地点(LOC)、组织(ORG)
关键特性
- 历时性覆盖(19-20世纪)
- 多领域内容
- 实体表面形式的历史变化
- 间接实体引用
- 维基数据未覆盖实体的NIL实体
数据集统计
整体分布
| 数据集 | 文档数 | 标注数 | NIL实体数 | 训练+开发集与测试集重叠度 |
|---|---|---|---|---|
| DZ | 1,050 | 4,279 | 298 | 93.19% |
| AMD | 1,062 | 4,027 | 86 | 75.38% |
划分分布(训练/开发/测试: 70/15/15)
| 数据集 | 训练文档 | 开发文档 | 测试文档 | 训练标注 | 开发标注 | 测试标注 |
|---|---|---|---|---|---|---|
| DZ | 735 | 157 | 158 | 2,935 | 727 | 617 |
| AMD | 743 | 159 | 160 | 2,766 | 604 | 657 |
数据格式
段落CSV文件(paragraphs_*.csv)
包含文本文档信息:
doc_id:唯一文档标识符text:完整文本内容publication_date:发布日期(YYYY-MM-DD格式)
标注CSV文件(annotations_*.csv)
包含命名实体标注:
doc_id:文档标识符start_pos:实体提及起始字符位置end_pos:实体提及结束字符位置surface:实体表面形式/提及文本type:实体类型(PER,LOC,ORG,WORK)identifier:维基数据标识符(如不在维基数据中则为NIL)
许可证
- 源代码:MIT许可证
- ENEIDE数据集:CC-BY-NC-SA 4.0许可证
致谢
- Digital Zibaldone项目提供莱奥帕尔迪作品的TEI/XML编码版本
- Aldo Moro Digitale项目提供阿尔多·莫罗作品的RDFa编码语料库
搜集汇总
数据集介绍

构建方式
在历史文献数字化处理领域,ENEIDE数据集通过半自动化流程从两个学术数字版本中构建而成。该数据集整合了19至20世纪的文学与政治文本,分别源自《数字杂录》和《阿尔多·莫罗数字档案》。构建过程中采用Beautiful Soup工具提取HTML链接标注的实体,并通过分层抽样策略确保时间分布的均衡性。数据质量经过领域专家验证,对缺失标注采用斯坦福NLP模型进行半自动补全,最终形成包含2,110个文档的跨世纪语料库。
特点
作为历史意大利语实体链接领域的重要资源,ENEIDE数据集具备显著的历时性与多域性特征。其文本跨度涵盖1821至1978年,包含人物、地点、组织与文学作品四类实体标注,并特别标注了未在知识库中注册的NIL实体。数据集的独特价值体现在文学文本中存在的实体缩写现象与政治文献中的社会角色指代,这些语言特性为研究历史语境下的实体消歧提供了丰富素材。此外,数据集通过严格的质量控制流程,在《数字杂录》部分达到了95.6的F1值。
使用方法
该数据集主要服务于历史文本实体链接系统的训练与评估,支持实体消歧和端到端实体链接双重任务。研究人员可按照70/15/15比例划分的训练集、验证集和测试集进行模型开发,利用数据集中提供的文档时间戳与实体类型信息构建时序感知的链接模型。对于NIL实体预测任务,数据集标注的未链接实体为研究长尾实体识别提供了基准。在使用过程中,建议结合Wikidata知识库的时序属性,通过计算文档时间与实体时间的差值增强消歧准确性。
背景与挑战
背景概述
ENEIDE数据集由Cristian Santini等研究人员于2025年提出,旨在解决数字人文学领域中的实体链接问题。该数据集从19至20世纪的意大利历史文献中半自动提取,涵盖文学与政治两大领域,通过整合学术数字版本中的结构化注释与维基数据知识库,为历史意大利语的实体消歧提供了首个标准化基准。其创建显著推动了自然语言处理技术在文化遗产分析中的应用,填补了该语言资源稀缺的空白。
当前挑战
ENEIDE数据集面临的挑战包括:在领域问题层面,历史文献中存在时序变异和长尾实体,导致实体链接准确率下降;构建过程中,需克服半自动提取时注释不一致、数据噪声干扰以及维基数据覆盖不足的难题,同时确保多领域文本的时序一致性。
常用场景
经典使用场景
在数字人文研究领域,ENEIDE数据集为历史意大利语文本的实体链接任务提供了标准化的评估基准。该数据集通过整合19至20世纪的文学与政治文本,构建了跨领域的实体消歧语料库,使得研究者能够系统评估实体链接模型在历史文献处理中的性能表现。其典型应用场景包括训练和验证专门针对历史意大利语的实体链接系统,为数字人文领域的文本分析提供可靠的数据支撑。
实际应用
在实际应用层面,ENEIDE数据集为文化遗产机构的数字化工程提供了重要技术支撑。通过将历史文献中的实体与结构化知识库进行关联,该数据集支持构建智能化的文献检索系统,使研究者能够快速定位文本中的人物、地点及组织机构。这种技术应用显著提升了历史文献的可访问性与研究效率,为文化遗产的数字化保存与知识挖掘开辟了新途径。
衍生相关工作
基于ENEIDE数据集的研究催生了DELICATE等经典工作,该架构创新性地将BERT编码器与梯度提升树分类器相结合,实现了历史文本的神经符号实体链接。后续研究进一步拓展了该数据集的适用范围,衍生出面向多语言历史文献的实体链接基准测试,以及融合大型语言模型的零样本实体消歧方法。这些工作共同构建了历史文本处理的技术体系,推动了数字人文与自然语言处理的交叉融合。
以上内容由遇见数据集搜集并总结生成



