De Gasperis Corpus

github2024-02-29 更新2024-05-31 收录

下载链接：

https://github.com/StefanoMenini/De-Gasperi-s-Corpus

下载链接

链接失效反馈

官方服务：

资源简介：

De Gasperi的语料库是一个包含2,762份1901年至1954年间发布的公共文档的集合，这些文档之前由Il Mulino出版，但非机器可读。本仓库包含所有文档的三种格式：txt、XML和制表符分隔。原始txt文件仅包含文档主体，可直接用于提取嵌入或主题。XML文件包含元数据，不仅涵盖标题、日期和出版地点，还包括从每个文本自动提取的关键概念（及其相关性分数）和由领域专家手动分配的类型标签。此外，发布还包括银色注释，如词形、词性、人名和地名及其相关坐标，格式类似于CoNLL。

The De Gasperi corpus is a collection of 2,762 public documents published between 1901 and 1954, previously published by Il Mulino but not machine-readable. This repository contains all documents in three formats: txt, XML, and tab-separated. The original txt files contain only the document body and can be directly used for extracting embeddings or topics. The XML files include metadata, covering not only titles, dates, and publication locations but also key concepts automatically extracted from each text (along with their relevance scores) and type labels manually assigned by domain experts. Additionally, the release includes silver annotations such as lemmas, parts of speech, personal names, and geographical names along with their associated coordinates, in a format similar to CoNLL.

创建时间：

2019-07-16

原始信息汇总

De Gasperis Corpus 概述

数据集描述

名称: De Gasperis Corpus
内容: 包含 Alcide De Gasperi 的公共文档，共计2,762份，涵盖1901至1954年间的出版物。
格式: 提供txt、XML和tab-separated三种格式。
- txt格式: 仅包含文档主体，适用于提取嵌入或主题。
- XML格式: 包含标题、日期、出版地等元数据，以及自动提取的关键概念和领域专家手动分配的体裁标签。
- 银标注: 提供词形、词性、人名和地名及其关联坐标，格式类似CoNLL。

许可证

类型: CC BY-NC-SA

引用信息

参考文献: Tonelli, S., Sprugnoli, R., Moretti, G., & Kessler, F. B. "Prendo la Parola in Questo Consesso Mondiale: A Multi-Genre 20th Century Corpus in the Political Domain". In Proceedings of CLiC-it 2019.
链接: http://ceur-ws.org/Vol-2481/paper71.pdf

搜集汇总

数据集介绍

构建方式

De Gasperis Corpus的构建基于Alcide De Gasperi在1901年至1954年间公开发表的2,762份文献，这些文献最初由Il Mulino出版，但未实现机器可读。研究团队将这些文档转化为三种格式：txt、XML和制表符分隔文件。txt文件仅包含文档正文，便于提取嵌入或主题；XML文件则包含丰富的元数据，如标题、发布日期、地点、自动提取的关键概念及其相关性评分，以及由领域专家手动分配的体裁标签。此外，数据集还提供了银标注，包括词形、词性、人名和地名及其坐标，采用CoNLL-like格式。

使用方法

De Gasperis Corpus的使用方法灵活多样。研究者可直接使用txt文件进行文本分析，如主题建模或词嵌入提取；XML文件则适用于需要元数据的任务，如文档分类或关键概念分析。银标注的CoNLL-like格式为命名实体识别和地理信息分析提供了便利。此外，数据集还提供了在线探索平台，用户无需下载即可浏览和检索文档。使用该资源时，需引用相关文献以尊重作者的知识产权。

背景与挑战

背景概述

De Gasperis Corpus数据集由意大利政治家阿尔契德·德·加斯佩里的公开文件组成，涵盖了1901年至1954年间的2762份文档。该数据集由Il Mulino出版社首次出版，但原始版本并非机器可读。研究人员将其转化为多种格式，包括txt、XML和制表符分隔文件，以便于进一步分析。XML文件中不仅包含文档的标题、日期和出版地点等元数据，还包括由领域专家手动分配的体裁标签以及自动提取的关键概念及其相关性评分。该数据集的发布为政治学、历史学和自然语言处理领域的研究提供了宝贵的资源，特别是在多体裁文本分析和历史文献数字化方面具有重要影响。

当前挑战

De Gasperis Corpus在构建和应用过程中面临多重挑战。首先，原始文档的机器可读性不足，需要将其转化为结构化数据格式，这一过程涉及复杂的文本处理和元数据提取。其次，文档的体裁多样性和历史背景复杂性要求领域专家进行手动标注，以确保数据的准确性和可靠性。此外，自动提取关键概念和生成银标注（如词性标注、人名和地名识别）需要依赖先进的自然语言处理技术，这对算法的精确性和鲁棒性提出了较高要求。最后，如何在保护历史文献完整性的同时，实现数据的开放共享和跨学科应用，也是该数据集面临的重要挑战。

常用场景

经典使用场景

De Gasperis Corpus数据集在政治历史研究领域具有重要价值，特别是在分析20世纪意大利政治家Alcide De Gasperi的公共文件时。研究者可以通过该数据集深入探讨其政治思想演变、演讲风格以及在不同历史背景下的政策主张。数据集提供的多种格式（如txt、XML和tab-separated）使得文本分析、主题建模和语义提取等任务更加便捷。

解决学术问题

该数据集解决了政治历史研究中文本数据难以获取和处理的难题。通过提供机器可读的格式和丰富的元数据，研究者能够更高效地进行文本挖掘和语义分析。此外，数据集中的银标注（如词性标注、人名和地名识别）为自然语言处理任务提供了高质量的训练数据，推动了相关领域的技术进步。

实际应用

De Gasperis Corpus在实际应用中广泛用于政治学、历史学和语言学的研究。例如，研究者可以利用该数据集分析政治演讲中的修辞策略，或通过地名标注研究特定历史事件的地理分布。此外，该数据集还被用于开发自然语言处理工具，如命名实体识别和语义分析系统，为相关领域的技术创新提供了重要支持。

数据集最近研究