Penn Parsed Corpus of Historical English (PPCHE) - 2024 release

github2024-07-07 更新2024-07-09 收录

下载链接：

https://github.com/beatrice57/ppche-2024

下载链接

链接失效反馈

官方服务：

资源简介：

Penn Parsed Corpus of Historical English (PPCHE) 是一个旨在为语言学研究提供历史英语解析文本的综合项目。该语料库由宾夕法尼亚大学开发，包含从最早的中古英语文档（公元1100年）到第一次世界大战（1914年）的英国英语散文的连续文本和文本样本。语料库涵盖了以下传统上认可的英语时期：Penn-Helsinki Parsed Corpus of Middle English, second edition (PPCME2)、Penn-Helsinki Parsed Corpus of Early Modern English (PPCEME) 和 Penn Parsed Corpus of Modern British English, second edition (PPCMBE2)。这些语料库主要供研究英语历史的学者和学生使用，特别是语言的历史句法。

Penn Parsed Corpus of Historical English (PPCHE) is a comprehensive project designed to provide parsed historical English texts for linguistic research. Developed by the University of Pennsylvania, this corpus contains continuous texts and text samples of British English prose spanning from the earliest Middle English documents (1100 CE) to World War I (1914). The corpus covers the following traditionally recognized stages of English: the Penn-Helsinki Parsed Corpus of Middle English, second edition (PPCME2), the Penn-Helsinki Parsed Corpus of Early Modern English (PPCEME), and the Penn Parsed Corpus of Modern British English, second edition (PPCMBE2). These corpora are primarily intended for scholars and students researching the history of the English language, especially its historical syntax.

创建时间：

2024-07-07

原始信息汇总

Penn Parsed Corpora of Historical English (PPCHE) - 2024 发布

内容概述

Penn Parsed Corpora of Historical English (PPCHE) 是一个旨在为语言学研究提供历史英语解析文本的项目。该项目由宾夕法尼亚大学开发，包含从最早的中古英语文档（公元1100年）到第一次世界大战（1914年）的英国英语散文文本和样本。文本涵盖以下传统上认可的英语时期：

宾夕法尼亚-赫尔辛基解析的中古英语语料库，第二版 (PPCME2)
宾夕法尼亚-赫尔辛基解析的早期现代英语语料库 (PPCEME)
宾夕法尼亚解析的现代英国英语语料库，第二版 (PPCMBE2)

这些语料库主要供英语历史学，尤其是语言历史句法学的学生和学者使用。它们也被计算语言学家用于领域适应。

版本差异

2024 年发布的版本与 2016 年发布的版本不同之处在于，注释错误和不一致性已得到纠正。此外，注释指南已简化，以减少三个时期之间的差异和相关句法现象之间的一致性。

文本格式

所有文本以三种形式提供：纯文本、词性标注文本和句法注释（解析）文本。此外，PPCEME 和 PPCMBE2 以词形还原形式提供（最好视为测试版），基于牛津英语词典（OED）的信息。每个文本还有一个相关的文件，包含语言学信息。

子语料库目录结构

每个子语料库都有自己的目录，并应单独引用如下：

Kroch, Anthony, 和 Ann Taylor. 2000-. 宾夕法尼亚-赫尔辛基解析的中古英语语料库 (PPCME2), 第二版, 发布 5.
Kroch, Anthony, Beatrice Santorini, 和 Lauren Delfs. 2004-. 宾夕法尼亚-赫尔辛基解析的早期现代英语语料库 (PPCEME), 第二版, 发布 4.
Kroch, Anthony, Beatrice Santorini, 和 Ariel Diertani. 2016-. 宾夕法尼亚-赫尔辛基解析的现代英国英语语料库 (PPCMBE2), 第二版, 发布 2.

每个子语料库目录下有两个子目录：data 和 docs。data 目录包含纯文本和注释文本文件的三个或四个子目录（text, pos-tagged, parsed, lemmatized）。docs 目录包含每个子语料库的总体描述和包含每个文本的语言学信息的 philological_info_files 目录。

数据编码

所有数据以 UTF-8 编码。数据文件以纯文本形式呈现，所有语言学信息以 html 形式呈现。解析文件（包括词形还原文件）采用宾州树库格式。

许可证

本仓库中的文件根据 Creative Commons License Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0) 分发。

联系信息

Beatrice Santorini (beatrice DOT santorini AT gmail DOT com)

强烈鼓励用户报告错误。

搜集汇总

数据集介绍

构建方式

Penn Parsed Corpus of Historical English (PPCHE) - 2024 release 数据集由宾夕法尼亚大学开发，涵盖了从1100年CE至1914年CE的英国英语散文文本。该数据集包括三个子语料库：Penn-Helsinki Parsed Corpus of Middle English (PPCME2)、Penn-Helsinki Parsed Corpus of Early Modern English (PPCEME) 和 Penn Parsed Corpus of Modern British English (PPCMBE2)。每个子语料库均包含原始文本、词性标注文本和句法解析文本，以及相关的语文学信息文件。数据集的构建过程中，特别注重了注释错误和不一致性的修正，并优化了注释指南以减少不同时间段和相关句法现象之间的差异。

特点

PPCHE - 2024 release 数据集的主要特点在于其跨度广泛的文本覆盖，从最早的中古英语到第一次世界大战前的现代英语，为历史语言学研究提供了丰富的资源。此外，数据集的注释质量得到了显著提升，通过修正先前版本中的错误和优化注释指南，确保了数据的一致性和准确性。数据集还提供了多种形式的文本，包括原始文本、词性标注文本和句法解析文本，以及详细的语文学信息，这为研究者提供了多维度的分析可能性。

使用方法

使用Penn Parsed Corpus of Historical English (PPCHE) - 2024 release 数据集时，研究者可以通过CorpusSearch 2程序对解析文件进行搜索和分析。该程序由Anthony Kroch和Beth Randall开发，支持对解析语料库的搜索、修订和编码。用户可以从SourceForge或GitHub下载该程序，并参考其用户指南进行操作。此外，数据集中的每个子语料库都有独立的目录结构，包含数据和文档两个子目录，便于用户根据研究需求选择和引用相应的文本和信息。

背景与挑战

背景概述

Penn Parsed Corpus of Historical English (PPCHE) - 2024 release 是由宾夕法尼亚大学开发的历史英语语料库，涵盖了从1100年早期中世纪英语到1914年第一次世界大战期间的英国英语散文。该数据集包括三个子语料库：Penn-Helsinki Parsed Corpus of Middle English (PPCME2)、Penn-Helsinki Parsed Corpus of Early Modern English (PPCEME) 和 Penn Parsed Corpus of Modern British English (PPCMBE2)。这些语料库主要用于英语历史和历史句法研究，同时也被计算语言学家用于领域适应。2024年的版本相较于2016年版本，修正了注释错误和不一致性，并简化了注释指南，以减少不同时间段和相关句法现象之间的差异。

当前挑战

PPCHE数据集在构建过程中面临多个挑战。首先，历史文本的注释需要高度的专业知识和对历史语言学的深入理解，以确保注释的准确性和一致性。其次，跨时间段文本的注释指南需要不断调整和优化，以适应语言的演变和变化。此外，数据集的维护和更新也是一个持续的挑战，需要不断修正错误和改进注释方法。最后，数据集的使用需要依赖特定的搜索工具，如CorpusSearch 2，这对用户的技术要求较高，限制了其广泛应用。

常用场景

经典使用场景

Penn Parsed Corpus of Historical English (PPCHE) - 2024 release 数据集的经典使用场景主要集中在历史语言学和计算语言学领域。该数据集为研究者提供了从1100年到1914年间英国英语散文的详细解析文本，涵盖了中世纪英语、早期现代英语和现代英国英语三个主要时期。通过这些解析文本，学者们可以深入研究英语的历史演变，特别是语法和句法的变化。此外，计算语言学家利用这些数据进行领域适应性研究，以提升自然语言处理模型的性能。

实际应用

PPCHE 数据集在实际应用中主要服务于教育和研究机构。历史语言学家利用该数据集进行深入的学术研究，以揭示英语的历史演变规律。同时，计算语言学家使用这些解析文本进行自然语言处理模型的训练和验证，特别是在处理历史文本时，提升了模型的性能。此外，教育机构可以利用该数据集进行语言学课程的教学，帮助学生理解英语的历史发展和语法结构。

衍生相关工作

PPCHE 数据集的发布催生了一系列相关的经典工作。首先，CorpusSearch 2 程序的开发和应用，使得研究者能够更高效地搜索和分析这些解析文本。其次，该数据集的发布促进了历史语言学和计算语言学领域的交叉研究，推动了自然语言处理模型在历史文本处理中的应用。此外，基于该数据集的研究成果，学者们发表了大量关于英语历史演变和句法结构变化的学术论文，进一步推动了相关领域的发展。

以上内容由遇见数据集搜集并总结生成