Penn Parsed Corpus of Historical English (PPCHE) - 2024 release
收藏Penn Parsed Corpora of Historical English (PPCHE) - 2024 发布
内容概述
Penn Parsed Corpora of Historical English (PPCHE) 是一个旨在为语言学研究提供历史英语解析文本的项目。该项目由宾夕法尼亚大学开发,包含从最早的中古英语文档(公元1100年)到第一次世界大战(1914年)的英国英语散文文本和样本。文本涵盖以下传统上认可的英语时期:
- 宾夕法尼亚-赫尔辛基解析的中古英语语料库,第二版 (PPCME2)
- 宾夕法尼亚-赫尔辛基解析的早期现代英语语料库 (PPCEME)
- 宾夕法尼亚解析的现代英国英语语料库,第二版 (PPCMBE2)
这些语料库主要供英语历史学,尤其是语言历史句法学的学生和学者使用。它们也被计算语言学家用于领域适应。
版本差异
2024 年发布的版本与 2016 年发布的版本不同之处在于,注释错误和不一致性已得到纠正。此外,注释指南已简化,以减少三个时期之间的差异和相关句法现象之间的一致性。
文本格式
所有文本以三种形式提供:纯文本、词性标注文本和句法注释(解析)文本。此外,PPCEME 和 PPCMBE2 以词形还原形式提供(最好视为测试版),基于牛津英语词典(OED)的信息。每个文本还有一个相关的文件,包含语言学信息。
子语料库目录结构
每个子语料库都有自己的目录,并应单独引用如下:
- Kroch, Anthony, 和 Ann Taylor. 2000-. 宾夕法尼亚-赫尔辛基解析的中古英语语料库 (PPCME2), 第二版, 发布 5.
- Kroch, Anthony, Beatrice Santorini, 和 Lauren Delfs. 2004-. 宾夕法尼亚-赫尔辛基解析的早期现代英语语料库 (PPCEME), 第二版, 发布 4.
- Kroch, Anthony, Beatrice Santorini, 和 Ariel Diertani. 2016-. 宾夕法尼亚-赫尔辛基解析的现代英国英语语料库 (PPCMBE2), 第二版, 发布 2.
每个子语料库目录下有两个子目录:data 和 docs。data 目录包含纯文本和注释文本文件的三个或四个子目录(text, pos-tagged, parsed, lemmatized)。docs 目录包含每个子语料库的总体描述和包含每个文本的语言学信息的 philological_info_files 目录。
数据编码
所有数据以 UTF-8 编码。数据文件以纯文本形式呈现,所有语言学信息以 html 形式呈现。解析文件(包括词形还原文件)采用宾州树库格式。
许可证
本仓库中的文件根据 Creative Commons License Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0) 分发。
联系信息
Beatrice Santorini (beatrice DOT santorini AT gmail DOT com)
强烈鼓励用户报告错误。




