标准化古腾堡项目语料库（SPGC）

Name: 标准化古腾堡项目语料库（SPGC）
Creator: 西北大学化学与生物工程系，美国伊利诺伊州埃文斯顿，60208
Published: 2018-12-20 01:10:14
License: 暂无描述

arXiv2018-12-20 更新2024-06-21 收录

下载链接：

https://doi.org/10.5281/zenodo.2422560

下载链接

链接失效反馈

官方服务：

资源简介：

标准化古腾堡项目语料库（SPGC）是由西北大学和米兰大学合作创建的大型文本数据集，包含超过50,000本版权自由的文学作品，总词令牌数超过3×10^9。该数据集通过不同的元数据注释，提供了对古腾堡项目内容的广泛描述，并展示了其在研究语言随时间、主题和作者变化方面的潜力。SPGC的创建过程包括自动下载、过滤和处理原始数据，以及提供详细的方法论和代码。该数据集主要应用于语料库语言学、自然语言处理和信息检索领域，旨在解决大规模语言数据的标准化和可重复性问题。

The Standardized Project Gutenberg Corpus (SPGC) is a large-scale text dataset jointly developed by Northwestern University and the University of Milan. It contains over 50,000 copyright-free literary works, with a total of more than 3×10^9 word tokens. This corpus provides comprehensive descriptions of Project Gutenberg's content through diverse metadata annotations, and showcases its potential for researching language variations across time, themes and authors. The construction pipeline of SPGC encompasses automated downloading, filtering and processing of raw data, alongside the release of detailed methodologies and supporting code. Primarily utilized in the fields of corpus linguistics, natural language processing and information retrieval, this dataset is designed to address the issues of standardization and reproducibility for large-scale language data.

提供机构：

西北大学化学与生物工程系，美国伊利诺伊州埃文斯顿，60208

创建时间：

2018-12-20

搜集汇总

数据集介绍

构建方式

标准化古腾堡项目语料库（SPGC）的构建方式主要分为数据获取、数据预处理和数据描述三个阶段。数据获取阶段通过自动化脚本从古腾堡项目网站下载所有版权免费的书籍，并保存为文本格式。数据预处理阶段对下载的书籍文本进行清洗，包括去除重复条目、非UTF-8编码的条目以及文本中的标题和页脚等非文本内容。此外，还对文本进行分词、过滤和计数等操作，以生成不同粒度的数据。数据描述阶段则对语料库的书籍长度、语言和出版时间等元数据进行统计分析，为后续研究提供参考。

使用方法

使用SPGC数据集的方法包括：1）下载数据：可以通过提供的Python脚本自动下载并预处理数据，或者直接下载预处理的静态版本；2）数据探索：利用数据描述阶段的统计分析结果，了解语料库的基本特征；3）定量分析：利用分词、计数等数据，进行词频分析、风格分析等定量研究；4）主题分析：利用主题标签，进行文本分类、主题模型等主题相关的研究；5）跨语言研究：利用多语言数据，进行跨语言比较、翻译等研究。

背景与挑战

背景概述

标准化古腾堡项目语料库（SPGC）是由马丁·格勒奇和弗朗西斯科·方特-克洛斯于2018年创建的，旨在为自然语言统计分析和定量语言学研究提供一致和全面的古腾堡项目数据。该数据集包含超过50,000本书和超过30亿个词元，通过自动下载、过滤和处理原始数据，提供三个不同粒度的数据：原始文本、词元时间序列和词元计数。SPGC不仅提供了PG内容的广泛特征，还展示了其在研究语言随时间、主题和作者的变化性方面的潜力。该数据集的创建是对PG数据集在语言统计分析中广泛应用但缺乏标准化的回应，旨在解决以往研究中样本偏差和预处理方法不一致的问题，从而提高研究的可重复性和可推广性。

当前挑战

SPGC面临的挑战包括：1) PG数据集只包含版权已过期的书籍，导致1930年代后的书籍数量相对较少；2) 书籍的标注信息不完整，一些书籍可能存在重复，且缺少书籍的确切出版日期，这限制了其在历时研究中的应用；3) SPGC的构成是异质的，混合了不同的体裁，但通过书架元数据的文档标签，可以系统地控制语料库的构成。此外，随着PG数据的不断增长，需要使用动态语料库模型来确保所有新书籍被纳入。最后，随着元数据质量的提高，可能会需要额外的预处理步骤，如词干提取，以适应不同的应用需求。

常用场景

经典使用场景

标准化古腾堡项目语料库（SPGC）为自然语言处理、计算语言学和信息检索等领域提供了一个全面而标准化的文本数据资源。该数据集包含超过50,000本图书和超过30亿个词元，覆盖了20多种语言，为研究者提供了丰富的文本材料。SPGC在文本分析中的经典使用场景包括：研究自然语言的统计特性，如统计规律、语言网络、语言变化、信息内容量化以及句法结构的作用等。通过对不同时间、主题和作者的文本进行比较，研究者可以深入理解语言多样性的变化趋势。

解决学术问题

SPGC解决了古腾堡项目语料库在使用中存在的两个主要问题。首先，以往的研究往往只关注一小部分手动选择的图书，导致潜在的偏置子集，而SPGC提供了完整的古腾堡项目数据，避免了这一局限性。其次，不同的研究使用了不同的预处理策略，缺乏详细的描述，影响了研究结果的可重复性。SPGC提供了一个标准化、预处理的完整版本，保证了研究结果的可重复性。此外，SPGC还解决了版权问题，使得大量1930年后的图书得以纳入研究范围。

实际应用

SPGC在实际应用中具有广泛的应用前景。例如，在信息检索领域，可以利用SPGC中的元数据标签对文本进行分类或主题建模，评估机器学习算法的性能。在计算语言学领域，可以利用SPGC的多语言特点，研究不同语言之间的差异和相似性。此外，SPGC还可以用于构建高质量的双语语料库，用于翻译任务。总之，SPGC为自然语言处理、计算语言学和信息检索等领域提供了重要的数据支持，推动了相关研究的深入发展。

数据集最近研究