corpus de novelas anglófonas
收藏github2024-04-02 更新2024-05-31 收录
下载链接:
https://github.com/isabel-mm/stylo-r-novels
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含了一系列英语小说的文本,用于文体分析。数据集以纯文本格式(.txt)存储,采用UTF-8编码,每部小说以作者_标题.txt的形式命名,符合stylo()函数的要求。此外,还包括了词形还原版本的数据集。
This dataset comprises a collection of English novel texts intended for stylistic analysis. The dataset is stored in plain text format (.txt) with UTF-8 encoding, and each novel is named in the format of author_title.txt, conforming to the requirements of the stylo() function. Additionally, a lemmatized version of the dataset is included.
创建时间:
2023-09-04
原始信息汇总
数据集概述
数据集名称
Estilometría computacional en Humanidades Digitales
数据集描述
本数据集专注于使用计算文体学工具和技术对现实主义和现代主义的英语小说进行文体分析。数据集中的数据和脚本是该研究的核心部分,可供复现使用。
数据集内容
-
小说语料库:位于名为corpus的文件夹中,包含一系列用于文体分析的英文小说。这些小说以UTF-8编码的纯文本格式(.txt)存储,文件名为作者_标题.txt,符合stylo()的要求。此外,还包括一个词形还原后的版本。
-
附加数据:位于data文件夹中,包含两个文件:
- metadata.md:提供每部作品的详细信息,如作者、标题和出版年份。
- values.md:包含语料库的重要统计数据,如标记数、类型数和类型-标记比率。
-
Python代码:位于python-code文件夹中,包含用于生成语料库基本统计数据的脚本。
-
R代码:位于r-code文件夹中,包含使用Stylo包进行文体分析的R脚本。
数据集使用
- 克隆或下载本仓库的ZIP文件,并在本地系统中解压。
- 使用r-code文件夹中的脚本,在R中使用Stylo包进行更高级的文体分析。
- 浏览data文件夹中的表格,获取语料库的详细信息和关键统计数据。
搜集汇总
数据集介绍

构建方式
该数据集的构建基于对现实主义与现代主义英语小说的深入分析,采用计算文体学工具和技术进行数据收集与处理。数据集包含多个英语小说文本,以纯文本格式(.txt)存储,并采用UTF-8编码,确保数据的广泛兼容性。此外,数据集还提供了经过词形还原处理的版本,以便于更精确的文体分析。每个文本文件均以“作者_标题.txt”的格式命名,符合stylo()工具的要求。
特点
该数据集的特点在于其专注于现实主义与现代主义英语小说的文体分析,提供了丰富的元数据信息,包括作者、标题和出版年份等。数据集还包含详细的统计信息,如词频、词型以及词型-词频比,为研究者提供了全面的分析基础。此外,数据集支持多种编程语言(如Python和R)的脚本,便于用户进行自定义分析和扩展研究。
使用方法
使用该数据集时,用户首先需要克隆或下载并解压缩整个仓库。随后,可以通过R语言中的Stylo包进行高级文体分析,利用提供的R脚本对文本数据进行深入挖掘。用户还可以探索数据文件夹中的元数据和统计信息,以获取关于文本的详细背景和关键指标。Python脚本则可用于生成基本的文本统计信息,为进一步分析提供支持。
背景与挑战
背景概述
在数字人文领域,计算文体学作为一种新兴的研究方法,逐渐成为分析文学作品风格特征的重要工具。corpus de novelas anglófonas数据集正是这一研究趋势的产物,由专注于数字人文研究的团队创建,旨在通过计算文体学方法对现实主义与现代主义英语小说进行风格分析。该数据集包含多部英语小说的文本数据,采用UTF-8编码的纯文本格式存储,并提供了详细的元数据与统计信息,为研究者提供了丰富的分析基础。其核心研究问题在于探索不同文学流派在语言风格上的差异,从而揭示文学风格演变的规律。该数据集的发布不仅推动了计算文体学在文学研究中的应用,也为跨学科研究提供了重要的数据支持。
当前挑战
corpus de novelas anglófonas数据集在解决文学风格分析问题的过程中面临多重挑战。首先,文学作品的风格特征具有高度复杂性和多样性,如何通过计算模型准确捕捉这些特征是一个关键难题。其次,数据集的构建过程中,文本的预处理与标注需要大量的人工干预,尤其是在确保文本质量与一致性方面,存在较高的技术门槛。此外,不同文学作品的语言风格可能受到历史背景、作者个人风格等多重因素的影响,如何在分析中有效分离这些变量,也是研究者需要克服的挑战。最后,计算文体学方法的可解释性与结果的可靠性仍需进一步验证,以确保研究结论的科学性与普适性。
常用场景
经典使用场景
在数字人文领域,`corpus de novelas anglófonas`数据集被广泛应用于计算文体学分析,特别是针对现实主义与现代主义英语小说的文体特征研究。通过该数据集,研究者能够深入探讨不同作者或流派的语言风格差异,揭示文本中的潜在模式与结构。
解决学术问题
该数据集为文体学研究提供了高质量的文本资源,解决了传统文体学分析中数据规模有限、文本处理效率低下的问题。通过计算文体学方法,研究者能够更精确地量化文本特征,验证文学理论假设,推动文学研究从定性分析向定量分析转变。
衍生相关工作
基于该数据集,研究者开发了多项经典工作,例如利用`Stylo`包进行多维度文体分析,探索不同文学流派的语言演变规律。此外,该数据集还激发了跨学科研究,如结合自然语言处理技术,开发更高效的文本分类与风格识别算法。
以上内容由遇见数据集搜集并总结生成



