Chicago Corpus

github2024-05-22 更新2024-05-31 收录

下载链接：

https://github.com/centre-for-humanities-computing/chicago_corpus

下载链接

链接失效反馈

官方服务：

资源简介：

芝加哥语料库是一个包含9,000本19世纪和20世纪英语文学小说的数据集，由3,166位主要为英语母语的作者创作。数据集包括专家意见和基于大众的资源，用于比较不同文学质量评估，以及与文学接受度相关的几种文本度量。此外，数据集还提供了每本小说的质量和接受度测量，以及文体和情感数据，以促进未来的研究和比较。

The Chicago Corpus is a dataset comprising 9,000 English literary novels from the 19th and 20th centuries, authored by 3,166 primarily native English-speaking writers. The dataset includes expert opinions and crowd-sourced resources for comparing different assessments of literary quality, along with several textual metrics related to literary reception. Additionally, the dataset provides measurements of quality and reception for each novel, as well as stylistic and emotional data, to facilitate future research and comparisons.

创建时间：

2024-04-07

原始信息汇总

数据集概述

数据集名称

The Chicago Corpus

数据集描述

由Aarhus大学的Fabula-NET项目提供，包含9,000部19世纪和20世纪的英语文学小说，涉及3,166位主要为英语母语的作者。
数据集包括专家意见和众包资源的注释，以及与文学接受度相关的多种文本度量。
提供每部小说的质量评估、接受度度量、文体学和情感数据，以促进未来研究和比较。

数据内容

基本信息：9,000部作品的标题、作者、出版年份。
文本度量：包括多种文本度量。
接受度度量：包括多种接受度度量。

数据格式

.xlsx
.json

数据示例

示例展示了作品ID、标题、作者、出版日期以及平均评分、科幻奖项、普利策奖、翻译次数等指标。

数据统计

作品数量：9,088部
作者数量：3,166位
平均每位作者作品数：2.88部

质量代理指标

包括“质量代理”指标，如是否列入畅销书或经典书单，以及连续代理，如GoodReads评分或翻译数量。

文档资源

Paper：资源论文。
Documentation：数据集中包含的度量和代理的详细描述。
Previous works：先前使用芝加哥语料库的出版物。
Textual Optics Lab：芝加哥语料库在芝加哥大学的文本光学实验室。
Citation：Bibtex引用。
EmotionArcs：芝加哥语料库的情感弧线（相关数据集）。
CHC：人文计算中心，托管FabulaNET项目。

搜集汇总

数据集介绍

构建方式

Chicago Corpus的构建基于Hoyt Long和Richard Jean So在Textual Optics Lab的研究成果，该数据集包含了1880年至2000年间在美国出版的9088部小说。这些小说的选择依据是其在WorldCat图书馆目录中的馆藏数量，优先选择馆藏数量较高的小说。数据集的构建不仅考虑了文本的文学价值，还结合了专家意见和大众评价，以确保数据的多维度性和全面性。

特点

Chicago Corpus的特点在于其多维度的数据结构，不仅包含了9000部小说的基本信息如作者、标题和出版年份，还涵盖了多种文本分析指标，如文本复杂度、情感分析和可读性等。此外，数据集还引入了质量评估代理，如畅销书榜单和文学奖项的收录情况，以及GoodReads评分和翻译数量等连续性代理，以全面反映文学作品的接受度和影响力。

使用方法

使用Chicago Corpus时，研究者可以通过提供的.xlsx和.json格式文件访问数据。数据集详细记录了每部小说的各项指标，包括但不限于平均评分、科幻奖项、普利策奖、翻译数量等。这些数据可用于比较不同文学作品的质量评估，分析文学作品的流行趋势，以及研究文学作品的文本特征与其接受度之间的关系。详细的文档和统计数据可在数据集的GitHub页面中找到。

背景与挑战

背景概述

Chicago Corpus是由丹麦奥胡斯大学人文计算中心与Fabula-NET项目合作创建的一个数据集，旨在通过9,000部19世纪和20世纪的英语文学小说，探索文学质量的评估。该数据集包含了3,166位主要为英语母语作家的作品，涵盖了专家意见和大众资源的注释，以支持不同文学质量评估方法的比较分析。此外，数据集还包含了与文学接受度相关的多种文本指标，如风格学和情感数据，以促进未来研究与比较。该数据集的构建基于Hoyt Long和Richard Jean So在芝加哥大学文本光学实验室的工作，其选择标准基于WorldCat目录中各标题的图书馆持有量，倾向于高持有量的作品。

当前挑战

Chicago Corpus在构建过程中面临了多重挑战。首先，数据集需要处理大量文学作品的版权问题，尤其是1924年之前的作品。其次，如何有效整合专家意见与大众评价，确保数据的多维度比较分析的准确性，是一个复杂的问题。此外，数据集在选择文本指标时，需确保这些指标与文学接受度有直接关联，这要求对文学理论和文本分析有深入理解。最后，数据集的广泛应用还依赖于如何有效地解释和利用这些复杂的文学质量代理指标，以推动文学研究领域的进一步发展。

常用场景

经典使用场景

在文学研究领域，芝加哥语料库（Chicago Corpus）被广泛用于分析19世纪和20世纪英语文学作品的质量与接受度。该数据集包含了9000部小说，涵盖了3166位作者的作品，通过专家意见和大众资源的标注，研究人员可以进行不同文学质量评估的比较分析。此外，数据集还提供了多种文本度量指标，如风格学和情感数据，以促进未来研究与比较。

解决学术问题

芝加哥语料库解决了文学研究中关于作品质量评估的多样性和复杂性问题。通过整合专家和大众的评价，该数据集为文学作品的质量提供了多维度的视角，有助于揭示不同评价标准之间的关联与差异。此外，数据集中的文本度量指标为文学作品的风格和情感分析提供了量化工具，推动了文学研究的科学化进程。

衍生相关工作

芝加哥语料库的发布催生了一系列相关研究工作。例如，研究人员利用该数据集开发了情感弧线（Emotion Arcs）分析工具，用于探索文学作品中的情感变化。此外，该数据集还促进了文学作品风格学和接受度研究的跨学科合作，推动了文学研究的理论与方法创新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集