Chicago Corpus

github2024-07-09 更新2024-09-24 收录

下载链接：

https://github.com/yuri-bizzoni/chicago_corpus

下载链接

链接失效反馈

官方服务：

资源简介：

Chicago Corpus是一个包含9,000本19世纪和20世纪英语文学小说的数据集，由3,166位主要为英语国家的作者创作。数据集包括专家意见和众包资源的注释，以允许不同文学质量评估的比较分析，以及与文学接受相关的几种文本指标。数据集还包含质量、接收度、文体学和情感数据，以促进未来的研究和比较。

The Chicago Corpus is a dataset consisting of 9,000 English literary fiction works from the 19th and 20th centuries, authored by 3,166 writers primarily based in English-speaking countries. The dataset includes annotations compiled from expert opinions and crowdsourced resources, enabling comparative analyses of divergent assessments of literary quality, alongside several text metrics associated with literary reception. It also contains data on quality, reception, stylistics, and sentiment to facilitate future research and comparative studies.

创建时间：

2024-09-23

原始信息汇总

The Chicago Corpus

数据集概述

The Chicago Corpus 是一个包含9,000本19世纪和20世纪英语文学小说的数据集，由3,166位主要为英语国家的作者创作。数据集包括专家意见和众包资源的注释，用于比较不同的文学质量评估，以及与文学接受度相关的多种文本指标。

数据内容

9,000本小说
作者、标题和出版年份
多种文本指标
多种接受度指标

数据格式

.xlsx
.json

示例数据

BOOK_ID	TITLE	AUTH_FIRST	AUTH_LAST	PUBL_DATE	AVG_RATING	SCIFI_AWARDS	PULITZER	TRANSLATIONS	PERPLEXITY	MEAN_SENT	READABILITY
6913	A Clash of Kings	George R. R.	Martin	1999	4.41	1	0	38	79.97	-0.002	92.73
20636	Dune	Frank	Herbert	1965	4.25	1	0	398	72.74	-0.007	85.18
22741	Beloved	Toni	Morrison	1987	3.92	0	1	68	68.78	0.030	91.71
5778	Misery	Stephen	King	1987	4.20	0	0	74	68.09	-0.032	82.54
86	The Portrait of a Lady	Henry	James	1881	3.78	0	0	53	80.35	0.150	71.65

语料库统计

小说数量: 9088
作者数量: 3166
每位作者的平均小说数量: 2.88

特征统计

Metric	Wordcount	Sentence Length	Wordlength	Type/Token Ratio	Compressibility	Bigram Entropy	Word Entropy	Flesch Ease	Dale Chall New	Mean Sentiment	Std Sentiment	End Sentiment	Beginning Sentiment	Hurst Exponent	Approximate Entropy
Mean	118584.71	86.56	3.67	0.69	2.92	14.63	9.69	82.70	5.10	0.03	0.35	0.03	0.04	0.61	1.75
St. dev.	64746.05	29.44	0.18	0.02	0.14	0.55	0.30	6.48	0.33	0.04	0.04	0.07	0.05	0.04	0.15

质量、读者欣赏或流行度指标

数据集还包括多种“质量代理”，如是否包含在畅销书或经典书单中，以及“连续”代理，如GoodReads评分或翻译数量。

文档

[Paper]: The Chicago resource paper.
[Documentation]: Detailed description of measures and proxies included in the dataset.
[Previous works]: Publications that have previously used the Chicago Corpus.
[Textual Optics Lab]: The Chicago Corpus at the Textual Optics Lab, University of Chicago.
[Citation]: Bibtex citation.
[EmotionArcs]: Emotion Arcs of the Chicago Corpus (a linked dataset).
[CHC]: Center for Humanities Computing, hosting the FabulaNET project.

搜集汇总

数据集介绍

构建方式

Chicago Corpus的构建基于Hoyt Long和Richard Jean So在Textual Optics Lab的工作，该实验室位于芝加哥大学。数据集包含了从1880年至2000年间在美国出版的9088部小说，这些小说的选择依据是其在WorldCat目录中的图书馆馆藏数量，优先选择馆藏数量较高的小说。通过这种方式，数据集不仅涵盖了高评价的文学作品，还包括了广受欢迎的主流文学和不同类型的‘类型文学’作品。

使用方法

用户可以通过提供的.xlsx和.json格式文件访问Chicago Corpus的数据。数据集详细描述了每部小说的作者、标题、出版年份以及多种文本和接受度指标。用户可以利用这些数据进行文学质量评估的比较分析，探索不同文学作品的接受度和流行度，以及文本特征与文学评价之间的关系。

背景与挑战

背景概述

Chicago Corpus，作为Fabula-NET项目的一部分，由丹麦奥胡斯大学人文计算中心创建，旨在提供一个包含9,000部19世纪和20世纪英语文学小说的质量评估数据集。该数据集由3,166位主要为英语国家的作者的作品组成，涵盖了专家意见和大众资源的注释，以支持不同文学质量评估方法的比较分析。此外，数据集还包括多种与文学接受度相关的文本指标，旨在促进未来研究与比较。该数据集的构建基于Hoyt Long和Richard Jean So在芝加哥大学文本光学实验室的工作，其选择标准基于WorldCat目录中各标题的图书馆持有量，倾向于选择图书馆持有量较高的作品。

当前挑战

Chicago Corpus在构建过程中面临多项挑战。首先，数据集需要处理大量文本数据，确保每部小说的质量评估和文本指标的准确性。其次，由于涉及版权问题，数据集仅包含1924年之前的作品，限制了其时间跨度的完整性。此外，数据集需要整合专家和大众的评估，确保不同评估方法的可比性和一致性。最后，数据集的构建还需考虑如何有效地处理和分析大量文学作品的文本特征，以提取有意义的文学接受度指标。

常用场景

经典使用场景

在文学研究领域，Chicago Corpus 数据集的经典使用场景主要集中在文学作品的质量评估与比较分析上。该数据集汇集了9,000部19世纪和20世纪的英语文学小说，通过专家意见和大众评价的标注，研究人员可以进行不同文学质量评价方法的对比研究。此外，数据集还包含了多种文本度量指标，如风格学和情感数据，这些数据有助于深入分析文学作品的接受度和影响力。

解决学术问题

Chicago Corpus 数据集解决了文学研究中关于文学作品质量评估的常见学术问题。通过整合专家和大众的评价数据，该数据集为研究人员提供了一个多维度的评估框架，有助于揭示不同评价方法之间的差异和关联。此外，数据集中的文本度量指标为文学作品的风格和情感分析提供了丰富的数据支持，推动了文学作品接受度研究的深入发展。

实际应用

在实际应用中，Chicago Corpus 数据集被广泛用于文学作品的质量评估和市场分析。例如，出版商和文学评论家可以利用该数据集中的评价指标，对新出版的文学作品进行预评估，以预测其市场表现和读者接受度。此外，教育机构和研究机构也可以利用该数据集进行文学作品的教学和研究，提升文学教育的质量和深度。

数据集最近研究