five

Chicago Corpus

收藏
github2024-07-09 更新2024-09-24 收录
下载链接:
https://github.com/yuri-bizzoni/chicago_corpus
下载链接
链接失效反馈
官方服务:
资源简介:
Chicago Corpus是一个包含9,000本19世纪和20世纪英语文学小说的数据集,由3,166位主要为英语国家的作者创作。数据集包括专家意见和众包资源的注释,以允许不同文学质量评估的比较分析,以及与文学接受相关的几种文本指标。数据集还包含质量、接收度、文体学和情感数据,以促进未来的研究和比较。

The Chicago Corpus is a dataset consisting of 9,000 English literary fiction works from the 19th and 20th centuries, authored by 3,166 writers primarily based in English-speaking countries. The dataset includes annotations compiled from expert opinions and crowdsourced resources, enabling comparative analyses of divergent assessments of literary quality, alongside several text metrics associated with literary reception. It also contains data on quality, reception, stylistics, and sentiment to facilitate future research and comparative studies.
创建时间:
2024-09-23
原始信息汇总

The Chicago Corpus

数据集概述

The Chicago Corpus 是一个包含9,000本19世纪和20世纪英语文学小说的数据集,由3,166位主要为英语国家的作者创作。数据集包括专家意见和众包资源的注释,用于比较不同的文学质量评估,以及与文学接受度相关的多种文本指标。

数据内容

  • 9,000本小说
  • 作者、标题和出版年份
  • 多种文本指标
  • 多种接受度指标

数据格式

示例数据

BOOK_ID TITLE AUTH_FIRST AUTH_LAST PUBL_DATE AVG_RATING SCIFI_AWARDS PULITZER TRANSLATIONS PERPLEXITY MEAN_SENT READABILITY
6913 A Clash of Kings George R. R. Martin 1999 4.41 1 0 38 79.97 -0.002 92.73
20636 Dune Frank Herbert 1965 4.25 1 0 398 72.74 -0.007 85.18
22741 Beloved Toni Morrison 1987 3.92 0 1 68 68.78 0.030 91.71
5778 Misery Stephen King 1987 4.20 0 0 74 68.09 -0.032 82.54
86 The Portrait of a Lady Henry James 1881 3.78 0 0 53 80.35 0.150 71.65

语料库统计

  • 小说数量: 9088
  • 作者数量: 3166
  • 每位作者的平均小说数量: 2.88

特征统计

Metric Wordcount Sentence Length Wordlength Type/Token Ratio Compressibility Bigram Entropy Word Entropy Flesch Ease Dale Chall New Mean Sentiment Std Sentiment End Sentiment Beginning Sentiment Hurst Exponent Approximate Entropy
Mean 118584.71 86.56 3.67 0.69 2.92 14.63 9.69 82.70 5.10 0.03 0.35 0.03 0.04 0.61 1.75
St. dev. 64746.05 29.44 0.18 0.02 0.14 0.55 0.30 6.48 0.33 0.04 0.04 0.07 0.05 0.04 0.15

质量、读者欣赏或流行度指标

数据集还包括多种“质量代理”,如是否包含在畅销书或经典书单中,以及“连续”代理,如GoodReads评分或翻译数量。

文档

  • [Paper]: The Chicago resource paper.
  • [Documentation]: Detailed description of measures and proxies included in the dataset.
  • [Previous works]: Publications that have previously used the Chicago Corpus.
  • [Textual Optics Lab]: The Chicago Corpus at the Textual Optics Lab, University of Chicago.
  • [Citation]: Bibtex citation.
  • [EmotionArcs]: Emotion Arcs of the Chicago Corpus (a linked dataset).
  • [CHC]: Center for Humanities Computing, hosting the FabulaNET project.
搜集汇总
数据集介绍
main_image_url
构建方式
Chicago Corpus的构建基于Hoyt Long和Richard Jean So在Textual Optics Lab的工作,该实验室位于芝加哥大学。数据集包含了从1880年至2000年间在美国出版的9088部小说,这些小说的选择依据是其在WorldCat目录中的图书馆馆藏数量,优先选择馆藏数量较高的小说。通过这种方式,数据集不仅涵盖了高评价的文学作品,还包括了广受欢迎的主流文学和不同类型的‘类型文学’作品。
使用方法
用户可以通过提供的.xlsx和.json格式文件访问Chicago Corpus的数据。数据集详细描述了每部小说的作者、标题、出版年份以及多种文本和接受度指标。用户可以利用这些数据进行文学质量评估的比较分析,探索不同文学作品的接受度和流行度,以及文本特征与文学评价之间的关系。
背景与挑战
背景概述
Chicago Corpus,作为Fabula-NET项目的一部分,由丹麦奥胡斯大学人文计算中心创建,旨在提供一个包含9,000部19世纪和20世纪英语文学小说的质量评估数据集。该数据集由3,166位主要为英语国家的作者的作品组成,涵盖了专家意见和大众资源的注释,以支持不同文学质量评估方法的比较分析。此外,数据集还包括多种与文学接受度相关的文本指标,旨在促进未来研究与比较。该数据集的构建基于Hoyt Long和Richard Jean So在芝加哥大学文本光学实验室的工作,其选择标准基于WorldCat目录中各标题的图书馆持有量,倾向于选择图书馆持有量较高的作品。
当前挑战
Chicago Corpus在构建过程中面临多项挑战。首先,数据集需要处理大量文本数据,确保每部小说的质量评估和文本指标的准确性。其次,由于涉及版权问题,数据集仅包含1924年之前的作品,限制了其时间跨度的完整性。此外,数据集需要整合专家和大众的评估,确保不同评估方法的可比性和一致性。最后,数据集的构建还需考虑如何有效地处理和分析大量文学作品的文本特征,以提取有意义的文学接受度指标。
常用场景
经典使用场景
在文学研究领域,Chicago Corpus 数据集的经典使用场景主要集中在文学作品的质量评估与比较分析上。该数据集汇集了9,000部19世纪和20世纪的英语文学小说,通过专家意见和大众评价的标注,研究人员可以进行不同文学质量评价方法的对比研究。此外,数据集还包含了多种文本度量指标,如风格学和情感数据,这些数据有助于深入分析文学作品的接受度和影响力。
解决学术问题
Chicago Corpus 数据集解决了文学研究中关于文学作品质量评估的常见学术问题。通过整合专家和大众的评价数据,该数据集为研究人员提供了一个多维度的评估框架,有助于揭示不同评价方法之间的差异和关联。此外,数据集中的文本度量指标为文学作品的风格和情感分析提供了丰富的数据支持,推动了文学作品接受度研究的深入发展。
实际应用
在实际应用中,Chicago Corpus 数据集被广泛用于文学作品的质量评估和市场分析。例如,出版商和文学评论家可以利用该数据集中的评价指标,对新出版的文学作品进行预评估,以预测其市场表现和读者接受度。此外,教育机构和研究机构也可以利用该数据集进行文学作品的教学和研究,提升文学教育的质量和深度。
数据集最近研究
最新研究方向
在文学研究领域,Chicago Corpus的最新研究方向主要集中在文学作品的质量评估与读者接受度的多维度分析上。该数据集整合了专家意见和大众评价,提供了丰富的文本特征和接受度指标,如风格学数据和情感分析,这为比较不同文学作品的质量评估提供了坚实的基础。此外,数据集还包含了诸如GoodReads评分和翻译数量等连续性代理指标,这些数据有助于深入探讨文学作品在不同文化背景下的传播与接受情况。通过这些多层次的数据,研究者能够更全面地理解文学作品的社会影响力和艺术价值,从而推动文学研究的跨学科发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作