SentimentArcs: Novels Corpus

github2022-08-25 更新2024-05-31 收录

下载链接：

https://github.com/jon-chun/sentiment-analysis-reference-corpus-novels

下载链接

链接失效反馈

官方服务：

资源简介：

一个精选的小说文本数据集，用于时间序列情感分析，旨在为长篇叙事的情感分析提供基准。数据集包含多样的小说，考虑了流行度、时期、类型、主题、风格和作者多样性，以适应复杂的情感分析需求。

A curated dataset of novel texts for time-series sentiment analysis, designed to provide a benchmark for sentiment analysis in long-form narratives. The dataset encompasses a diverse range of novels, taking into account factors such as popularity, era, genre, theme, style, and author diversity to accommodate complex sentiment analysis requirements.

创建时间：

2022-08-24

原始信息汇总

数据集概述

数据集名称

SentimentArcs: Novels Corpus

数据集目的

该数据集旨在为长篇叙事的时间序列情感分析提供一个基准参考，特别适用于分析长篇小说中的情感变化。

数据集内容

组成: 包含25部多样化的知名小说，涵盖不同的流行度、时期、流派、主题、风格和作者背景。
来源: 大部分作品来自美国和澳大利亚的古腾堡项目。
语言: 初始版本仅包含英语，尽管包含Proust和Homer的翻译作品。
时间跨度: 约2300年，从Homer的《奥德赛》到2019年的《Machines like Me》。
文本处理: 每部小说被解析为行，最小长度为1,399行，最大长度为13,258行，平均长度为4,856行。

数据集应用

用于探索、批评和验证新文本的分析，特别是在长篇叙事情感分析领域。
支持Katherine Elkins在剑桥大学出版社的书籍《The Shapes of Stories: Sentiment Analysis for Narrative》中对长篇叙事情感分析的深入解释。

数据集访问

由于版权法限制，仅提供公共领域的小说。
数据集中的小说以时间序列形式呈现，基于各种情感分析模型。

数据集贡献

欢迎领域专家提供分析和注释，以增加数据集的文本内容。
联系邮箱：elkinsk@kenyon.edu 和 chunj@kenyon.edu

搜集汇总

数据集介绍

构建方式

SentimentArcs: Novels Corpus的构建基于对长篇小说情感时间序列分析的深入研究。该数据集精选了25部具有代表性的小说，涵盖了从荷马的《奥德赛》到伊恩·麦克尤恩的《像我这样的机器》等跨越2300年的文学作品。这些小说主要来源于美国与澳大利亚的Gutenberg项目，确保了数据的多样性与历史深度。每部小说被解析为行，以支持情感分析的时间序列建模。

特点

SentimentArcs: Novels Corpus的特点在于其多样性与深度。数据集不仅涵盖了不同时期、风格、主题和作者的作品，还特别强调了20世纪现代主义作家的作品。此外，数据集中包含了多部在Gutenberg.org上最受欢迎的小说，以及在美国顶尖大学中被广泛指定的作品。这种多样性为研究长篇小说情感变化提供了丰富的参考。

使用方法

SentimentArcs: Novels Corpus的使用方法主要通过Jupyter笔记本实现，这些笔记本集成了专家的人工干预，以支持复杂的情感时间序列分析。用户可以通过这些工具探索、批判和验证新文本的情感分析结果。此外，数据集还支持与领域专家的合作，以进一步丰富和扩展其应用范围。

背景与挑战

背景概述

SentimentArcs: Novels Corpus 是一个专门为长篇小说情感分析设计的数据集，旨在为时间序列情感分析提供参考基准。该数据集由Katherine Elkins和Jon Chun等研究人员于2021年创建，主要依托于美国古腾堡计划和澳大利亚古腾堡计划中的公共领域小说。其核心研究问题在于如何对长篇小说中的情感进行时间序列分析，而非传统的短文本情感分类。该数据集涵盖了从荷马的《奥德赛》到伊恩·麦克尤恩的《像我这样的机器》等25部经典小说，时间跨度长达2300年，涵盖了多种文学流派、主题和作者背景。SentimentArcs不仅为情感分析提供了多样化的基准数据，还通过引入专家参与的方式，提升了长文本情感分析的准确性和可解释性。该数据集在文学分析和情感计算领域具有重要的影响力，为未来的研究提供了坚实的基础。

当前挑战

SentimentArcs: Novels Corpus 在构建和应用过程中面临多重挑战。首先，长篇小说情感分析相较于短文本情感分析更为复杂，涉及时间序列的分块、平滑处理和特征检测（如情感峰值和谷值的识别）。其次，由于长篇小说语言的复杂性和叙事结构的多样性，传统的情感分析方法难以直接适用，需要结合专家的人工干预来提升分析的准确性。此外，数据集的构建受到版权法的限制，仅能使用公共领域的作品，这在一定程度上限制了数据集的多样性和规模。尽管数据集已涵盖了多种文学流派和作者背景，但在非英语文学作品和当代作品方面仍存在不足。未来，如何扩展数据集的多样性并提升跨语言情感分析的性能，是该领域亟待解决的问题。

常用场景

经典使用场景

SentimentArcs: Novels Corpus 数据集在文学分析和情感计算领域具有重要应用，尤其在长篇小说情感时间序列分析中表现突出。该数据集通过提供多样化的经典小说文本，为研究者提供了一个基准参考，用于探索小说情感弧线的变化模式。经典的使用场景包括对小说情感变化的定量分析，帮助研究者理解小说叙事结构中的情感波动及其对读者情感体验的影响。

衍生相关工作

SentimentArcs: Novels Corpus 数据集衍生了许多经典研究工作，其中最著名的是 Katherine Elkins 的著作《The Shapes of Stories: Sentiment Analysis for Narrative》。该书详细探讨了如何利用 SentimentArcs 工具进行长文本情感分析，并提供了丰富的案例分析。此外，基于该数据集的研究还推动了情感计算与文学分析的交叉领域发展，例如开发新的情感时间序列模型以及探索叙事结构对读者情感的影响机制。

数据集最近研究