fiction4sentiment

Name: fiction4sentiment
Creator: Center for Humanities Computing Aarhus
Published: 2025-05-05 17:47:20
License: 暂无描述

Hugging Face2025-05-05 更新2025-05-06 收录

下载链接：

https://huggingface.co/datasets/chcaa/fiction4sentiment

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个文学句子数据集，由人类标注了情感值（0-10），用于开发多语言情感分析。数据集包含了19世纪和20世纪的4种文学体裁（童话故事、赞美诗、散文、诗歌）和两种语言（英语和丹麦语）的109篇独立文本。该语料库由3位主要作者的文本组成，分别是诗歌作者西尔维娅·普拉斯、散文作者欧内斯特·海明威和童话故事作者汉斯·克里斯蒂安·安徒生。赞美诗部分是从1798年至1873年丹麦官方教堂赞美诗集中收集的异质集合。语料库是基于句子进行情感标注的，每个句子至少由两位标注者进行标注。

提供机构：

Center for Humanities Computing Aarhus

创建时间：

2025-05-05

原始信息汇总

数据集概述

基本信息

数据集名称: Fiction4
数据集地址: https://huggingface.co/datasets/chcaa/fiction4sentiment
用途: 用于开发多语言情感分析（SA）的文学句子数据集，标注了情感效价（0-10）

数据集结构

特征:
- text: 句子（字符串）
- label: 人工标注的平均情感分数（0-10，浮点数）
- category: 文学体裁（字符串，可选值：prose, poetry, hymns, fairytales）
- author: 作者（字符串）
- id: 父故事或文本集合（字符串）
- year: 年份（浮点数）
- org_lang: 原始语言（字符串）
- annotator_1, annotator_2, annotator_3: 标注者分数（浮点数）
- tr_xlm_roberta: 模型自动情感分数（浮点数）
- vader: 字典方法自动情感分数（浮点数）
- __index_level_0__: 索引级别（字符串）
数据分割:
- train: 6,300个样本，大小1,051,007字节

数据统计

体裁	文本数量	标注数量	单词数量	时期
童话	3	772	18,597	1837-1847
赞美诗	65	2,026	12,798	1798-1873
散文	1	1,923	30,279	1952
诗歌	40	1,579	11,576	1965

关键信息

语言: 英语和丹麦语
时期: 19世纪和20世纪
主要作者: Sylvia Plath（诗歌）、Ernest Hemingway（散文）、H.C. Andersen（童话）
标注方式: 每个句子至少由2名标注者标注情感效价

引用

bibtex @inproceedings{feldkamp_sentiment_2024, title = {Sentiment {Below} the {Surface}: {Omissive} and {Evocative} {Strategies} in {Literature} and {Beyond}}, shorttitle = {Sentiment {Below} the {Surface}}, booktitle = {Computational {Humanities} {Research} 2024}, publisher = {CEUR Workshop Proceedings}, author = {Feldkamp, Pascale and Overgaard, Ea Lindhardt and Nielbo, Kristoffer Laigaard and Bizzoni, Yuri}, year = {2024}, }

搜集汇总

数据集介绍

构建方式

该数据集聚焦于文学文本的情感分析领域，采用多语言、多体裁的构建策略。其核心数据来源于19至20世纪的英文和丹麦文学作品，涵盖童话、赞美诗、散文及诗歌四种体裁，共109部作品。通过至少两名标注者对每个句子进行情感效价标注（0-10分制），并整合三位主要作家（安徒生、海明威、普拉斯）的代表作，形成跨世纪、跨文化的文学情感语料库。数据构建过程特别注重标注者间一致性，同时收录了基于tr_xlm_roberta模型和VADER词典的自动情感评分作为辅助特征。

特点

该数据集最显著的特点是实现了文学深度与计算分析的有机结合。在数据层面，不仅包含原始文本和人工标注的情感分数，还提供体裁分类、作者信息、创作年份等多维度元数据。其双语特性（英语/丹麦语）和跨世纪时间跨度（1798-1965）为研究情感表达的历史演变提供了可能。技术层面创新性地融合了人工标注与自动情感分析结果，通过tr_xlm_roberta跨语言模型和VADER词典方法的双重验证，为比较研究提供了丰富素材。体裁分布的平衡性（6300个样本覆盖4种文学形式）进一步增强了数据集的学术价值。

使用方法

使用该数据集时，研究者可从三个层面展开探索：基于text-label对应关系可直接训练情感分析模型，利用category字段实现体裁对比研究；通过author/year字段可进行作家风格或时代变迁分析；tr_xlm_roberta与vader的预计算结果为方法比较提供了基准。数据以标准表格形式组织，每条记录包含完整元数据和多重评分，支持pandas等工具直接读取。需注意人工标注均值（label字段）与自动评分差异可能反映文学语言的隐含情感特征，这种对比正符合原数据集设计的研究意图——揭示文学表层之下的情感表达策略。

背景与挑战

背景概述

Fiction4Sentiment数据集由Pascale Feldkamp等学者于2024年构建，旨在为文学情感分析研究提供多语言标注资源。该数据集收录了19至20世纪间109部文学作品，涵盖童话、赞美诗、散文和诗歌四种体裁，包含英语和丹麦语双语文本，重点研究了海明威、西尔维娅·普拉斯等代表性作家的情感表达特征。作为计算人文领域的重要语料库，其独特价值在于通过句子级情感标注揭示了文学作品中隐性与显性的情感策略，为跨体裁、跨时代的深层情感模式分析提供了实证基础。

当前挑战

该数据集面临双重挑战：在领域问题层面，文学文本的情感维度具有高度主观性和文化依赖性，传统情感分析方法难以捕捉隐喻、反讽等复杂修辞手法；在构建过程中，多标注者间的情感评分一致性控制、跨语言情感标注标准的统一，以及历史文本的语义消歧成为主要难点。此外，自动情感分析工具（如VADER和XLM-RoBERTa）在文学领域的适应性验证，也暴露出通用模型对文体特异性处理的局限性。

常用场景

经典使用场景

在情感分析研究领域，fiction4sentiment数据集以其独特的文学文本标注特性，成为探索深层情感表达的经典工具。该数据集收录了跨越两个世纪、四种文学体裁的文本，通过多标注者系统对每句话进行情感强度评分，为研究者提供了丰富的语言情感表达样本。尤其在跨文化情感分析任务中，其包含的英语和丹麦语双语文本，使得比较不同语言背景下情感表达差异成为可能。

衍生相关工作

基于该数据集，研究者们开展了一系列创新工作。Feldkamp等人利用其开发了针对文学文本的深层情感分析模型，探索了表面情感与潜在情感表达的差异。在跨语言研究方面，有学者比较了英语和丹麦语文学作品中情感表达的异同。此外，该数据集还启发了对自动情感分析工具在文学领域适用性的系统性评估研究。

数据集最近研究