webnovel-narrative-emotion

Hugging Face2025-08-21 更新2025-08-22 收录

下载链接：

https://huggingface.co/datasets/jsisonou/webnovel-narrative-emotion

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个名为'Webnovel叙事情感数据集'的数据集，包含带有遮罩文本预览和注释情感曲线的叙事场景。该数据集严格用于非商业性的学术和研究目的。每个数据条目都是一个JSON对象，包含场景ID、文本预览以及情感注释，如效价、激发度和支配度。数据集包括'core100_emotion_curve.csv'文件，用于聚合的情感曲线，以及包含情感标签的场景级文本的'scenes.jsonl'文件。

创建时间：

2025-08-20

原始信息汇总

Webnovel Narrative Emotion Dataset (FREE Edition) 概述

数据集基本信息

名称：Webnovel Narrative Emotion Dataset (FREE Bundle)
简称：Emotion Tagging Dataset — FREE Edition
发布者：JsisOn OÜ
年份：2025
作者：Liia Black
许可协议：JsisOn License (ARR) — 仅限非商业学术和研究用途
数据规模：n<1K（小于1000条）
任务类型：文本分类
具体任务：情感分类

数据集内容

核心内容：包含带有情感标注的叙事场景，每个场景具有掩码文本预览和情感曲线标注。
数据格式：JSON对象和CSV文件。

主要文件

scenes.jsonl：场景级JSON对象列表。
core100_emotion_curve.csv：聚合的每场景VAD情感曲线（9列，包括scene_idx、VAD、label、distance、conf等）。
scenes+tags.json：剧集级元数据及场景。
preview/emotion_curve.png：VAD曲线预览图。

数据模式

每个条目为JSON对象，包含以下字段：

scene_id（字符串）：场景的唯一标识符。
text_preview（字符串）：场景的短掩码片段（完整文本已隐藏）。
text_masked（布尔值）：完整文本是否被掩码（true表示隐藏）。
text_len_chars（整数）：完整未掩码文本的字符长度。
plot_break（布尔值）：标记此场景是否为重大叙事中断。

情感对象

valence（浮点数，范围：-1.0至1.0）：积极与消极情感。
arousal（浮点数，范围：0.0至1.0）：平静与兴奋状态。
dominance（浮点数，范围：0.0至1.0）：控制与顺从性。
label（字符串）：主导分类情感标签。
conf（浮点数，范围：0.0至1.0）：标签的置信度分数。

许可与使用

允许用途：非商业学术和研究。
禁止用途：商业用途、转售、再许可或用于产品/服务的AI训练。
商业访问：如需合作或专业版访问，请联系ai@batalstone.com。

引用

如需在学术工作中使用此数据集，请引用： @dataset{batalstone_emotion_free, author = {Liia Black}, title = {Webnovel Narrative Emotion Dataset — FREE Edition}, year = {2025}, publisher = {JsisOn OÜ}, url = {https://huggingface.co/datasets/jsisonou/webnovel-narrative-emotion} }

搜集汇总

数据集介绍

构建方式

在叙事情感分析领域，webnovel-narrative-emotion数据集通过系统化流程构建而成。该数据集从网络小说中提取叙事场景，采用文本掩码技术保护版权内容，同时保留情感标注所需的关键信息。每个场景均通过专业标注流程获得多维情感标签，包括效价、唤醒度和支配度的连续数值标注，以及分类情感标签和置信度评分，确保数据的学术严谨性。

特点

该数据集的核心特征体现在其精细的情感标注体系上。采用VAD三维情感模型，提供从-1.0到1.0的效价值、0.0到1.0的唤醒度和支配度连续评分，辅以分类情感标签和置信度指标。数据集包含场景级别的叙事文本预览和情感曲线数据，特别标注了叙事断裂点，为研究叙事结构与情感变化的关联提供了独特视角。

使用方法

研究人员可借助该数据集开展叙事情感计算的多维度探索。通过解析scenes.jsonl文件获取场景级情感标注，利用core100_emotion_curve.csv进行情感曲线分析。数据集适用于情感分类模型训练、叙事节奏研究以及情感计算算法的验证，但需注意仅限于非商业学术用途，符合JsisOn许可协议的规定要求。

背景与挑战

背景概述

网络文学情感分析数据集webnovel-narrative-emotion由JsisOn OÜ研究团队于2025年推出，主要研究者Liia Black致力于探索叙事文本中的情感动态建模。该数据集聚焦于情感计算与叙事分析的交叉领域，通过标注小说场景的情感维度（效价、唤醒度、支配度），为计算叙事学与情感分析研究提供了重要资源。其创新性在于将连续情感标注与叙事结构结合，推动了情感曲线分析在长文本叙事中的应用，对自然语言处理与数字人文研究具有显著影响力。

当前挑战

该数据集旨在解决叙事情感动态建模的复杂问题，核心挑战包括多维度情感标注的一致性维护、长文本情感曲线的平滑性处理，以及离散情感标签与连续VAD维度间的映射关系。构建过程中的挑战主要体现在网络文学文本的情感歧义消除、大规模场景级标注的质量控制，以及商业版权文本的研究合规性处理，这些因素共同增加了数据集构建的技术与伦理复杂度。

常用场景

经典使用场景

在叙事情感计算领域，该数据集通过标注小说场景的情感维度曲线，为研究者提供了分析叙事文本情感动态变化的珍贵资源。其经典使用场景包括训练深度学习模型识别文本中的情感波动，以及验证叙事理论与情感传播假说，尤其在长文本情感连贯性分析方面展现出独特价值。

实际应用

该数据集在智能写作辅助系统中具有重要应用价值，能够帮助创作者实时监测叙事情感曲线是否符合预期效果。在互动叙事游戏开发领域，可为剧情生成引擎提供情感导向的情节编排参考，同时也能应用于教育科技领域的情感化阅读指导系统开发。

衍生相关工作

基于该数据集衍生的经典工作包括叙事情感预测模型的构建，其中基于LSTM的情感曲线生成算法取得了显著进展。此外，研究者还开发了跨模态情感对齐方法，将文本情感曲线与音乐、视觉元素的情感特征进行关联分析，推动了多模态叙事研究的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集