five

webnovel-narrative-emotion

收藏
Hugging Face2025-08-21 更新2025-08-22 收录
下载链接:
https://huggingface.co/datasets/jsisonou/webnovel-narrative-emotion
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个名为'Webnovel叙事情感数据集'的数据集,包含带有遮罩文本预览和注释情感曲线的叙事场景。该数据集严格用于非商业性的学术和研究目的。每个数据条目都是一个JSON对象,包含场景ID、文本预览以及情感注释,如效价、激发度和支配度。数据集包括'core100_emotion_curve.csv'文件,用于聚合的情感曲线,以及包含情感标签的场景级文本的'scenes.jsonl'文件。
创建时间:
2025-08-20
原始信息汇总

Webnovel Narrative Emotion Dataset (FREE Edition) 概述

数据集基本信息

  • 名称:Webnovel Narrative Emotion Dataset (FREE Bundle)
  • 简称:Emotion Tagging Dataset — FREE Edition
  • 发布者:JsisOn OÜ
  • 年份:2025
  • 作者:Liia Black
  • 许可协议:JsisOn License (ARR) — 仅限非商业学术和研究用途
  • 数据规模:n<1K(小于1000条)
  • 任务类型:文本分类
  • 具体任务:情感分类

数据集内容

  • 核心内容:包含带有情感标注的叙事场景,每个场景具有掩码文本预览和情感曲线标注。
  • 数据格式:JSON对象和CSV文件。

主要文件

  • scenes.jsonl:场景级JSON对象列表。
  • core100_emotion_curve.csv:聚合的每场景VAD情感曲线(9列,包括scene_idx、VAD、label、distance、conf等)。
  • scenes+tags.json:剧集级元数据及场景。
  • preview/emotion_curve.png:VAD曲线预览图。

数据模式

每个条目为JSON对象,包含以下字段:

  • scene_id(字符串):场景的唯一标识符。
  • text_preview(字符串):场景的短掩码片段(完整文本已隐藏)。
  • text_masked(布尔值):完整文本是否被掩码(true表示隐藏)。
  • text_len_chars(整数):完整未掩码文本的字符长度。
  • plot_break(布尔值):标记此场景是否为重大叙事中断。

情感对象

  • valence(浮点数,范围:-1.0至1.0):积极与消极情感。
  • arousal(浮点数,范围:0.0至1.0):平静与兴奋状态。
  • dominance(浮点数,范围:0.0至1.0):控制与顺从性。
  • label(字符串):主导分类情感标签。
  • conf(浮点数,范围:0.0至1.0):标签的置信度分数。

许可与使用

  • 允许用途:非商业学术和研究。
  • 禁止用途:商业用途、转售、再许可或用于产品/服务的AI训练。
  • 商业访问:如需合作或专业版访问,请联系ai@batalstone.com。

引用

如需在学术工作中使用此数据集,请引用: @dataset{batalstone_emotion_free, author = {Liia Black}, title = {Webnovel Narrative Emotion Dataset — FREE Edition}, year = {2025}, publisher = {JsisOn OÜ}, url = {https://huggingface.co/datasets/jsisonou/webnovel-narrative-emotion} }

搜集汇总
数据集介绍
main_image_url
构建方式
在叙事情感分析领域,webnovel-narrative-emotion数据集通过系统化流程构建而成。该数据集从网络小说中提取叙事场景,采用文本掩码技术保护版权内容,同时保留情感标注所需的关键信息。每个场景均通过专业标注流程获得多维情感标签,包括效价、唤醒度和支配度的连续数值标注,以及分类情感标签和置信度评分,确保数据的学术严谨性。
特点
该数据集的核心特征体现在其精细的情感标注体系上。采用VAD三维情感模型,提供从-1.0到1.0的效价值、0.0到1.0的唤醒度和支配度连续评分,辅以分类情感标签和置信度指标。数据集包含场景级别的叙事文本预览和情感曲线数据,特别标注了叙事断裂点,为研究叙事结构与情感变化的关联提供了独特视角。
使用方法
研究人员可借助该数据集开展叙事情感计算的多维度探索。通过解析scenes.jsonl文件获取场景级情感标注,利用core100_emotion_curve.csv进行情感曲线分析。数据集适用于情感分类模型训练、叙事节奏研究以及情感计算算法的验证,但需注意仅限于非商业学术用途,符合JsisOn许可协议的规定要求。
背景与挑战
背景概述
网络文学情感分析数据集webnovel-narrative-emotion由JsisOn OÜ研究团队于2025年推出,主要研究者Liia Black致力于探索叙事文本中的情感动态建模。该数据集聚焦于情感计算与叙事分析的交叉领域,通过标注小说场景的情感维度(效价、唤醒度、支配度),为计算叙事学与情感分析研究提供了重要资源。其创新性在于将连续情感标注与叙事结构结合,推动了情感曲线分析在长文本叙事中的应用,对自然语言处理与数字人文研究具有显著影响力。
当前挑战
该数据集旨在解决叙事情感动态建模的复杂问题,核心挑战包括多维度情感标注的一致性维护、长文本情感曲线的平滑性处理,以及离散情感标签与连续VAD维度间的映射关系。构建过程中的挑战主要体现在网络文学文本的情感歧义消除、大规模场景级标注的质量控制,以及商业版权文本的研究合规性处理,这些因素共同增加了数据集构建的技术与伦理复杂度。
常用场景
经典使用场景
在叙事情感计算领域,该数据集通过标注小说场景的情感维度曲线,为研究者提供了分析叙事文本情感动态变化的珍贵资源。其经典使用场景包括训练深度学习模型识别文本中的情感波动,以及验证叙事理论与情感传播假说,尤其在长文本情感连贯性分析方面展现出独特价值。
实际应用
该数据集在智能写作辅助系统中具有重要应用价值,能够帮助创作者实时监测叙事情感曲线是否符合预期效果。在互动叙事游戏开发领域,可为剧情生成引擎提供情感导向的情节编排参考,同时也能应用于教育科技领域的情感化阅读指导系统开发。
衍生相关工作
基于该数据集衍生的经典工作包括叙事情感预测模型的构建,其中基于LSTM的情感曲线生成算法取得了显著进展。此外,研究者还开发了跨模态情感对齐方法,将文本情感曲线与音乐、视觉元素的情感特征进行关联分析,推动了多模态叙事研究的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作