five

KPoEM (Korean Poetry Emotion Mapping)

收藏
arXiv2025-09-04 更新2025-11-24 收录
下载链接:
https://zenodo.org/records/15181396
下载链接
链接失效反馈
官方服务:
资源简介:
KPoEM数据集是一个包含7662个条目的新型数据集,用于现代韩国诗歌的情感计算分析。该数据集包括从483首诗歌中提取的7007行级条目和615篇作品级条目,由五位有影响力的韩国诗人的诗歌组成,并标注了44种细粒度的情感类别。KPoEM数据集的创建填补了韩国现代诗歌情感分析领域的空白,为计算文学分析提供了宝贵的资源。

The KPoEM dataset is a novel dataset containing 7,662 entries for computational sentiment analysis of modern Korean poetry. It includes 7,007 line-level entries and 615 work-level entries extracted from 483 poems created by five influential Korean poets, and is annotated with 44 fine-grained emotion categories. The development of the KPoEM dataset fills the gap in the field of sentiment analysis for modern Korean poetry, serving as a valuable resource for computational literary analysis.
提供机构:
韩国学中央研究院
创建时间:
2025-09-04
搜集汇总
数据集介绍
main_image_url
构建方式
在数字人文研究框架下,KPoEM数据集的构建遵循了系统化采集与标注流程。该数据集从韩文维基文库的公共领域诗歌集中选取了五位代表性现代韩国诗人的483首作品,通过自动化解析工具将诗歌文本转换为结构化数据,并划分为行级与作品级两个层次。为确保标注一致性,研究团队设计了包含44种细粒度情感类别的多标签标注体系,由五位经过专业训练的标注者独立完成情感标记,并通过随机打乱行级数据顺序的方法控制上下文依赖性对情感判断的影响。
特点
KPoEM数据集的核心特征体现在其文化敏感性与情感表达的多元性。该数据集囊括了7662个标注单元,其中行级数据7007条,作品级数据615条,覆盖了韩国现代诗歌中特有的情感范畴如'비장함(悲壮)'与'서러움(哀怨)'。通过多标注者并行标注机制,数据集有效捕捉了诗歌文本中并存的复合情感,其标注结果呈现出情感强度的连续分布,而非二元分类,为研究诗歌中情感的层次性与流动性提供了量化基础。
使用方法
该数据集为计算文学研究提供了多层次的应用路径。在模型训练层面,研究者可采用顺序微调策略,先将预训练语言模型在通用情感数据集KOTE上微调,再使用KPoEM进行领域适配,以提升对诗歌隐喻表达的识别能力。在分析层面,行级标注支持情感轨迹可视化分析,作品级数据则适用于整体情感风格研究。此外,数据集支持跨诗人情感模式比较、时代情感特征挖掘等研究方向,为文学批评与人工智能的交叉研究搭建了桥梁。
背景与挑战
背景概述
KPoEM数据集由韩国学中央研究院文化信息学团队于2025年创建,聚焦现代韩语诗歌情感计算分析领域。该数据集收录了金素月、尹东柱等五位代表性诗人的483首作品,构建了包含7,662条标注数据的多标签情感语料库,涵盖44种细粒度情感类别。其创新性在于首次将计算语言学方法与韩国文学研究深度结合,通过专家标注的诗歌情感数据,为数字人文领域提供了量化分析诗歌情感表达的重要基础设施。该资源显著提升了韩语诗歌情感识别的计算精度,推动了文学分析与人工智能技术的跨学科融合。
当前挑战
在解决诗歌情感计算的核心问题时,KPoEM需应对诗歌隐喻语言与情感模糊性带来的标注挑战,特别是韩语特有的文化情感概念如'비장함'(悲壮)的准确识别。构建过程中面临双重困难:数据采集需平衡版权限制与文本代表性,仅能选取著作权过期的经典作品;标注环节需通过五位专家独立标注与第三方仲裁机制,解决诗歌多义性导致的标注分歧。此外,预处理阶段需处理古韩文与现代韩文的转写规范,并设计行级与作品级双重标注结构以捕捉诗歌情感的层次性。
常用场景
经典使用场景
在数字人文与计算文学分析领域,KPoEM数据集为现代韩语诗歌的情感解码提供了关键资源。其最经典的应用场景在于训练和优化大型语言模型,使其能够识别诗歌中隐喻、象征和文化特异性情感表达。通过细粒度的44类情感标注,该数据集使模型在诗歌情感分类任务中达到0.60的F1-micro分数,显著超越基于通用语料训练的模型性能,为诗歌文本的定量分析建立了新范式。
解决学术问题
KPoEM数据集有效解决了文学计算中情感分析的三大核心问题:首先,突破了传统情感分类工具对诗歌比喻性语言的解析瓶颈,通过文化适配的情感分类体系捕捉了如'비장함'(悲壮)等韩语特有情感;其次,构建了首个人工标注的韩语诗歌情感数据集,填补了非英语文学计算资源的空白;最后,通过序列微调策略验证了领域自适应在文学情感建模中的有效性,为跨文化诗歌研究提供了可复现的方法论基础。
衍生相关工作
KPoEM催生了多个跨学科研究方向:在方法论层面,其序列微调范式启发了针对低资源文学文本的领域自适应研究;在资源建设方面,推动了如古典小说情感数据集KENT等垂直领域标注体系的完善;在应用生态中,衍生出基于情感轨迹可视化的诗人风格比较研究,以及结合感官要素的多模态文学分析框架。这些工作共同构成了韩语文学计算研究的基础设施,为AI与人文的深度融合开辟了新路径。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作