five

LiSCU

收藏
arXiv2021-09-12 更新2024-06-21 收录
下载链接:
https://github.com/fabrahman/char-centric-story
下载链接
链接失效反馈
官方服务:
资源简介:
LiSCU数据集由加州大学圣克鲁兹分校的Faeze Brahman创建,包含9499条文学作品摘要及其中的角色描述。数据集内容丰富,涵盖了多个文学作品的摘要和角色描述,数据来源于在线学习指南。创建过程中,使用Scrapy爬虫框架从多个在线资源中收集数据,并通过信息重叠度进行筛选和过滤。LiSCU数据集主要用于推动以角色为中心的叙事理解研究,特别是通过角色识别和角色描述生成两个任务,帮助机器更好地理解和分析文学作品中的角色及其在叙事中的作用。

The LiSCU dataset was developed by Faeze Brahman from the University of California, Santa Cruz. It contains 9,499 literary work abstracts paired with their corresponding character descriptions. The dataset covers a wide range of abstracts and character descriptions from various literary works, with its data sourced from online study guides. During the dataset creation process, the Scrapy crawler framework was employed to collect data from multiple online resources, followed by screening and filtering based on the degree of information overlap. The LiSCU dataset is primarily designed to promote character-centric narrative understanding research. Specifically, it supports two core tasks: character recognition and character description generation, aiming to assist machines in better understanding and analyzing the roles of characters in literary works and their functions within narratives.
提供机构:
加州大学圣克鲁兹分校
创建时间:
2021-09-12
搜集汇总
数据集介绍
main_image_url
构建方式
在文学分析与计算叙事学领域,LiSCU数据集的构建体现了对角色中心化理解的深度探索。该数据集通过系统化流程,从Shmoop、SparkNotes等在线文学学习指南中爬取文学摘要与角色描述,这些内容均由文学专家撰写,具备较高的教学价值。构建过程中,采用信息重叠度指标进行过滤,确保角色在摘要中具有显著提及,并保留叙事中最重要的前三个角色,最终形成包含1,708篇文学摘要与9,499条角色描述的高质量数据集,并按作品划分训练、验证与测试集以避免数据泄露。
特点
LiSCU数据集的显著特点在于其专注于角色中心的叙事理解,超越了传统摘要任务。角色描述并非简单的事实复述,而是从角色视角出发的叙事分析,抽象出事件、角色、关系及内在属性,形成深层次的文学解读。数据集中的摘要平均长度达1,022个词元,对自然语言处理系统处理长文档与建模长程依赖提出了挑战。此外,该数据集还包含少量完整文学作品文本,为从全文生成角色描述提供了进一步研究空间。
使用方法
LiSCU数据集支持两项核心任务:角色识别与角色描述生成。在角色识别任务中,模型根据文学摘要与匿名化角色描述,从候选列表中识别对应角色名称,评估模型对角色特征的推断能力。角色描述生成任务则要求模型基于摘要与角色名称,生成连贯且深入的角色分析描述,推动模型进行抽象化推理与长文本理解。研究社区可通过微调预训练语言模型如BART、Longformer等建立基线,并利用自动评估指标与人工评估相结合的方式,系统衡量模型在忠实度、中心性等维度的表现。
背景与挑战
背景概述
LiSCU数据集由加州大学圣克鲁兹分校、芝加哥大学、艾伦人工智能研究所等机构的研究团队于2021年提出,旨在推动以角色为中心的叙事理解研究。该数据集聚焦于文学作品中角色的深度分析,涵盖角色识别与角色描述生成两大核心任务,通过整合文学作品摘要与专家撰写的角色描述,为计算叙事学领域提供了系统性的研究资源。其创建背景源于传统计算叙事研究多局限于事件序列或浅层角色建模,而LiSCU则致力于填补角色心理、关系与动机等深层语义分析的空白,对自然语言处理在长文本理解与抽象推理方面具有重要推动作用。
当前挑战
LiSCU数据集面临的挑战主要体现在两大维度:其一,在领域问题层面,角色中心叙事理解要求模型超越浅层信息抽取,深入推断角色的隐含属性、情感动机及复杂关系,这需要模型具备高阶抽象与长距离依赖建模能力;其二,在构建过程中,数据采集需从多源在线学习指南中爬取并过滤,确保角色描述与文学摘要的信息重叠度,同时避免次要角色的干扰,而长文本处理(平均摘要长度超千词)也超出了多数现有模型的舒适区,对数据清洗与标注质量提出了较高要求。
常用场景
经典使用场景
在文学分析与计算叙事学领域,LiSCU数据集为角色中心叙事理解提供了关键资源。该数据集通过整合文学作品摘要与角色描述,支持模型从角色视角深入解析叙事结构。其经典应用场景在于训练自然语言处理系统进行角色识别与描述生成,使机器能够模拟人类读者对虚构人物动机、特质及关系的推断过程,从而推动叙事智能的发展。
解决学术问题
LiSCU数据集致力于解决计算叙事学中长期存在的角色中心理解难题。传统研究多聚焦于事件序列或表层特征分析,而该数据集通过提供角色描述与文学摘要的配对,促进了模型对角色内在属性、叙事功能及长期依赖关系的抽象建模。它有效应对了自然语言处理中长文档理解与深层语义推理的挑战,为角色身份识别、描述生成等任务设立了新的基准。
衍生相关工作
基于LiSCU数据集,研究者已衍生出多项经典工作,主要集中在角色建模与叙事理解方向。例如,利用预训练语言模型如RoBERTa、ALBERT进行角色识别任务,探索了长文档编码机制;同时,BART、Longformer等模型被应用于角色描述生成,推动了抽象叙事分析的进展。这些工作不仅验证了数据集的实用性,还拓展了计算叙事学在情感分析、社会网络构建等方面的研究边界。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作