Andersen and Persuasion Datasets

Name: Andersen and Persuasion Datasets
Creator: Koç University
Published: 2025-04-04 21:25:32
License: 暂无描述

arXiv2025-04-04 更新2025-04-08 收录

下载链接：

https://github.com/batuhan-ozyurt/Location-of-Characters-in-Narratives-Andersen-and-Persuasion-Datasets

下载链接

链接失效反馈

官方服务：

资源简介：

Andersen数据集和Persuasion数据集是两个专门为寻找叙事中角色位置任务创建的数据集。Andersen数据集包含15个来自汉斯·克里斯蒂安·安徒生童话故事的故事，而Persuasion数据集则来自简·奥斯汀的小说《劝说》。两个数据集都是英文的，并通过人工标注故事中角色和他们的位置信息。Andersen数据集有249个角色-位置配对注释，Persuasion数据集有264个。这些数据集旨在帮助提高机器在理解叙事文本中的空间关系方面的能力。

The Andersen Dataset and the Persuasion Dataset are two datasets specifically constructed for the task of detecting character positions in narratives. The Andersen Dataset includes 15 stories sourced from Hans Christian Andersen's fairy tales, whereas the Persuasion Dataset is derived from Jane Austen's novel *Persuasion*. Both datasets are in English, with manual annotations for characters in the stories and their respective positions. The Andersen Dataset contains 249 character-position pair annotations, while the Persuasion Dataset has 264. These datasets are intended to help enhance machines' capacity to comprehend spatial relationships in narrative texts.

提供机构：

Koç University

创建时间：

2025-04-04

搜集汇总

数据集介绍

构建方式

Andersen和Persuasion数据集是为测试AI在叙事文本中理解角色与位置关系的能力而构建的。Andersen数据集选取了汉斯·克里斯蒂安·安徒生的15篇童话故事，Persuasion数据集则基于简·奥斯汀的小说《劝导》。两个数据集均通过人工标注的方式，记录了故事中每个角色及其对应位置的信息。标注过程中，研究人员以“角色A在哪里？”为核心问题，逐句标注角色及其位置，并将结果整理为制表符分隔的格式文件，包含字符索引、角色名称、位置描述及单复数信息。

使用方法

该数据集主要用于评估大型语言模型（LLMs）在叙事空间推理任务中的表现。使用方法包括：从故事中提取片段作为上下文，结合“角色X在哪里？”的提问构建提示模板，输入模型获取答案。研究测试了T0++、FLAN-T5-XXL等五种模型，通过精确匹配和模糊匹配（阈值90）评估性能。实验表明，最佳模型在Andersen和Persuasion数据集上的准确率分别为61.85%和56.06%。此外，可通过添加干扰句或示例句（如“约翰走进厨房”）探索模型的抗干扰能力，或采用少样本学习提升表现。

背景与挑战

背景概述

Andersen and Persuasion数据集由Koç大学的Batuhan Özyurt、Roya Arkhmammadova和Deniz Yuret于2025年创建，旨在评估AI模型在叙事文本中理解角色与空间关系的能力。该数据集包含来自安徒生童话的15篇儿童故事和简·奥斯汀的小说《劝导》中的角色及其位置的手动标注。这些标注为研究大语言模型（LLMs）在空间推理任务中的表现提供了基准，推动了数字人文和自然语言处理领域的发展。

当前挑战

该数据集面临的挑战主要包括两方面：一是领域问题的挑战，即如何准确识别叙事文本中角色与位置的动态关系，尤其是在复杂的语言结构和隐含的空间描述中；二是构建过程中的挑战，包括手动标注的高成本、不同叙事风格（如儿童故事与成人文学）带来的标注一致性难题，以及长文本中角色位置跟踪的复杂性。此外，数据集的标注一致性（如安徒生数据集的标注者间一致率仅为52.7%）也反映了任务的主观性和难度。

常用场景

经典使用场景

Andersen and Persuasion Datasets作为专门针对叙事文本中角色与空间位置关系标注的数据集，其经典应用场景聚焦于测试大型语言模型在空间推理任务上的表现。研究者通过构建'角色-位置'问答对，评估模型从儿童文学（安徒生童话）和古典小说（《劝导》）中提取空间信息的能力，例如在《猪倌》故事片段中定位'公主靠近猪圈'这一隐含空间关系，这种设定为衡量模型对叙事文本的深层理解提供了标准化测试平台。

解决学术问题

该数据集有效解决了数字人文与自然语言处理交叉领域的核心问题：如何量化评估AI系统对叙事空间关系的理解能力。通过249个童话标注和264个小说标注，研究者首次建立了文学文本中角色移动轨迹的基准测试集，揭示了当前LLMs在空间推理上的局限性（最高准确率仅61.85%），为改进模型对介词、运动动词等空间语义的理解提供了实证依据，填补了传统实体识别数据集中角色与位置关联标注的空白。

实际应用

在实践层面，该数据集支持的教育科技和智能阅读辅助系统开发颇具潜力。基于角色位置追踪的算法可帮助构建可视化叙事地图，辅助儿童文学教学中的场景理解；在无障碍阅读领域，系统可自动生成'角色当前所处位置'的语音提示，提升视障用户的阅读体验。此外，其标注范式为影视剧本分析软件提供了自动化角色动线分析的参考框架。

数据集最近研究