AustenAlike

Name: AustenAlike
Creator: 韦尔斯利学院
Published: 2024-08-29 04:36:35
License: 暂无描述

arXiv2024-08-29 更新2024-08-31 收录

下载链接：

https://github.com/Wellesley-EASEL-lab/AustenAlike

下载链接

链接失效反馈

官方服务：

资源简介：

AustenAlike数据集由韦尔斯利学院创建，专注于简·奥斯汀的六部小说中的角色相似性评估。该数据集包含5740条角色比较对，涵盖了结构、社会和专家定义的角色相似性。数据集的创建基于三个不同的角色相似性概念，包括叙事角色、社会特征和专家分析。AustenAlike旨在通过多方面的角色相似性分析，帮助解决文学计算分析中的角色表示问题。

提供机构：

韦尔斯利学院

创建时间：

2024-08-29

搜集汇总

数据集介绍

构建方式

AustenAlike数据集的构建基于对简·奥斯汀小说中人物相似性的多维评价任务。该数据集通过三种人物相似性的概念来组织人物：结构定义的相似性、社会定义的相似性以及从文学批评中提取的专家定义的相似性。结构定义的相似性是指人物在叙事中扮演的角色相似，社会定义的相似性是指人物共享人口统计特征，而专家定义的相似性则来自对奥斯汀作品分析的专家学者的比较。通过对这些概念的整合，AustenAlike为计算模型提供了丰富的评价基准。

特点

AustenAlike数据集的特点在于其多角度的人物相似性评价。它不仅考虑了人物在叙事中的角色和共享的社会特征，还引入了专家学者的观点，这使得数据集更加全面和深入。此外，AustenAlike使用了多种特征来构建人物表示，包括事件、引言、修饰语和断言，这些特征能够从不同侧面捕捉人物的特点。数据集的构建还考虑了人物提及、特征提取和模型构建等多个步骤，确保了数据的质量和多样性。

使用方法

使用AustenAlike数据集的方法包括提取人物特征、构建人物表示、比较相似性以及评估模型的性能。首先，使用BookNLP和FanfictionNLP两种文本处理流程来识别和提取人物特征，如事件、引言、修饰语和断言。然后，通过语境嵌入技术构建人物的表示，并使用余弦相似度等指标来比较不同人物之间的相似性。最后，将计算模型的相似性评估结果与AustenAlike中的三种人物相似性基准进行比较，以评估模型的性能和有效性。

背景与挑战

背景概述

AustenAlike数据集的研究背景概述

当前挑战

AustenAlike数据集当前挑战

常用场景

经典使用场景

AustenAlike 数据集主要被用于评估和比较不同计算方法在提取和分析文学作品中的角色特征方面的能力。该数据集包含三个不同维度的角色相似性：结构定义的相似性、社会定义的相似性以及专家定义的相似性。研究者可以提取角色的行为、言语、修饰词和断言等特征，并构建角色的计算表示，然后将其与 AustenAlike 中的三个基准进行比较，以评估不同特征提取方法和计算表示在捕捉角色相似性方面的有效性。

解决学术问题

AustenAlike 数据集解决了文学分析中的一个重要问题，即如何评估和比较不同计算方法在提取和分析文学作品中的角色特征方面的能力。该数据集为研究者提供了一个多方面的评估标准，可以帮助他们了解不同特征提取方法和计算表示在捕捉角色相似性方面的优势和局限性，并为未来的研究提供指导和启示。

衍生相关工作

AustenAlike 数据集的发布和研究成果为后续的相关研究提供了重要的基础和参考。例如，研究者可以基于 AustenAlike 数据集开发更先进的角色特征提取方法和计算表示，以更好地捕捉角色相似性。此外，研究者还可以探索 AustenAlike 数据集在跨语言文学分析中的应用，以评估不同文化背景下的角色特征和相似性。此外，研究者还可以基于 AustenAlike 数据集开发基于文本的角色推荐系统，帮助读者发现和阅读与他们感兴趣的角色相似的角色。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集