PicTropes

Name: PicTropes
Creator: 巴德尔地图公司，旧金山，美国；格拉纳达大学和CITIC-UGR，西班牙；卡迪斯大学和CITIC-UGR，西班牙
Published: 2018-10-26 18:45:10
License: 暂无描述

arXiv2018-10-26 更新2024-06-21 收录

下载链接：

https://github.com/raiben/tropes_open_data

下载链接

链接失效反馈

官方服务：

资源简介：

PicTropes数据集由DBTropes.org数据库提取，包含5925部电影及其使用的18,270个电影桥段。数据集大小庞大，平均每部电影包含43.434个桥段，每个桥段平均出现在14.086部电影中。创建过程涉及从DBTropes.org提取数据并转换为JSON格式，便于编程语言处理。数据集主要应用于机器学习和叙事生成研究，特别是用于生物启发技术在文学和开放世界视频游戏中生成背景故事的研究。

The PicTropes dataset is extracted from the DBTropes.org database, containing 5,925 films and 18,270 film tropes utilized across these works. Boasting a considerable scale, the dataset has an average of 43.434 tropes per film, with each trope appearing in an average of 14.086 films. Its creation involves extracting data from DBTropes.org and converting it into JSON format to facilitate processing by programming languages. The dataset is primarily utilized for research in machine learning and narrative generation, especially studies applying bio-inspired technologies to generate backstories in literary works and open-world video games.

提供机构：

巴德尔地图公司，旧金山，美国；格拉纳达大学和CITIC-UGR，西班牙；卡迪斯大学和CITIC-UGR，西班牙

创建时间：

2018-09-28

搜集汇总

数据集介绍

构建方式

在叙事学与计算创意交叉领域，PicTropes数据集的构建体现了对影视叙事结构的量化探索。该数据集源自DBTropes.org这一公开知识库，后者通过社区协作收集了影视作品中反复出现的叙事手法——即“套路”（tropes）。研究团队从DBTropes.org的RDF格式原始数据中，提取了影视作品与其所含套路之间的关联信息，并将其转化为结构清晰的JSON格式。这一过程涉及对超过200万条RDF语句的筛选与重组，最终形成了包含5,925部影视作品与18,270个套路的对应关系数据集，为后续的统计分析奠定了结构化基础。

使用方法

该数据集适用于叙事模式挖掘、创意生成算法开发等多类研究场景。使用者可通过加载JSON文件，构建影视-套路双向映射字典，进而分析特定作品或套路的分布规律。在机器学习应用中，数据集可作为训练资源，用于构建套路推荐系统或叙事内容生成模型，例如通过关联规则挖掘高频套路组合。此外，结合外部影视元数据（如类型、评分），可进一步探索套路使用与作品特征的相关性。数据集的开放许可与配套分析代码支持了研究可重复性，为计算叙事学领域的实证研究提供了便利。

背景与挑战

背景概述

PicTropes数据集于2018年由Rubén H. García-Ortega、Juan J. Merelo Guervós、Pablo García Sánchez与Gad Pitaru等学者联合构建，其核心源于对叙事学中“套路”（trope）现象的量化研究。该数据集从DBTropes.org知识库中提取，旨在将电影与其中蕴含的叙事套路建立结构化关联，共涵盖5,925部电影与18,270种套路，为叙事生成、推荐系统及娱乐内容分析提供了实证基础。其创建推动了计算叙事学的发展，尤其在基于生物启发技术的故事情节生成领域具有重要应用价值。

当前挑战

PicTropes数据集面临的挑战主要体现在两方面：其一，在领域问题层面，该数据集旨在解决叙事套路自动识别与生成任务，但套路本身具有高度抽象性与语境依赖性，如何准确建模套路与电影主题、情感及结构间的复杂关联，仍是一个开放性难题；其二，在构建过程中，数据源自社区驱动的TVTropes.org百科，存在显著的选择性偏差——热门电影与套路被过度标注，而独立作品或小众套路则覆盖不足，且原始数据截至2016年，时效性有限，这影响了数据集的代表性与泛化能力。

常用场景

经典使用场景

在叙事分析与计算创意领域，PicTropes数据集为研究者提供了电影与叙事套路（tropes）之间的结构化关联。该数据集通过整合DBTropes.org中的大量数据，将5,925部电影与18,270种叙事套路进行映射，形成了一套可量化分析的叙事元素库。其经典使用场景主要围绕对电影叙事模式的统计建模与分布分析，例如通过拟合对数逻辑分布与折叠柯西分布，揭示电影中套路使用的集中趋势与长尾特征，为后续的机器学习应用奠定数据基础。

解决学术问题

PicTropes数据集有效解决了叙事研究中套路量化与模式识别的难题。传统叙事分析多依赖于定性方法，难以大规模处理套路与作品间的复杂关联。该数据集通过提供结构化的电影-套路对应关系，使研究者能够实证探究套路在电影中的分布规律、流行度差异及其与电影类型、年代等因素的相关性。这不仅促进了叙事理论的实证化发展，也为基于数据的叙事生成与推荐系统提供了关键支撑，推动了计算叙事学与创意生成领域的交叉研究。

实际应用

在实际应用层面，PicTropes数据集为电影产业与数字内容创作提供了数据驱动的见解。例如，电影制作团队可借助该数据集分析成功影片的套路组合模式，优化剧本创作与叙事策略；在游戏开发中，该数据集可用于生成开放世界游戏的后台故事，通过生物启发式算法实现叙事内容的程序化生成。此外，该数据集还能支持个性化推荐系统，根据用户对特定套路的偏好推荐电影或生成定制化叙事内容，提升娱乐产品的用户体验与互动性。

数据集最近研究