CHATTER

Name: CHATTER
Creator: 南加州大学信号分析与解释实验室
Published: 2024-11-08 06:37:30
License: 暂无描述

arXiv2024-11-08 更新2024-11-12 收录

下载链接：

https://drive.google.com/drive/folders/11egMhs-zkWSASe7zJENwHg17-6VOeXDU?usp=sharing

下载链接

链接失效反馈

官方服务：

资源简介：

CHATTER数据集由南加州大学信号分析与解释实验室创建，用于电影剧本中角色特征的标注。该数据集包含88148个角色-特征对，涵盖2998个角色、13324个特征和660部电影。数据集的创建过程包括从TVTropes网站获取角色特征标签，并从ScriptsonScreen网站获取电影剧本。CHATTER数据集旨在解决电影剧本中角色特征识别的问题，通过二元分类任务评估模型对角色特征的理解能力。

The CHATTER dataset was developed by the Signal Analysis and Interpretation Laboratory at the University of Southern California for the annotation of character traits in film screenplays. It includes 88,148 character-trait pairs, spanning 2,998 characters, 13,324 traits and 660 films. The dataset was constructed by gathering character trait labels from the TVTropes website and acquiring film screenplays from the ScriptsonScreen website. The core objective of the CHATTER dataset is to address the challenge of character trait recognition in film screenplays, and evaluates models' capacity to comprehend character traits through binary classification tasks.

提供机构：

南加州大学信号分析与解释实验室

创建时间：

2024-11-08

搜集汇总

数据集介绍

构建方式

CHATTER数据集的构建基于电影剧本和TVTropes网站上的角色 tropes。首先，从ScriptsonScreen网站下载电影剧本，并将其与IMDB页面进行映射，以确保角色的唯一性。接着，从TVTropes中提取角色的 tropes，并收集这些 tropes 的定义。为了确保模型的评估具有挑战性，数据集还包括了通过分析 tropes 定义生成的负样本。最终，CHATTER数据集包含了88148个角色-trope对，涵盖2998个角色、13324个 tropes 和660部电影。

特点

CHATTER数据集的显著特点在于其规模大、覆盖面广，且包含了详细的电影剧本和 tropes 定义。该数据集不仅提供了角色是否展现特定 tropes 的标签，还通过GPT-4生成了 tropes 定义的摘要，以便于模型的理解和应用。此外，数据集通过引入负样本，增强了模型的辨别能力，使其在处理角色 attribution 任务时更具挑战性。

使用方法

CHATTER数据集主要用于训练和评估角色 attribution 模型。研究者可以利用该数据集进行二分类任务，即判断给定的角色-trope对是否成立。数据集中的电影剧本和 tropes 定义为模型提供了丰富的上下文信息，有助于提升模型的理解能力和预测准确性。此外，CHATTEREVAL子集通过人工标注进行了验证，可作为评估模型性能的基准。

背景与挑战

背景概述

CHATTER数据集由南加州大学信号分析与解释实验室的Sabyasachee Baruah和Shrikanth Narayanan创建，旨在解决叙事理解中角色属性识别的问题。该数据集包含了88148个角色-属性对，涵盖2998个角色、13324个属性和660部电影，通过标注角色是否展现特定属性，为叙事模型提供了丰富的训练和评估资源。CHATTER数据集的构建基于TVTropes网站的角色 tropes，并从好莱坞电影中提取角色信息，旨在为角色属性识别任务提供一个稳健且可靠的基准。

当前挑战

CHATTER数据集面临的挑战主要包括：1) 角色属性识别任务的复杂性，由于角色属性多样且定义模糊，如性格、形容词、角色原型等，每种方法都有其局限性；2) 数据集构建过程中的噪声问题，由于TVTropes数据源的社区驱动性质，数据质量难以保证；3) 叙事文本与实际电影表现之间的差异，公开的剧本通常是早期草稿，而非最终版本，这可能导致模型预测与实际电影表现不一致；4) 多模态信息的缺失，电影中的非言语行为等视觉线索在文本中无法体现，影响模型的准确性。

常用场景

经典使用场景

CHATTER数据集的经典使用场景在于评估和训练叙事理解模型，特别是针对角色属性分配任务。该数据集通过标注88148个角色-属性对，涵盖2998个角色、13324个属性和660部电影，为模型提供了丰富的训练和测试资源。CHATTEREVAL子集通过人工注释验证，进一步确保了数据集在角色属性分配任务中的可靠性和有效性。

衍生相关工作

CHATTER数据集的发布催生了一系列相关研究工作，特别是在角色理解和叙事分析领域。例如，Baruah和Narayanan（2024）利用该数据集研究了角色属性的提取方法，而Inoue等人（2022）则探讨了如何通过文档级任务来理解和评估角色表示。这些研究不仅扩展了CHATTER的应用范围，也为叙事理解提供了新的理论和方法支持。

数据集最近研究