five

CHATTER|电影剧本分析数据集|角色特征识别数据集

收藏
arXiv2024-11-08 更新2024-11-12 收录
电影剧本分析
角色特征识别
下载链接:
https://drive.google.com/drive/folders/11egMhs-zkWSASe7zJENwHg17-6VOeXDU?usp=sharing
下载链接
链接失效反馈
资源简介:
CHATTER数据集由南加州大学信号分析与解释实验室创建,用于电影剧本中角色特征的标注。该数据集包含88148个角色-特征对,涵盖2998个角色、13324个特征和660部电影。数据集的创建过程包括从TVTropes网站获取角色特征标签,并从ScriptsonScreen网站获取电影剧本。CHATTER数据集旨在解决电影剧本中角色特征识别的问题,通过二元分类任务评估模型对角色特征的理解能力。
提供机构:
南加州大学信号分析与解释实验室
创建时间:
2024-11-08
AI搜集汇总
数据集介绍
main_image_url
构建方式
CHATTER数据集的构建基于电影剧本和TVTropes网站上的角色 tropes。首先,从ScriptsonScreen网站下载电影剧本,并将其与IMDB页面进行映射,以确保角色的唯一性。接着,从TVTropes中提取角色的 tropes,并收集这些 tropes 的定义。为了确保模型的评估具有挑战性,数据集还包括了通过分析 tropes 定义生成的负样本。最终,CHATTER数据集包含了88148个角色-trope对,涵盖2998个角色、13324个 tropes 和660部电影。
特点
CHATTER数据集的显著特点在于其规模大、覆盖面广,且包含了详细的电影剧本和 tropes 定义。该数据集不仅提供了角色是否展现特定 tropes 的标签,还通过GPT-4生成了 tropes 定义的摘要,以便于模型的理解和应用。此外,数据集通过引入负样本,增强了模型的辨别能力,使其在处理角色 attribution 任务时更具挑战性。
使用方法
CHATTER数据集主要用于训练和评估角色 attribution 模型。研究者可以利用该数据集进行二分类任务,即判断给定的角色-trope对是否成立。数据集中的电影剧本和 tropes 定义为模型提供了丰富的上下文信息,有助于提升模型的理解能力和预测准确性。此外,CHATTEREVAL子集通过人工标注进行了验证,可作为评估模型性能的基准。
背景与挑战
背景概述
CHATTER数据集由南加州大学信号分析与解释实验室的Sabyasachee Baruah和Shrikanth Narayanan创建,旨在解决叙事理解中角色属性识别的问题。该数据集包含了88148个角色-属性对,涵盖2998个角色、13324个属性和660部电影,通过标注角色是否展现特定属性,为叙事模型提供了丰富的训练和评估资源。CHATTER数据集的构建基于TVTropes网站的角色 tropes,并从好莱坞电影中提取角色信息,旨在为角色属性识别任务提供一个稳健且可靠的基准。
当前挑战
CHATTER数据集面临的挑战主要包括:1) 角色属性识别任务的复杂性,由于角色属性多样且定义模糊,如性格、形容词、角色原型等,每种方法都有其局限性;2) 数据集构建过程中的噪声问题,由于TVTropes数据源的社区驱动性质,数据质量难以保证;3) 叙事文本与实际电影表现之间的差异,公开的剧本通常是早期草稿,而非最终版本,这可能导致模型预测与实际电影表现不一致;4) 多模态信息的缺失,电影中的非言语行为等视觉线索在文本中无法体现,影响模型的准确性。
常用场景
经典使用场景
CHATTER数据集的经典使用场景在于评估和训练叙事理解模型,特别是针对角色属性分配任务。该数据集通过标注88148个角色-属性对,涵盖2998个角色、13324个属性和660部电影,为模型提供了丰富的训练和测试资源。CHATTEREVAL子集通过人工注释验证,进一步确保了数据集在角色属性分配任务中的可靠性和有效性。
衍生相关工作
CHATTER数据集的发布催生了一系列相关研究工作,特别是在角色理解和叙事分析领域。例如,Baruah和Narayanan(2024)利用该数据集研究了角色属性的提取方法,而Inoue等人(2022)则探讨了如何通过文档级任务来理解和评估角色表示。这些研究不仅扩展了CHATTER的应用范围,也为叙事理解提供了新的理论和方法支持。
数据集最近研究
最新研究方向
在叙事理解领域,CHATTER数据集的最新研究方向聚焦于通过电影剧本中的角色与属性对来评估叙事模型的理解能力。该数据集不仅涵盖了2998个角色和13324个属性,还包含了660部电影的详细剧本,为研究者提供了一个丰富的资源库。前沿研究主要集中在角色属性的分类与识别上,探索如何通过机器学习模型准确捕捉角色的复杂性和多样性。此外,CHATTEREVAL子集的引入,通过人工注释验证了数据集的可靠性,为角色属性任务提供了评估基准。这一研究方向不仅推动了叙事理解技术的发展,也为电影剧本分析和创作提供了新的工具和视角。
相关研究论文
  • 1
    CHATTER: A Character Attribution Dataset for Narrative Understanding南加州大学信号分析与解释实验室 · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

TT100K - Tsinghua-Tencent 100K

TT100K数据集是一个用于交通标志检测和识别的大规模数据集,包含100,000张标注的交通标志图像。该数据集主要用于计算机视觉和自动驾驶领域的研究。

cg.cs.tsinghua.edu.cn 收录

Wind Turbine Data

该数据集包含风力涡轮机的运行数据,包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态,适用于风能研究和风力发电系统的优化分析。

www.kaggle.com 收录

Subway Dataset

该数据集包含了全球多个城市的地铁系统数据,包括车站信息、线路图、列车时刻表、乘客流量等。数据集旨在帮助研究人员和开发者分析和模拟城市交通系统,优化地铁运营和乘客体验。

www.kaggle.com 收录

CHARLS

中国健康与养老追踪调查(CHARLS)数据集,旨在收集反映中国45岁及以上中老年人家庭和个人的高质量微观数据,用以分析人口老龄化问题,内容包括健康状况、经济状况、家庭结构和社会支持等。

charls.pku.edu.cn 收录