MPST
收藏arXiv2018-02-23 更新2024-06-21 收录
下载链接:
http://ritual.uh.edu/mpst-2018
下载链接
链接失效反馈官方服务:
资源简介:
MPST数据集由休斯敦大学计算机科学系创建,包含约14,828部电影的剧情摘要及其关联的71个精细标签。数据集通过MovieLens 20M数据集、IMDb和Wikipedia收集,旨在通过分析电影剧情摘要自动生成标签。数据集的创建过程涉及从多个噪声标签空间中提取相关标签,并通过手动审查和语义相似性聚类来减少标签冗余。该数据集适用于电影标签生成、剧情分析和多标签数据集研究,有助于改进电影推荐系统和观众对电影内容的预先了解。
The MPST dataset was created by the Department of Computer Science at the University of Houston. It contains plot summaries of approximately 14,828 films paired with their associated 71 fine-grained tags. Collected from the MovieLens 20M dataset, IMDb, and Wikipedia, the dataset aims to automatically generate tags by analyzing film plot summaries. The dataset construction process involves extracting relevant tags from multiple noisy label spaces, and reducing tag redundancy through manual review and semantic similarity clustering. This dataset is suitable for research on film tag generation, plot analysis, and multi-label datasets, and it helps improve movie recommendation systems and enhance audiences' prior understanding of film content.
提供机构:
休斯敦大学计算机科学系
创建时间:
2018-02-22
搜集汇总
数据集介绍
构建方式
在电影叙事分析与标签生成的研究领域,构建高质量数据集需克服用户生成标签的噪声与冗余问题。MPST数据集的构建始于从MovieLens 20M和IMDb平台收集大量用户标签,通过筛选出现频率超过100次电影的标签,并人工剔除与电影情节无关的条目。随后,研究团队对剩余标签进行语义聚类,将相似标签归纳为71个精细类别,如将“suspenseful”“suspense”“tense”统一为“suspenseful”,以消除冗余。基于聚类结果,利用IMDb ID匹配14,828部电影,并从IMDb和Wikipedia爬取情节摘要,确保每部电影至少关联一个标签且摘要长度充足,平均每篇摘要达986词,从而形成多标签关联的叙事文本语料库。
特点
MPST数据集的核心特点体现在其精细化的标签体系与丰富的叙事文本内容。该数据集包含71个非冗余标签,涵盖电影类型、情节结构、情感体验等多维度属性,每个标签均与电影情节高度相关,如“murder”“fantasy”“romantic”等。标签与电影之间呈现多标签关联,平均每部电影对应2.98个标签,分布虽偏斜但覆盖广泛,从高频标签如“violence”到低频标签如“autobiographical”均有所体现。此外,数据集包含14,828篇电影情节摘要,文本长度显著优于现有资源,平均句子数达43.59句,为深度叙事分析提供了充足的语言材料。情感流分析与标签相关性研究进一步验证了数据集在刻画电影情感脉络与类型关联方面的可靠性。
使用方法
MPST数据集适用于电影标签自动生成、叙事分析与多标签分类等研究任务。使用该数据集时,研究者可将其划分为训练集与测试集,采用随机分层抽样确保标签分布均衡。在方法上,可提取多种语言学特征进行多标签分类,如词n-元组、字符n-元组、词嵌入向量、情感概念特征及语义框架表示。实验表明,结合所有特征并采用逻辑回归分类器,在预测电影标签时能取得较优的微平均F1分数与标签召回率。此外,数据集支持对情节摘要进行分块情感分析,通过追踪情感流变化以增强标签预测性能。该数据集为探索叙事文本的高层语义抽象与自动标签生成提供了基准平台,并可扩展至书籍、游戏剧情等其他叙事领域分析。
背景与挑战
背景概述
在自然语言处理与计算叙事学领域,电影情节摘要的自动分析与标注是提升推荐系统效能的关键。MPST(Movie Plot Synopses with Tags)数据集由休斯顿大学的研究团队于2018年构建,旨在解决从电影情节摘要中自动推断多维度标签的挑战。该数据集整合了约1.4万部电影的情节摘要与71个细粒度标签,覆盖类型、情感体验与叙事结构等多元属性,为电影内容分析与多标签分类研究提供了重要资源。其构建基于MovieLens和IMDb等平台的用户生成标签,通过去冗余和语义聚类形成标准化标签体系,显著推动了叙事文本理解与个性化推荐领域的发展。
当前挑战
MPST数据集面临的挑战主要体现在两方面:在领域问题层面,电影情节的多标签分类任务因标签分布高度稀疏且不均衡而变得复杂,例如部分低频标签(如“非虚构”“基督教电影”)的样本量极少,导致模型难以有效学习其语义特征;同时,情节摘要的叙事结构多样且情感流动非线性,要求模型具备深层语义与情感时序分析能力。在构建过程中,研究团队需从嘈杂冗余的用户标签空间中提取与情节相关的核心标签,并通过人工聚类消除语义重叠;此外,确保情节摘要的文本质量与长度适宜性,避免噪声干扰与数据稀疏问题,亦是数据集构建的关键难点。
常用场景
经典使用场景
在电影叙事分析与多标签分类领域,MPST数据集凭借其精细标注的71个标签与近1.5万部电影情节概要的关联,为研究者提供了探索情节与标签映射关系的宝贵资源。该数据集最经典的使用场景在于构建基于情节概要的自动标签预测模型,通过多标签分类方法,系统能够从文本中识别出如“悬疑”、“浪漫”或“暴力”等多样化标签,从而揭示叙事文本的深层语义特征。这一过程不仅推动了自然语言处理技术在叙事理解方面的进展,也为电影推荐系统的优化奠定了理论基础。
实际应用
在实际应用层面,MPST数据集为电影推荐引擎的智能化升级提供了关键支持。通过自动从情节概要中推断标签,系统能够更精准地捕捉电影的内容属性,从而提升相似电影的检索效率与个性化推荐质量。此外,该数据集还可用于电影内容分析平台,帮助制片方或流媒体服务商快速分类与归档海量影片,优化内容管理流程。其衍生技术亦有望扩展至书籍、游戏剧情等其他叙事文本的自动标注场景,具有广泛的产业应用潜力。
衍生相关工作
基于MPST数据集,学术界涌现出一系列经典研究工作,主要集中在多标签分类模型的优化与叙事特征提取方面。例如,研究者利用词嵌入、语义框架与情感特征组合,提升了标签预测的多样性与准确性;同时,针对情节情感流的追踪分析,启发了基于时间序列的情感建模方法。这些工作不仅巩固了MPST在计算叙事领域的基准地位,还促进了深度学习与传统语言学特征的结合,为后续的跨媒体叙事分析提供了方法论借鉴。
以上内容由遇见数据集搜集并总结生成



