MPST-Movie-Plot-Synopses-with-Tags

github2020-01-11 更新2024-05-31 收录

下载链接：

https://github.com/sambalshikhar/MPST-Movie-Plot-Synopses-with-Tags-A-dataset-of-movie-plot-synopses-with-story-related-tags

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含约14,000部电影的情节概要及其相关的70个精细分类的标签，用于研究电影情节与标签之间的关联，以及情感在不同类型电影中的流动。数据集可用于分析叙事相关任务，如自动标签系统和推荐引擎的改进。

This dataset comprises plot summaries of approximately 14,000 movies along with 70 finely categorized labels, designed to investigate the relationship between movie plots and their labels, as well as the flow of emotions across different genres. It is suitable for analyzing narrative-related tasks, such as the enhancement of automatic labeling systems and recommendation engines.

创建时间：

2019-10-20

原始信息汇总

数据集概述

数据集名称

MPST-Movie-Plot-Synopses-with-Tags

数据集描述

该数据集包含约14,000部电影的剧情概要及其相关的故事标签，用于多标签分类预测问题。数据集中的标签涵盖了电影的多种异质特性，如类型、剧情结构、音轨、元数据、视觉和情感体验等。

数据集用途

用于构建自动电影标签系统，以改善电影推荐引擎的相似电影检索功能。
帮助观众在观看前了解电影内容。

数据集特点

包含70种精细划分的电影标签。
标签与电影剧情概要之间存在多标签关联。

技术应用

使用多种自然语言处理技术，包括LSTM、Latent Dirichlet allocation（LDA）进行主题建模，以及FastText、Glove、Word2Vec和Tf-idf ngrams等词嵌入技术。
通过这些技术，实现了0.46的微观F1分数，超越了基准分数。

相关文献

详细研究论文可在此链接获取：ACL Anthology

搜集汇总

数据集介绍

构建方式

MPST-Movie-Plot-Synopses-with-Tags数据集的构建，采用了一套精细化的标签体系，涵盖约70个标签，用以揭示电影剧情的异质特性。此数据集通过结合多种自然语言处理技术，如长短期记忆网络（LSTM）、潜在狄利克雷分布（LDA）进行主题建模，以及词向量模型如FastText、Glove、Word2Vec和Tf-idf ngrams，实现了对大约14K电影剧情概要与标签的多标签关联构建。

特点

该数据集的特点在于其多标签分类问题的高度不平衡性，以及其标签的细致程度，能够揭示电影剧情的多样化特征。这些标签不仅关联电影类型，还涉及剧情结构、音轨、元数据、视觉和情感体验等多个维度，为自动电影标签系统提供了丰富的信息资源。

使用方法

用户在使用该数据集时，可以依据数据集中的电影剧情概要与对应的标签，开展多标签文本分类研究。数据集附带的研究论文详细介绍了构建过程及使用的技术方法，用户可参照执行，同时也可利用此数据集进行电影剧情分析相关的其他任务。

背景与挑战

背景概述

MPST-Movie-Plot-Synopses-with-Tags数据集，诞生于对电影社交标签信息的深入挖掘需求之中。该数据集由研究人员团队精心构建，旨在揭示电影在类型、情节结构、配乐、元数据、视觉与情感体验等多方面的异质信息。这些信息对于构建自动化的电影标签系统至关重要，能够增强推荐引擎检索相似电影的能力，并为观众提前了解电影内容提供便利。该数据集的创建，为电影情节分析与标签自动推断领域提供了宝贵的研究资源，自推出以来，对相关研究领域产生了积极影响。

当前挑战

该数据集在研究领域面临的挑战主要体现在两个方面：一是其作为一个多标签分类问题，数据集呈现出高度不平衡的特性，这对模型的训练与预测精度提出了更高的要求；二是构建过程中，研究人员需要解决如何从电影情节概要中推断出细致标签的问题，涉及到的自然语言处理技术如LSTM、主题模型、词嵌入等，不仅要求算法具有高准确性，还需处理多标签间的复杂关联性。此外，实现一个微平均F1分数达到0.46的分类器，虽已超越基准分数，但仍有提升空间。

常用场景

经典使用场景

在电影情节分析与标签自动生成的研究领域，MPST-Movie-Plot-Synopses-with-Tags数据集提供了一个独特的资源，其包含约14K部电影情节概要与70余个细粒度的标签。该数据集的经典使用场景在于，研究者可以利用其进行多标签文本分类任务，旨在根据电影的情节概要自动预测与电影相关的多个标签，如电影类型、情节结构等，从而为电影的推荐系统提供支持，为观众提前预知电影内容提供参考。

衍生相关工作

基于MPST数据集，研究者已开展了一系列相关工作，包括但不限于探索情节概要与情感流动之间的关联、利用深度学习技术进行多标签文本分类等。这些研究不仅推动了自然语言处理技术在电影领域中的应用，也为理解电影叙事结构、观众情感反应提供了新的视角和方法论。

数据集最近研究