MovieSum

Name: MovieSum
Creator: 爱丁堡大学信息学院语言、认知与计算研究所
Published: 2024-08-13 00:43:09
License: 暂无描述

arXiv2024-08-13 更新2024-08-14 收录

下载链接：

https://github.com/saxenarohit/MovieSum

下载链接

链接失效反馈

官方服务：

资源简介：

MovieSum是由爱丁堡大学信息学院语言、认知与计算研究所创建的电影剧本摘要数据集，包含2200部电影剧本及其对应的维基百科剧情摘要。数据集通过专业剧本写作工具手动格式化，确保了剧本元素的准确性。该数据集旨在推动电影剧本理解与抽象摘要的研究，特别适用于处理长篇输入内容和电影特有的多种元素。

MovieSum is a movie script summarization dataset created by the Institute of Language, Cognition and Computation, School of Informatics, University of Edinburgh. It contains 2,200 movie scripts and their corresponding Wikipedia plot summaries. The dataset is manually formatted using professional screenwriting tools to ensure the accuracy of script elements. This dataset aims to advance research on movie script comprehension and abstractive summarization, and is particularly suitable for processing long-form input content and various elements unique to movies.

提供机构：

爱丁堡大学信息学院语言、认知与计算研究所

创建时间：

2024-08-13

搜集汇总

数据集介绍

构建方式

MovieSum数据集的构建过程始于从多个电影剧本网站收集电影剧本，共计5639份。这些剧本包含了电影名称、IMDB标识符和发布年份的元数据。为确保数据质量，研究人员手动移除了重复和内容不完整的剧本。随后，使用专业剧本写作工具Celtx对筛选后的剧本进行格式化，以保留剧本的结构元素，如场景标题、角色名称、对话和场景描述。此外，研究人员还从维基百科收集了高质量的电影剧情摘要，最终形成了包含2200对电影剧本和维基百科摘要的数据集。

使用方法

MovieSum数据集主要用于电影剧本的抽象摘要生成研究。研究人员可以使用该数据集训练和评估抽象摘要模型，特别是针对长文本输入的模型。数据集的结构化格式和高质量的维基百科摘要为模型提供了理想的训练和测试环境。此外，数据集的IMDb ID可以用于关联外部知识库，增强模型的知识理解和摘要生成能力。通过分析模型在MovieSum上的表现，研究人员可以深入理解长文本摘要的挑战和解决方案。

背景与挑战

背景概述

电影剧本摘要生成是一个具有挑战性的任务，因为它要求对长篇输入内容和电影特有的多种元素有深入的理解。近年来，大型语言模型在文档摘要方面取得了显著进展，但它们在处理长篇输入时仍面临困难。尽管电视脚本在研究中得到了关注，但电影剧本摘要生成领域仍未得到充分探索。为了推动这一领域的研究，Rohit Saxena和Frank Keller领导的团队在爱丁堡大学信息学院创建了MovieSum数据集。该数据集包含2200部电影剧本及其对应的维基百科剧情摘要，旨在为电影剧本的抽象摘要提供一个基准。MovieSum数据集的独特之处在于其包含的电影剧本长度远超电视剧集，且规模是先前电影剧本数据集的两倍，同时还提供了IMDb ID以方便获取额外的外部知识。

当前挑战

MovieSum数据集面临的挑战主要集中在两个方面。首先，电影剧本的摘要生成需要处理长篇输入，这对现有的大型语言模型构成了技术挑战，因为这些模型在处理分布在长文档中的相关信息时表现不佳。其次，电影剧本的结构复杂，包含场景标题、角色名称、对话和详细场景描述等多种元素，这些元素在文本提取过程中容易丢失，导致难以使用正则表达式进行元素检索。此外，尽管MovieSum数据集包含了丰富的电影剧本和高质量的维基百科摘要，但其仅限于英文内容，这限制了模型在多语言摘要任务或需要跨语言理解的应用中的泛化能力。

常用场景

经典使用场景

MovieSum数据集的经典使用场景主要集中在电影剧本的抽象摘要生成。通过提供2200部电影剧本及其对应的维基百科剧情摘要，该数据集为研究人员提供了一个丰富的资源，用于训练和评估抽象摘要模型。这些模型需要理解长篇输入内容中的复杂结构和多种电影特有的元素，如场景标题、角色对话和详细场景描述，从而生成准确且连贯的摘要。

解决学术问题

MovieSum数据集解决了当前大型语言模型在处理长篇输入内容时遇到的挑战，特别是在相关信息分散在整个文档中的情况下。通过提供结构化的电影剧本和高质量的人工摘要，该数据集促进了电影剧本理解与摘要生成领域的研究。这不仅有助于提升模型的摘要能力，还为电影剧本分析和内容理解提供了新的研究方向。

实际应用

MovieSum数据集在实际应用中具有广泛潜力，特别是在电影产业和内容创作领域。例如，电影制片人可以使用生成的摘要来快速评估剧本的核心内容，从而提高决策效率。此外，该数据集还可以用于开发智能剧本分析工具，帮助编剧和导演更好地理解和优化剧本结构。在教育领域，MovieSum也可以用于教学和研究，帮助学生和研究人员深入理解电影叙事结构。

数据集最近研究