MovieSum

Hugging Face2024-08-14 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/rohitsaxena/MovieSum

下载链接

链接失效反馈

官方服务：

资源简介：

MovieSum数据集包含2,200部电影剧本及其对应的维基百科摘要，适用于长篇摘要任务。剧本平均长度约34,000字，以XML格式提供，包含详细的结构元素如场景、舞台指导和角色对话。数据集分为训练集、验证集和测试集，每部分均包含剧本、摘要和IMDB ID，旨在支持电影剧本的抽象摘要研究。

创建时间：

2024-08-11

原始信息汇总

MovieSum: An Abstractive Summarization Dataset for Movie Screenplays

数据集概述

MovieSum 包含 2,200 部电影剧本及其对应的维基百科摘要。这是一个长篇摘要任务，电影剧本的平均长度约为 34,000 字。我们手动格式化了电影剧本，以表示其结构元素。我们还提供了每个电影的 IMDB ID，以便于收集额外的元数据。

数据集统计


总电影剧本数	2,200
平均剧本长度	34,275
平均摘要长度	793

每个电影剧本以 XML 格式提供，具有以下 DOM 结构：

xml <script> <scene> <stage_direction>..</stage_direction> <scene_description>...</scene_description> <character>..</character> <dialogue>..</dialogue> ... </scene> <scene> ... </scene> <script>

数据集结构

数据集分为三个部分：

训练集：1800 部电影剧本、摘要和 IMDB ID。
验证集：200 部电影剧本、摘要和 IMDB ID。
测试集：200 部电影剧本、摘要和 IMDB ID。

许可证

Creative Commons Attribution Non Commercial 4.0

引用

plaintext @inproceedings{saxena-keller-2024-moviesum, title = "MovieSum: An Abstractive Summarization Dataset for Movie Screenplays", author = "Saxena, Rohit and Keller, Frank", booktitle = "Findings of the Association for Computational Linguistics: ACL 2024", month = AUG, year = "2024", address = "Bangkok, Thailand", publisher = "Association for Computational Linguistics",
}

@misc{saxena2024moviesumabstractivesummarizationdataset, title={MovieSum: An Abstractive Summarization Dataset for Movie Screenplays}, author={Rohit Saxena and Frank Keller}, year={2024}, eprint={2408.06281}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2408.06281}, }

搜集汇总

数据集介绍

构建方式

MovieSum数据集的构建基于2200部电影剧本及其对应的维基百科摘要。这些剧本经过人工格式化，以体现其结构元素，如场景、舞台指示、场景描述、角色和对话等。每个剧本以XML格式存储，确保了数据的结构化和可解析性。此外，数据集还提供了每部电影的IMDB ID，便于用户获取更多元数据。

特点

MovieSum数据集的特点在于其长文本摘要任务的挑战性，平均剧本长度约为34,275个字符，而摘要的平均长度为793个字符。数据集涵盖了丰富的电影类型和风格，提供了多样化的文本内容。数据集的结构化XML格式使得剧本的各个部分（如场景、对话等）能够被清晰地解析和处理，为自然语言处理任务提供了高质量的训练和测试数据。

使用方法

MovieSum数据集的使用方法包括将其分为训练集、验证集和测试集，分别包含1800、200和200部电影剧本及其摘要。用户可以通过IMDB ID获取更多元数据，以增强模型的训练效果。该数据集适用于长文本摘要任务，研究人员可以利用其结构化数据开发新的摘要生成算法，或评估现有模型在长文本摘要任务上的性能。

背景与挑战

背景概述

MovieSum数据集由Rohit Saxena和Frank Keller于2024年创建，旨在为电影剧本的抽象摘要任务提供支持。该数据集包含2,200部电影剧本及其对应的维基百科摘要，平均剧本长度约为34,275字。MovieSum的构建不仅为自然语言处理领域的长文本摘要任务提供了新的研究资源，还通过XML格式的剧本结构标注，进一步推动了剧本分析与摘要生成技术的发展。该数据集在2024年ACL会议上首次发布，标志着电影剧本摘要领域的一个重要里程碑。

当前挑战

MovieSum数据集面临的主要挑战包括长文本摘要任务的复杂性。电影剧本通常包含大量对话和场景描述，如何在保持摘要连贯性的同时捕捉关键情节和情感变化，是一个极具挑战性的问题。此外，构建过程中，研究人员需要手动格式化剧本结构，确保每个场景、对话和舞台指示的准确标注，这一过程耗时且容易出错。数据集的长文本特性也对模型的训练和推理提出了更高的计算资源要求，进一步增加了研究的难度。

常用场景

经典使用场景

MovieSum数据集在自然语言处理领域中的经典使用场景是用于长文本摘要生成任务。由于其包含的电影剧本平均长度超过34,000个字符，且每个剧本都配有相应的维基百科摘要，该数据集为研究长文本的抽象摘要生成提供了理想的实验平台。研究人员可以利用该数据集训练和评估模型，探索如何从复杂的叙事结构中提取关键信息并生成简洁的摘要。

解决学术问题

MovieSum数据集解决了长文本摘要生成中的关键学术问题，尤其是如何从结构复杂的文本中提取核心信息并生成连贯的摘要。传统的摘要生成模型在处理长文本时往往面临信息冗余和上下文丢失的挑战，而MovieSum通过提供结构化的剧本数据和对应的摘要，为模型训练提供了高质量的基准。该数据集的出现推动了长文本摘要生成技术的发展，并为相关领域的研究提供了新的方向。

衍生相关工作

MovieSum数据集的发布催生了一系列相关研究工作，特别是在长文本摘要生成领域。基于该数据集，研究人员提出了多种改进的抽象摘要模型，如基于注意力机制的神经网络模型和结合剧本结构信息的层次化模型。此外，该数据集还被用于多模态研究，结合电影剧本和视觉信息生成更丰富的摘要内容。这些工作不仅推动了自然语言处理技术的发展，也为电影剧本分析提供了新的视角。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集