MovieSum|电影剧本摘要数据集|自然语言处理数据集

huggingface2024-08-14 更新2024-12-12 收录

电影剧本摘要

自然语言处理

下载链接：

https://huggingface.co/datasets/rohitsaxena/MovieSum

下载链接

链接失效反馈

资源简介：

MovieSum数据集包含2,200部电影剧本及其对应的维基百科摘要，适用于长篇摘要任务。剧本平均长度约34,000字，以XML格式提供，包含详细的结构元素如场景、舞台指导和角色对话。数据集分为训练集、验证集和测试集，每部分均包含剧本、摘要和IMDB ID，旨在支持电影剧本的抽象摘要研究。

创建时间：

2024-08-11

原始信息汇总

MovieSum: An Abstractive Summarization Dataset for Movie Screenplays

数据集概述

MovieSum 包含 2,200 部电影剧本及其对应的维基百科摘要。这是一个长篇摘要任务，电影剧本的平均长度约为 34,000 字。我们手动格式化了电影剧本，以表示其结构元素。我们还提供了每个电影的 IMDB ID，以便于收集额外的元数据。

数据集统计


总电影剧本数	2,200
平均剧本长度	34,275
平均摘要长度	793

每个电影剧本以 XML 格式提供，具有以下 DOM 结构：

xml <script> <scene> <stage_direction>..</stage_direction> <scene_description>...</scene_description> <character>..</character> <dialogue>..</dialogue> ... </scene> <scene> ... </scene> <script>

数据集结构

数据集分为三个部分：

训练集：1800 部电影剧本、摘要和 IMDB ID。
验证集：200 部电影剧本、摘要和 IMDB ID。
测试集：200 部电影剧本、摘要和 IMDB ID。

许可证

Creative Commons Attribution Non Commercial 4.0

引用

plaintext @inproceedings{saxena-keller-2024-moviesum, title = "MovieSum: An Abstractive Summarization Dataset for Movie Screenplays", author = "Saxena, Rohit and Keller, Frank", booktitle = "Findings of the Association for Computational Linguistics: ACL 2024", month = AUG, year = "2024", address = "Bangkok, Thailand", publisher = "Association for Computational Linguistics",
}

@misc{saxena2024moviesumabstractivesummarizationdataset, title={MovieSum: An Abstractive Summarization Dataset for Movie Screenplays}, author={Rohit Saxena and Frank Keller}, year={2024}, eprint={2408.06281}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2408.06281}, }

AI搜集汇总

数据集介绍

构建方式

MovieSum数据集的构建基于2200部电影剧本及其对应的维基百科摘要。这些剧本经过人工格式化，以体现其结构元素，如场景、舞台指示、场景描述、角色和对话等。每个剧本以XML格式存储，确保了数据的结构化和可解析性。此外，数据集还提供了每部电影的IMDB ID，便于用户获取更多元数据。

特点

MovieSum数据集的特点在于其长文本摘要任务的挑战性，平均剧本长度约为34,275个字符，而摘要的平均长度为793个字符。数据集涵盖了丰富的电影类型和风格，提供了多样化的文本内容。数据集的结构化XML格式使得剧本的各个部分（如场景、对话等）能够被清晰地解析和处理，为自然语言处理任务提供了高质量的训练和测试数据。

使用方法

MovieSum数据集的使用方法包括将其分为训练集、验证集和测试集，分别包含1800、200和200部电影剧本及其摘要。用户可以通过IMDB ID获取更多元数据，以增强模型的训练效果。该数据集适用于长文本摘要任务，研究人员可以利用其结构化数据开发新的摘要生成算法，或评估现有模型在长文本摘要任务上的性能。

背景与挑战

背景概述

MovieSum数据集由Rohit Saxena和Frank Keller于2024年创建，旨在为电影剧本的抽象摘要任务提供支持。该数据集包含2,200部电影剧本及其对应的维基百科摘要，平均剧本长度约为34,275字。MovieSum的构建不仅为自然语言处理领域的长文本摘要任务提供了新的研究资源，还通过XML格式的剧本结构标注，进一步推动了剧本分析与摘要生成技术的发展。该数据集在2024年ACL会议上首次发布，标志着电影剧本摘要领域的一个重要里程碑。

当前挑战

MovieSum数据集面临的主要挑战包括长文本摘要任务的复杂性。电影剧本通常包含大量对话和场景描述，如何在保持摘要连贯性的同时捕捉关键情节和情感变化，是一个极具挑战性的问题。此外，构建过程中，研究人员需要手动格式化剧本结构，确保每个场景、对话和舞台指示的准确标注，这一过程耗时且容易出错。数据集的长文本特性也对模型的训练和推理提出了更高的计算资源要求，进一步增加了研究的难度。

常用场景

经典使用场景

MovieSum数据集在自然语言处理领域中的经典使用场景是用于长文本摘要生成任务。由于其包含的电影剧本平均长度超过34,000个字符，且每个剧本都配有相应的维基百科摘要，该数据集为研究长文本的抽象摘要生成提供了理想的实验平台。研究人员可以利用该数据集训练和评估模型，探索如何从复杂的叙事结构中提取关键信息并生成简洁的摘要。

解决学术问题

MovieSum数据集解决了长文本摘要生成中的关键学术问题，尤其是如何从结构复杂的文本中提取核心信息并生成连贯的摘要。传统的摘要生成模型在处理长文本时往往面临信息冗余和上下文丢失的挑战，而MovieSum通过提供结构化的剧本数据和对应的摘要，为模型训练提供了高质量的基准。该数据集的出现推动了长文本摘要生成技术的发展，并为相关领域的研究提供了新的方向。

衍生相关工作

MovieSum数据集的发布催生了一系列相关研究工作，特别是在长文本摘要生成领域。基于该数据集，研究人员提出了多种改进的抽象摘要模型，如基于注意力机制的神经网络模型和结合剧本结构信息的层次化模型。此外，该数据集还被用于多模态研究，结合电影剧本和视觉信息生成更丰富的摘要内容。这些工作不仅推动了自然语言处理技术的发展，也为电影剧本分析提供了新的视角。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源，是提供人类基本需求和基本社会保障的先决条件；也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础，兼具学术、经济、社会等多种价值。本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分（含胆固醇）数据，657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心收录

中国1km分辨率逐月降水量数据集（1901-2023）

该数据集为中国逐月降水量数据，空间分辨率为0.0083333°（约1km），时间为1901.1-2023.12。数据格式为NETCDF，即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集，通过Delta空间降尺度方案在中国降尺度生成的。并且，使用496个独立气象观测点数据进行验证，验证结果可信。本数据集包含的地理空间范围是全国主要陆地（包含港澳台地区），不含南海岛礁等区域。为了便于存储，数据均为int16型存于nc文件中，降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理，Matlab发布了读入与存储nc文件的函数，读取函数为ncread，切换到nc文件存储文件夹，语句表达为：ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent])，其中XXX.nc为文件名，为字符串需要’’；var是从XXX.nc中读取的变量名，为字符串需要’’；i、j、t分别为读取数据的起始行、列、时间，leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样，研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令，可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心收录

中国行政区划数据

本项目为中国行政区划数据，包括省级、地级、县级、乡级和村级五级行政区划数据。数据来源于国家统计局，存储格式为sqlite3 db文件，支持直接使用数据库连接工具打开。

github 收录

猫狗图像数据集

该数据集包含猫和狗的图像，每类各12500张。训练集和测试集分别包含10000张和2500张图像，用于模型的训练和评估。

github 收录

Nexdata/chinese_dialect

该数据集包含25,000小时的中文方言语音数据，收集自多个方言区域的本地方言使用者，涵盖闽南语、粤语、四川话、河南话、东北话、上海话、维吾尔语和藏语等。数据格式为16kHz、16bit、未压缩的wav文件，单声道。句子准确率超过95%。数据集支持的任务包括自动语音识别（ASR）和音频说话人识别。

hugging_face 收录