five

MovieSum|电影剧本分析数据集|文本摘要数据集

收藏
arXiv2024-08-13 更新2024-08-14 收录
电影剧本分析
文本摘要
下载链接:
https://github.com/saxenarohit/MovieSum
下载链接
链接失效反馈
资源简介:
MovieSum是由爱丁堡大学信息学院语言、认知与计算研究所创建的电影剧本摘要数据集,包含2200部电影剧本及其对应的维基百科剧情摘要。数据集通过专业剧本写作工具手动格式化,确保了剧本元素的准确性。该数据集旨在推动电影剧本理解与抽象摘要的研究,特别适用于处理长篇输入内容和电影特有的多种元素。
提供机构:
爱丁堡大学信息学院语言、认知与计算研究所
创建时间:
2024-08-13
AI搜集汇总
数据集介绍
main_image_url
构建方式
MovieSum数据集的构建过程始于从多个电影剧本网站收集电影剧本,共计5639份。这些剧本包含了电影名称、IMDB标识符和发布年份的元数据。为确保数据质量,研究人员手动移除了重复和内容不完整的剧本。随后,使用专业剧本写作工具Celtx对筛选后的剧本进行格式化,以保留剧本的结构元素,如场景标题、角色名称、对话和场景描述。此外,研究人员还从维基百科收集了高质量的电影剧情摘要,最终形成了包含2200对电影剧本和维基百科摘要的数据集。
使用方法
MovieSum数据集主要用于电影剧本的抽象摘要生成研究。研究人员可以使用该数据集训练和评估抽象摘要模型,特别是针对长文本输入的模型。数据集的结构化格式和高质量的维基百科摘要为模型提供了理想的训练和测试环境。此外,数据集的IMDb ID可以用于关联外部知识库,增强模型的知识理解和摘要生成能力。通过分析模型在MovieSum上的表现,研究人员可以深入理解长文本摘要的挑战和解决方案。
背景与挑战
背景概述
电影剧本摘要生成是一个具有挑战性的任务,因为它要求对长篇输入内容和电影特有的多种元素有深入的理解。近年来,大型语言模型在文档摘要方面取得了显著进展,但它们在处理长篇输入时仍面临困难。尽管电视脚本在研究中得到了关注,但电影剧本摘要生成领域仍未得到充分探索。为了推动这一领域的研究,Rohit Saxena和Frank Keller领导的团队在爱丁堡大学信息学院创建了MovieSum数据集。该数据集包含2200部电影剧本及其对应的维基百科剧情摘要,旨在为电影剧本的抽象摘要提供一个基准。MovieSum数据集的独特之处在于其包含的电影剧本长度远超电视剧集,且规模是先前电影剧本数据集的两倍,同时还提供了IMDb ID以方便获取额外的外部知识。
当前挑战
MovieSum数据集面临的挑战主要集中在两个方面。首先,电影剧本的摘要生成需要处理长篇输入,这对现有的大型语言模型构成了技术挑战,因为这些模型在处理分布在长文档中的相关信息时表现不佳。其次,电影剧本的结构复杂,包含场景标题、角色名称、对话和详细场景描述等多种元素,这些元素在文本提取过程中容易丢失,导致难以使用正则表达式进行元素检索。此外,尽管MovieSum数据集包含了丰富的电影剧本和高质量的维基百科摘要,但其仅限于英文内容,这限制了模型在多语言摘要任务或需要跨语言理解的应用中的泛化能力。
常用场景
经典使用场景
MovieSum数据集的经典使用场景主要集中在电影剧本的抽象摘要生成。通过提供2200部电影剧本及其对应的维基百科剧情摘要,该数据集为研究人员提供了一个丰富的资源,用于训练和评估抽象摘要模型。这些模型需要理解长篇输入内容中的复杂结构和多种电影特有的元素,如场景标题、角色对话和详细场景描述,从而生成准确且连贯的摘要。
解决学术问题
MovieSum数据集解决了当前大型语言模型在处理长篇输入内容时遇到的挑战,特别是在相关信息分散在整个文档中的情况下。通过提供结构化的电影剧本和高质量的人工摘要,该数据集促进了电影剧本理解与摘要生成领域的研究。这不仅有助于提升模型的摘要能力,还为电影剧本分析和内容理解提供了新的研究方向。
实际应用
MovieSum数据集在实际应用中具有广泛潜力,特别是在电影产业和内容创作领域。例如,电影制片人可以使用生成的摘要来快速评估剧本的核心内容,从而提高决策效率。此外,该数据集还可以用于开发智能剧本分析工具,帮助编剧和导演更好地理解和优化剧本结构。在教育领域,MovieSum也可以用于教学和研究,帮助学生和研究人员深入理解电影叙事结构。
数据集最近研究
最新研究方向
近年来,电影剧本摘要生成领域取得了显著进展,特别是在处理长文本和复杂结构方面。MovieSum数据集的引入为这一领域的研究提供了新的契机。该数据集不仅包含了2200部电影剧本及其对应的维基百科剧情摘要,还通过专业工具进行了格式化处理,确保了数据的高质量。研究者们利用MovieSum数据集,探索了大型语言模型在长文本摘要生成中的表现,发现现有模型在处理长篇电影剧本时仍面临挑战。这促使研究者们进一步优化模型结构和算法,以提高摘要生成的准确性和连贯性。此外,MovieSum数据集的多样性和广泛性也为跨文化、跨语言的摘要生成研究提供了宝贵的资源,推动了电影剧本摘要生成技术在全球范围内的应用和发展。
相关研究论文
  • 1
    MovieSum: An Abstractive Summarization Dataset for Movie Screenplays爱丁堡大学信息学院语言、认知与计算研究所 · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Yahoo Finance

Dataset About finance related to stock market

kaggle 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

WideIRSTD Dataset

WideIRSTD数据集包含七个公开数据集:SIRST-V2、IRSTD-1K、IRDST、NUDT-SIRST、NUDT-SIRST-Sea、NUDT-MIRSDT、Anti-UAV,以及由国防科技大学团队开发的数据集,包括模拟陆基和太空基数据,以及真实手动标注的太空基数据。数据集包含具有各种目标形状(如点目标、斑点目标、扩展目标)、波长(如近红外、短波红外和热红外)、图像分辨率(如256、512、1024、3200等)的图像,以及不同的成像系统(如陆基、空基和太空基成像系统)。

github 收录

AgiBot World

为了进一步推动通用具身智能领域研究进展,让高质量机器人数据触手可及,作为上海模塑申城语料普惠计划中的一份子,智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目,旨在构建国际领先的开源技术底座,标志着具身智能领域 「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集,AgiBot World 的长程数据规模高出 10 倍,场景范围覆盖面扩大 100 倍,数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。

github 收录

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录