MovieStoryGen

Hugging Face2025-04-27 更新2025-04-28 收录

下载链接：

https://huggingface.co/datasets/FutureMa/MovieStoryGen

下载链接

链接失效反馈

官方服务：

资源简介：

MovieStoryGen是一个高质量的数据集，用于评估和微调大型语言模型在创意故事生成方面的性能。数据集包含结构化的写作提示和详细的、受IMDb前250部电影启发的故事回应。每个条目包括一个创意写作提示和一个相应的精心编造的故事，这些故事将经典电影的本质重新构想在一个新的背景中。

创建时间：

2025-04-25

原始信息汇总

MovieStoryGen: 电影启发的创意写作数据集

数据集描述

名称: MovieStoryGen
用途: 评估和微调大型语言模型在创意故事生成方面的能力
内容: 包含结构化写作提示与详细故事响应的配对，灵感来自IMDb Top 250电影
特点: 每个条目包含创意写作提示和相应精心制作的故事，将经典电影精髓重新构想于新背景中

数据集结构

人类提示: 结构化创意写作提示，捕捉著名电影的精髓
助手响应: 丰富的创意故事，展示语言模型如何构建引人入胜的叙事
元数据: 包括原始电影标题、年份、IMDb评分和时长

使用场景

评估大型语言模型的创意讲故事能力
微调模型以提高叙事连贯性、情节发展和创意写作
跨不同模型的故事生成能力基准测试
创意任务提示工程研究
探索模型如何将电影主题转化为书面叙事

数据集创建

提示精心设计以捕捉IMDb高评分电影的核心主题和情节元素
响应代表高质量创意故事，展示：
- 清晰的叙事弧线
- 复杂的角色发展
- 主题深度
- 情节转折和叙事张力
- 对熟悉故事的创意重构

示例条目

提示:

Write a story about a wrongfully convicted architect who discovers widespread corruption in a state prison while helping the elderly prison librarian digitize old records, leading to both their redemptions.

响应:

"The Echo of Innocence"

Thomas Chen, a brilliant architect, is sentenced to 25 years in Blackwater State Penitentiary for allegedly murdering his business partner. Despite maintaining his innocence, all evidence points to him, including security footage showing him leaving his partners office the night of the murder.

[... full story ...]

元数据:

"title": "The Shawshank Redemption", "year": 1994, "rating": 9.3, "duration": "2h 22m"

引用与致谢

bibtex @misc{moviestorygen2025, author = {Shijian}, title = {MovieStoryGen: Movie-Inspired Creative Writing Dataset}, year = {2025}, howpublished = {Hugging Face Dataset}, url = {https://huggingface.co/datasets/FutureMa/MovieStoryGen} }

加载数据集

python from datasets import load_dataset

dataset = load_dataset("FutureMa/MovieStoryGen")

Access the first example

example = dataset["train"][0] prompt = example["conversations"][0]["content"] story = example["conversations"][1]["content"] metadata = example["metadata"]

print(f"Prompt: {prompt[:100]}...") print(f"Story begins with: {story[:100]}...") print(f"Based on: {metadata[title]} ({metadata[year]})")

基本信息

许可证: MIT
任务类别: 文本生成
语言: 英语
标签: 艺术

搜集汇总

数据集介绍

构建方式

MovieStoryGen数据集的构建过程体现了对电影艺术与创意写作的深度结合。研究团队从IMDb Top 250电影中提取核心主题与情节要素，通过专业编剧的精心设计，将其转化为富有创意的写作提示。每个条目包含精心设计的人类提示、助理响应以及包含原片名、年份等信息的元数据，确保数据集既保留经典电影的艺术精髓，又具备原创叙事价值。响应文本经过严格筛选，确保包含清晰的叙事弧线、复杂角色发展和主题深度等专业写作要素。

特点

该数据集最显著的特点是实现了电影叙事与文本生成的创新融合。其提示设计巧妙捕捉经典电影的核心冲突与人物关系，而生成的响应文本则展现出惊人的叙事完整性和创意延展性。元数据中包含的IMDb评分和时长信息为研究电影艺术与文本生成质量的相关性提供了独特维度。数据集特别强调情节转折和叙事张力的构建，使得它在评估语言模型处理复杂叙事结构能力方面具有不可替代的价值。

使用方法

使用该数据集时，研究者可通过Hugging Face的datasets库直接加载，便捷获取提示-故事对及元数据。典型应用场景包括：通过提示工程探索模型对电影主题的诠释能力，利用元数据研究电影特征与生成质量的关系，以及通过对比不同模型生成的叙事结构来评估创意写作性能。加载后的数据可直接用于微调语言模型，特别适合提升模型在叙事连贯性、情节发展和主题表达等方面的表现。数据集的结构化设计也支持对生成文本进行多维度量化分析。

背景与挑战

背景概述

MovieStoryGen数据集由Shijian于2025年发布，旨在为大型语言模型的创造性故事生成能力提供高质量评估与微调资源。该数据集基于IMDb Top 250经典电影，通过结构化写作提示与精心构建的叙事响应，探索人工智能对电影主题的创造性转化能力。作为自然语言生成领域的前沿资源，它不仅为模型叙事连贯性、情节发展等核心指标建立评估基准，更开创了将影视艺术元素系统化融入文本生成任务的研究范式。其独特价值在于通过电影叙事模板，为生成文本的戏剧张力、角色弧光等文学性维度提供了可量化的分析框架。

当前挑战

该数据集面临双重挑战：在领域问题层面，如何精准评估生成文本对电影主题的忠实度与创新性平衡，现有评价指标难以捕捉叙事艺术的微妙维度；在构建过程中，需解决原始电影情节到开放式写作提示的语义转换难题，既要保留核心戏剧冲突，又要避免直接情节复制。同时，人工撰写的高质量响应故事需要维持文学性标准，这对标注者的专业写作能力提出极高要求。数据集构建者还需处理电影版权衍生内容的合规边界，确保创意转化不侵犯原作知识产权。

常用场景

经典使用场景

在自然语言生成领域，MovieStoryGen数据集为评估大语言模型的创造性叙事能力提供了标准化测试平台。研究者通过分析模型对经典电影主题的重新诠释，系统评估其在情节连贯性、角色塑造和主题表达等方面的表现。该数据集独特的结构化提示与丰富叙事响应的配对机制，使其成为衡量模型创意写作水平的黄金基准。

实际应用

在影视剧本创作辅助系统中，MovieStoryGen数据集支撑着智能写作工具的开发。编剧工作者输入核心创意后，系统可基于该数据集微调的模型生成多种叙事方案，显著提升创作效率。教育领域则利用其结构化故事模板训练学生的创意写作能力，而游戏开发商借助其丰富的叙事元素构建动态剧情生成系统。

衍生相关工作

基于MovieStoryGen衍生的经典研究包括《跨模态叙事迁移学习框架》，该工作探索了从视觉叙事到文本生成的转换机制；《动态情节树生成算法》则利用数据集的层次化叙事结构开发了交互式故事系统。此外，《创意文本质量评估指标体系》建立了首个基于该数据集的量化评价标准。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集