DramaBench

github2025-12-23 更新2025-12-24 收录

下载链接：

https://github.com/IIIIQIIII/DramaBench

下载链接

链接失效反馈

官方服务：

资源简介：

DramaBench是一个用于评估大型语言模型在戏剧剧本续写能力的综合基准。它包含1,103个带有人类注释的戏剧剧本，提供了六个独立的评估维度，包括格式标准、叙事效率、角色一致性、情感深度、逻辑一致性和冲突处理。

DramaBench is a comprehensive benchmark for evaluating the script continuation capabilities of large language models (LLMs). It contains 1,103 human-annotated dramatic scripts, and provides six independent evaluation dimensions including format compliance, narrative efficiency, character consistency, emotional depth, logical consistency and conflict handling.

创建时间：

2025-12-20

原始信息汇总

DramaBench 数据集概述

数据集基本信息

数据集名称：DramaBench
核心目标：评估大型语言模型在戏剧剧本续写方面的能力。
许可证：MIT License
状态：活跃 (Active)
论文：https://arxiv.org/abs/2512.19012
数据集主页：https://huggingface.co/datasets/FutureMa/DramaBench

数据集内容与规模

总规模：1,103 个独特的戏剧剧本。
当前发布版本 (v1.0)：包含 100 个高质量剧本上下文-续写对。
发布路线图：
- v1.0 (100个样本)：已于 2025-12-23 发布。
- v2.0 (500个样本)：计划于 2026 年第一季度发布。
- v3.0 (完整版，1,103个样本)：计划于 2026 年第二季度发布。
数据格式：JSONL，包含结构化元数据。
剧本格式：Fountain 剧本格式（行业标准）。

数据字段说明

每个样本包含以下字段：

id：样本标识符。
title：剧本标题。
description：剧本描述。
context：剧本上下文。
continuation：剧本续写内容。
stats：统计数据。

评估框架与维度

数据集采用六维评估框架对模型生成的续写进行评价：

格式标准 (规则驱动)：评估剧本格式合规性。
叙事效率 (LLM标注)：评估故事推进的有效性。
角色一致性 (LLM标注)：评估角色声音和行为的一致性。
情感深度 (LLM标注)：评估情感弧线的发展。
逻辑一致性 (LLM标注)：评估事实连贯性和连续性。
冲突处理 (LLM标注)：评估冲突发展的质量。

评估规模与统计

总评估次数：8,824 次 (1,103 个剧本 × 8 个模型)。
评估模型数量：8 个最先进的语言模型。
统计显著性测试：进行了 252 次测试，其中 65.9% 的结果具有显著性。
精选案例分析：包含 24 个经过详细分析的案例。

模型排行榜

基于评估，排名前八的模型及其总体得分如下：

GPT-5.2 (OpenAI): 0.960
GLM-4.6 (Zhipu AI): 0.930
Qwen3-Max (Alibaba Cloud): 0.917
Claude Opus 4.5 (Anthropic): 0.888
MiniMax M2 (MiniMax): 0.869
DeepSeek V3.2 (DeepSeek): 0.856
Gemini 3 Pro (Google DeepMind): 0.843
Kimi K2 Thinking (Moonshot AI): 0.815

数据加载方式

可通过 Hugging Face datasets 库加载： python from datasets import load_dataset dataset = load_dataset("FutureMa/DramaBench", split="train")

相关资源

交互式网页演示：https://dramabench.pages.dev/
GitHub 仓库：https://github.com/IIIIQIIII/DramaBench

搜集汇总

数据集介绍

构建方式

在戏剧文本生成领域，DramaBench数据集的构建采用了系统化的方法。该数据集基于1103个独特的戏剧脚本，通过精心设计的流程收集和整理。构建过程首先从高质量的戏剧作品中提取上下文片段，随后邀请专业标注人员根据行业标准的Fountain剧本格式撰写续写内容。数据集采用分阶段发布策略，当前版本包含100个样本，未来将逐步扩展至完整规模。每个样本均包含标题、描述、上下文、续写内容及统计信息，确保了数据的结构化和可扩展性。

使用方法

研究人员可通过Hugging Face平台便捷地访问DramaBench数据集。使用datasets库加载数据后，用户可以获得结构化的JSONL格式样本，每个样本包含完整的戏剧上下文和续写内容。数据集支持对模型生成的续写进行多维度评估，用户可基于提供的评估框架分析不同模型在戏剧续写任务上的表现。此外，配套的Web演示系统允许交互式探索评估结果，包括模型排行榜和案例研究分析。数据集采用MIT许可证，支持学术研究和商业应用，为戏剧文本生成领域的模型评估提供了标准化工具。

背景与挑战

背景概述

在人工智能与创意写作交叉领域，戏剧脚本自动续写作为一项复杂的自然语言生成任务，对大型语言模型的叙事构建能力提出了极高要求。DramaBench数据集于2025年由Shijian Ma、Yunqi Huang和Yan Lin等研究人员创建，旨在系统评估模型在戏剧脚本延续任务上的综合表现。该数据集围绕剧本创作的核心研究问题，即如何确保续写内容在格式规范、叙事效率、角色一致性、情感深度、逻辑连贯与冲突处理六个维度上保持专业水准。通过提供1,103个高质量剧本片段及其人工标注，DramaBench为衡量模型在结构化创意文本生成领域的进展设立了严谨基准，推动了相关技术在影视编剧、互动叙事等应用场景中的发展。

当前挑战

DramaBench所针对的戏剧脚本延续任务，其核心挑战在于模型需同时驾驭艺术创意与结构约束。具体而言，模型必须严格遵循Fountain剧本格式规范，避免出现对话与动作描述混淆等低级错误；在叙事层面，需维持高效的情节推进节奏，确保每一幕戏都承载必要的戏剧张力。构建数据集过程中，挑战主要来自高质量剧本数据的稀缺性与标注复杂性。收集涵盖多样戏剧风格与主题的原始脚本已非易事，而对其进行多维度人工评估更需领域专家深度参与，确保在角色一致性、情感弧光、逻辑自洽等主观维度上获得可靠标注，这直接影响了数据集构建的规模与迭代速度。

常用场景

经典使用场景

在自然语言生成与创意写作交叉领域，DramaBench数据集为评估大型语言模型在戏剧剧本延续任务上的表现提供了标准化测试平台。其经典使用场景聚焦于模型生成能力的多维量化分析，研究者利用该数据集包含的1103个剧本上下文与延续对，结合六维评估框架，系统性地衡量模型在格式规范、叙事效率、角色一致性、情感深度、逻辑连贯性与冲突处理等方面的综合性能。通过对比八种前沿语言模型的生成结果，该场景不仅揭示了模型在结构化叙事创作中的优势与局限，也为自动化剧本辅助创作技术的迭代提供了关键基准。

解决学术问题

DramaBench数据集有效解决了创意文本生成领域长期存在的评估维度单一与主观性强等学术难题。传统方法往往依赖人工评分或笼统的流畅度指标，难以精确捕捉叙事作品在艺术性与结构性上的微妙差异。该数据集通过引入规则分析与大语言模型标注相结合的混合评估体系，将剧本质量分解为六个独立且低相关的维度，并提供了包括格式错误率、有效叙事率、角色脱轨率等在内的量化指标。这种细粒度、可复现的评估框架，显著提升了生成文本在叙事连贯性、角色塑造与情感表达等方面评价的客观性与科学性，推动了计算创意学领域评估方法论的发展。

实际应用

在实际应用层面，DramaBench数据集为影视、游戏及互动媒体行业的剧本创作与内容生产提供了智能化工具的开发基础。基于该数据集的评估结果，技术团队能够筛选和优化最适合剧本生成任务的语言模型，集成到专业的编剧辅助软件中。此类工具可协助编剧快速生成情节草稿、保持角色对话风格一致、或为陷入创作瓶颈的段落提供多种延续方案，从而提升创作效率与叙事多样性。此外，该数据集对冲突处理与情感深度的关注，使其同样适用于互动叙事和角色扮演游戏的动态剧情生成，为个性化、沉浸式的内容体验提供了技术支撑。

数据集最近研究