NarraStream-Bench

github2026-05-16 更新2026-05-18 收录

下载链接：

https://github.com/Eddie0521/NarraStream-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

我们介绍了NarraStream-Bench，这是一个用于叙事流视频生成的基准测试数据集，包含324个跨六个维度的多提示脚本，以及一个三维评估协议，该协议集成了传统指标和基于多模态大语言模型的评估。

We introduce NarraStream-Bench, a benchmark dataset for narrative stream video generation, which contains 324 multi-prompt scripts spanning six dimensions, as well as a three-dimensional evaluation protocol that integrates both traditional metrics and evaluations based on multimodal large language models.

创建时间：

2026-05-12

原始信息汇总

NarraStream-Bench 数据集概述

基本信息

NarraStream-Bench 是一个用于**叙事流式视频生成（Narrative Streaming Video Generation）**的基准测试数据集，由浙江大学、腾讯优图实验室、华中科技大学和上海交通大学的研究团队共同提出。

数据集规模与构成

多提示脚本数量：包含 324 个多提示脚本
覆盖维度：跨越 六个维度
提示类型：多提示（Multi-prompt），即每个样本由多个分段提示组成

核心特色

三维评估协议：整合了传统指标与基于多模态大语言模型的评估方法
对比其他基准：相比 VBench-Long、LV-Bench、NarrLV 等同类长视频生成基准，NarraStream-Bench 在视频质量（VQ）、时序一致性（TC）、身份一致性（IC）三个方面均提供评估，且采用叙事感知（Narrative-Aware）的聚合策略

基准对比表

基准	视频质量	时序一致性	身份一致性	提示类型	聚合策略	年份
VBench-Long	✓	×	×	单提示	慢-快平均	2024
LV-Bench	✓	✓	×	单提示	VDE	2025
NarrLV	×	✓	✓	单提示	TNA-based QA	2025
NarraStream-Bench	✓	✓	✓	多提示	叙事感知	2026

使用方法

评估所需依赖

需安装 PyTorch 及 requirements.txt 中的依赖
需下载评估骨干网络权重（包括 CLIP、DINO、RAFT、AMT、VTSS、LanguageBind 视频权重）

数据准备

评估数据需按如下结构组织：

your_dataset/ ├── prompt.jsonl └── video/ ├── sample_0.mp4 ├── sample_1.mp4 └── ...

prompt.jsonl 文件中每行包含一个样本的多段提示（JSON 格式）
视频数量必须与提示样本数量匹配

运行评估

需设置 API 密钥（默认使用硅基流动 API），然后运行评估脚本。

输出结果

评估结果保存在 runs/<run-name>/ 目录下，包含：

processed/eval_data.json：预处理后的分段元数据
results/results_latest.json：最新的可恢复快照
results/results_YYYYMMDD_HHMMSS.json：最终带时间戳的结果文件

相关资源

项目主页：https://eddie0521.github.io/projects/iamflow/
Hugging Face 模型：https://huggingface.co/Eddie0521/IAMFlow-FP8

搜集汇总

数据集介绍

构建方式

NarraStream-Bench由浙江大学、腾讯优图实验室、华中科技大学及上海交通大学联合构建，旨在填补叙事性长视频生成领域标准评测基准的空白。该数据集包含324个多提示脚本，覆盖六个维度的叙事场景，每个脚本由一系列按时间顺序排列的片段提示构成，模拟真实世界中的连续叙事逻辑。视频生成后，通过预设的评估流程，对每个片段进行分割和针对性评估，从而实现对多提示、长时段视频生成质量的全面考察。

特点

NarraStream-Bench的核心特色在于其多维度的评测体系与叙事感知的聚合策略。与传统基准依赖单一提示不同，该数据集采用多提示脚本驱动，兼顾视频质量、时序连贯性和身份一致性三个关键维度。评测协议融合了传统指标（如CLIP、DINO）与多模态大语言模型评估，能够更细腻地捕捉长视频中情节演进和角色身份保持的微妙变化，为叙事性视频生成提供了更贴近实际应用的量化标准。

使用方法

使用NarraStream-Bench进行评估前，需先配置API密钥以调用多模态大模型指标，并下载CLIP、DINO、RAFT等评测骨干网络的预训练权重。用户需将生成的视频和对应的多提示脚本按指定目录结构存放，每个视频对应一个包含多个片段提示的JSONL文件。通过运行一条脚本命令即可启动评估流程，结果会以JSON格式保存，包含逐指标的最新快照和最终带时间戳的报告，便于研究者进行深入分析和比较。

背景与挑战

背景概述

NarraStream-Bench是由浙江大学、腾讯优图实验室、华中科技大学及上海交通大学等机构的研究人员于2026年提出的基准测试，旨在推动叙事性长视频生成领域的发展。该数据集的核心研究问题在于，现有长视频生成基准多基于单一提示词，难以评估模型在多场景、多身份一致性下的连贯叙事能力。NarraStream-Bench通过构建包含324个多提示脚本的六维体系，并引入三维评估协议，整合传统指标与多模态大语言模型评估，为长视频生成领域提供了更为全面、细致的标准化测评工具，显著提升了该领域研究的可复现性与可比性。

当前挑战

NarraStream-Bench所面临的挑战主要源自叙事性长视频生成的复杂性与评估的多元性。在领域问题层面，现有生成模型在处理多身份、多场景的长序列视频时，常面临身份漂移、语义断裂与时间不连贯等难题，而现有基准难以捕捉这些细粒度缺陷。在构建过程中，研究团队需克服多提示脚本的语义一致性设计、视频片段间过渡的自然性标定，以及多模态大语言模型评估指标与人类感知对齐的难题，同时需平衡传统视频质量指标（如VQ、TC、IC）与叙事连贯性的综合考量，确保评估结果的科学性与全面性。

常用场景

经典使用场景

在叙事性长视频生成领域，NarraStream-Bench被广泛用于评估模型在跨片段身份一致性与多提示流式生成方面的综合能力。该基准涵盖324个多提示脚本，横跨六个维度，研究者通过其三维评估协议——融合传统指标与多模态大语言模型评判——系统性地衡量生成视频在视觉质量、时序连贯性与身份保持维度的表现，成为验证长视频生成算法有效性的标准测试平台。

解决学术问题

NarraStream-Bench解决了长视频生成领域缺乏统一、多维度评估基准的学术困境。此前基准如VBench-Long或LV-Bench仅关注单提示或有限维度，难以捕捉叙事流中身份漂移与语义断裂问题。该数据集引入叙事感知聚合策略与三维评估体系，使研究者能够客观比较不同方法在多提示衔接、角色一致性及叙事逻辑连贯性上的差异，显著推动了长视频生成评估范式的规范化与科学化。

衍生相关工作

NarraStream-Bench的提出催生了多个衍生研究方向，包括基于叙事感知聚合策略的长视频生成方法、融合身份记忆模块的零样本流式生成框架，以及面向多提示场景的时序连贯性增强技术。相关后续工作亦借鉴了其三维评估协议来设计新的损失函数或衡量标准，进一步拓展了视频生成领域在长期依赖建模与语义一致性约束方面的探索边界。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集