Mashup-Benchmark

github2026-06-29 更新2026-07-01 收录

下载链接：

https://github.com/hit-cxf/Mashup-Benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

Mashup-Benchmark 是一个面向长视频自动剪辑的基准测试，包含10个小时级长视频源、40个视频-提示词任务、11首背景音乐，用于评估短视频混剪、精彩集锦和音乐驱动剪辑系统的生成质量与效率。

创建时间：

2026-06-29

原始信息汇总

数据集概述

Mashup-Benchmark 是一个面向长视频自动剪辑的基准测试（benchmark），用于评估短视频混剪、精彩集锦和音乐驱动剪辑系统的生成质量与效率。

核心规模

长视频源: 10 个，时长均为小时级别。
视频-提示词任务: 40 个，每个长视频对应 4 类任务（事件型、人物型、情绪型、叙事型）。
背景音乐 (BGM): 11 首，来自 Mixkit，根据任务情绪和风格分配。
默认参数:
- 目标成片时长: 60 秒。
- 目标镜头 (shot) 时长: 4 秒。

数据集组成

1. 视频源（10 个）

类别	数量	示例内容	时长范围	主要分辨率
体育赛事	3	美加墨世界杯小组赛	01:38:53 - 02:09:00	1920x1080
纪录片	3	《地球脉动》第一季前三集	47:52 - 49:11	1920x1080
电影	4	《教父1》、《千与千寻》、《爱乐之城》、《星际穿越》	02:04:32 - 02:57:09	1920x1080 及类似分辨率

2. 背景音乐（11 首）

音频文件来源于 Mixkit，每首音频均包含风格标签，如 sports, rock, aggressive、nature, poetic, world、romantic, warm, emotional 等，以适配不同类型的剪辑任务。

3. 任务定义

所有任务定义存储在 data/tasks/mashup_benchmark.jsonl 文件中。共 40 个标准任务，ID 格式为 task_001 至 task_040。每个任务为一个三元组：{视频源, 文本提示词, 背景音乐}，用于驱动剪辑系统生成成片。

目录结构

text Mashup-Benchmark/ data/ # 核心数据：任务定义、视频源、音频文件 manifests/ # 视频、音频、任务和统计的摘要索引 schemas/ # JSON Schema 定义 (task/run/evaluation) scripts/ # 校验和工具脚本 runs/ # 待测系统的标准化输出 eval/ # 评测代码 docs/ # 规范、协议和说明

评测维度

质量总分由 7 个指标加权计算得出，分为三类：

1. 本地自动指标

BCS (Beat-Cut Synchronization): 节拍与切点同步性，权重 0.20。
AEC (Audio-Visual Energy Correspondence): 音画能量对应性，权重 0.20。

2. VLM-as-judge 指标

IF (Instruction Following): 指令遵循程度，权重 0.10。
VQ (Visual Quality): 视觉质量，权重 0.10。
TC (Transition Continuity): 片段和转场连续性，权重 0.10。
NC (Narrative Coherence): 叙事连贯性，权重 0.10。

3. 人类评估指标

OQ (Overall Quality): 人类整体质量评分，可选，权重 0.20。
若无 OQ，则自动归一化其余 6 个指标的权重。

效率独立报告，包括 API 成本和端到端耗时。

Baseline 系统

该基准测试计划对比以下三个长视频剪辑基线系统，所有系统输出需遵循标准化的 runs/<run_id>/ 目录格式。

系统名称	描述	当前状态
CutClaw	基于音乐同步的智能体剪辑系统	已集成 benchmark adapter。
DIRECT-Claw	基于分层多智能体规划的视频混剪系统	待接入。
VideoAgent	视频理解与编辑的统一框架	待接入。

许可证

代码: Apache License 2.0。
元数据、任务定义、文档等: CC BY-NC 4.0。
视频/音频素材: 本仓库不重新分发，用户需自行从合法来源获取并遵守原始版权。

搜集汇总

数据集介绍

构建方式

在长视频自动剪辑这一前沿领域，为系统评估短视频混剪、精彩集锦与音乐驱动剪辑算法的质量与效率，Mashup-Benchmark 应运而生。该数据集的构建精心整合了10部时长超过数小时的长视频源，跨越体育赛事、纪录片与电影三大类型，并针对每部视频设计了事件型、人物型、情绪型与叙事型四类剪辑任务，共计40个标准化任务。同时，为每项任务分配了源自Mixkit的11首背景音乐，依据情绪与风格匹配，默认目标成片长度为60秒，镜头时长为4秒，从而构建出结构严谨、场景多样的评测体系。

特点

Mashup-Benchmark 的核心特色在于其多维度、多层次的评估框架。数据集不仅提供了涵盖不同题材与时长的高保真长视频，更通过精细划分的任务类型，全面检验系统在指令遵循、节拍同步、音画能量对应、视觉质量、转场连续性、叙事连贯性等方面的表现。七个加权指标共同构成综合质量评分，并辅以效率维度衡量API成本与端到端耗时，实现了从生成效果到计算资源的立体化考量。此外，支持人类整体质量评分作为可选指标，确保了评估的深度与灵活性。

使用方法

使用 Mashup-Benchmark 进行评测时，研究者需将待测系统的输出按照指定目录结构组织，生成包含全局元数据、任务输出汇总及每个任务最终成片与元数据的 run 文件夹。系统环境依赖 uv 管理，需确保 ffmpeg 与 ffprobe 可用。通过运行校验脚本与评测命令，即可依据预设的加权指标自动计算质量分数。目前，基准已集成 CutClaw 等主流方法的适配器，支持批量任务执行与参数灵活配置，极大便利了长视频剪辑算法的可复现比较与系统化评估。

背景与挑战

背景概述

长视频自动剪辑领域长期受限于缺乏统一、可量化的评测基准，已有研究多聚焦于短视频或特定场景，难以评估系统在复杂叙事与多模态对齐上的综合表现。Mashup-Benchmark由哈尔滨工业大学等机构的研究人员于2025年创建，旨在填补这一空白。该基准精心构建了10部时长超过1小时的长视频源，涵盖体育赛事、纪录片与电影三大类型，并设计了40个覆盖事件型、人物型、情绪型及叙事型的视频-提示词任务，搭配11首风格各异的背景音乐。通过引入指令遵循、节拍-切点同步、音画能量对应等七维评测指标，Mashup-Benchmark首次为长视频混剪与音乐驱动剪辑系统提供了标准化的评估框架，显著推动了该领域从定性分析向定量比较的范式转变。

当前挑战

Mashup-Benchmark所解决的领域核心挑战在于，长视频自动剪辑需同时理解原始素材的语义层次、叙事逻辑与情感脉络，并在有限的成片时长内精准响应多样化提示词，这对视觉语言模型的长期依赖建模与跨模态对齐能力提出了极高要求。具体而言，系统需从长达数小时的视频中提取关键事件、保持剪辑的叙事连贯性，并实现音频节拍与视觉切换的毫秒级同步。在构建过程中，研究团队面临多重困难：确保10部高分辨率长视频的版权合规与来源合法性；为每部长视频手工设计4类不同性质的剪辑任务，并验证其区分度与难度均衡；从海量音轨中筛选出与任务情绪、风格匹配且时长合适的背景音乐；以及制定包含本地自动指标、VLM评估与人工评分的复合评测协议，以消除单指标偏差。

常用场景

经典使用场景

在视频智能编辑与自动剪辑领域，Mashup-Benchmark 作为一个面向长视频自动混剪的标准化评估基准，其经典用法在于为研究者提供一个多类型、多任务、多模态统一的评测平台。该数据集囊括了体育赛事、纪录片、电影等十部小时级长视频源，并精心设计了事件型、人物型、情绪型及叙事型四类剪辑任务，辅以风格各异的背景音乐，能够全面检验自动化剪辑系统在节拍同步、音画匹配、叙事连贯性及指令遵循等维度的表现。研究者通过在该基准上运行其剪辑算法，可系统性地获得包括BCS、AEC、IF、VQ、TC、NC及OQ在内的七维度质量评分，从而客观评估方法的优劣与进步。

解决学术问题

Mashup-Benchmark 的提出解决了长视频自动剪辑领域长期缺乏大规模、标准化、多维度评测基准的学术困境。此前，该方向的研究工作常因数据来源不一、任务定义模糊、评价指标主观而难以进行公平对比与复现。该基准通过定义统一的任务格式、输出规范与一套涵盖自动计算与视觉语言模型判定的客观指标，为领域内研究提供了可重复比较的准确评估环境。尤其值得强调的是，其引入的节拍-切点同步（BCS）与音画能量对应（AEC）等新颖指标，深刻回应了音乐驱动剪辑中节奏感与视听和谐这一核心学术问题，推动了视频编辑从手工规则驱动的粗糙方法向数据驱动、多模态协同的智能系统演进。

衍生相关工作

围绕 Mashup-Benchmark，已衍生出若干具有代表性的前沿工作。其中，CutClaw 作为首个在该基准上完成全面评估的 agent 型剪辑系统，通过音乐节拍分析与多模态语义理解实现了小时级视频的高效同步编辑，其代码与适配器均已开源，为后续研究提供了可复现的基线。另一重要工作 DIRECT-Claw 提出基于层级化多智能体规划与意图引导的编辑框架，旨在进一步提升剪辑结果的叙事逻辑与艺术表现力，目前正积极接入该基准。VideoAgent 则致力于打造视频理解与编辑的统一框架，其研究同样依托该基准进行系统评测。这些工作共同验证了 Mashup-Benchmark 作为学术比较平台的核心价值，也加速了长视频自动剪辑方法从单一指标优化向多维质量协同提升的范式转变。

以上内容由遇见数据集搜集并总结生成