TDVE-DB
收藏arXiv2025-05-26 更新2025-05-28 收录
下载链接:
http://arxiv.org/abs/2505.19535v1
下载链接
链接失效反馈官方服务:
资源简介:
TDVE-DB是一个大规模的基准数据集,用于文本驱动视频编辑的质量评估。该数据集由来自12个不同模型生成的3857个编辑视频组成,涵盖了8个编辑类别,并附有173,565个来自人类主观评分的注释,涵盖了三个关键维度:编辑视频质量、编辑对齐和结构一致性。TDVE-DB的创建是为了解决文本驱动视频编辑技术中缺乏专门的视频质量评估模型的问题。数据集的构建过程包括数据收集、视频编辑评价维度的确定、主观视频编辑质量评估和数据分析。TDVE-DB旨在为全面评估现有视频编辑模型提供坚实的基础,并促进视频编辑质量评估领域的研究。
TDVE-DB is a large-scale benchmark dataset for quality assessment of text-driven video editing. It consists of 3,857 edited videos generated by 12 distinct models, covering 8 editing categories, and is accompanied by 173,565 human subjective scoring annotations spanning three core dimensions: edited video quality, editing alignment, and structural consistency. TDVE-DB was developed to address the gap in specialized video quality assessment models for text-driven video editing technologies. The construction of this dataset encompasses data collection, the definition of evaluation dimensions for video editing, subjective assessment of video editing quality, and data analysis. TDVE-DB aims to provide a solid foundation for comprehensive evaluation of existing video editing models and promote research in the field of video editing quality assessment.
提供机构:
上海交通大学图像通信与网络工程研究所
创建时间:
2025-05-26
搜集汇总
数据集介绍

构建方式
TDVE-DB数据集的构建采用了多源视频素材与系统性编辑指令相结合的方法。研究团队从AI生成内容(Jimeng AI平台)和真实场景视频(Kinetics-400、DAVIS数据集)中精选180段基础视频,涵盖人类行为、动物活动等多样化场景。通过深度优化的DeepSeek-R1模型生成340条涵盖8类编辑维度(如色彩调整、物体替换等)的标准化指令,并采用12种前沿开源视频编辑模型(包括Tune-A-Video、TokenFlow等)生成3,857组编辑视频对。为确保评估质量,团队组织15名经过严格校准的评估者,按照ITU-T P.910标准完成173,565项三维度主观评分(视频质量、编辑对齐度、结构一致性),最终通过Z-score标准化处理获得具有统计显著性的MOS分值。
特点
该数据集的核心特征体现在多维度的系统性评估框架与高质量的标注体系。作为当前规模最大的文本驱动视频编辑评估基准,TDVE-DB不仅包含3,857组视频样本,更创新性地建立了三维度质量评估体系:视频质量维度聚焦编辑结果的视觉保真度,编辑对齐度衡量文本指令与视频内容的语义匹配程度,结构一致性则量化源视频与编辑视频的时空连贯性。数据集特别设计了跨模型(12种)和跨类别(8类)的平衡分布,其中AI生成与真实视频的比例为1:1.65,帧率覆盖6-30fps,分辨率包含512×512至源视频原生规格,有效模拟了实际应用场景的复杂性。主观评分通过35题校准测试和10案例专项训练确保评估者间一致性(ICC2k>0.92),其三维度得分的雷达图分布直观揭示了不同编辑技术的性能差异。
使用方法
TDVE-DB支持端到端的视频编辑质量评估研究流程。研究者可通过解析JSON格式的元数据获取视频路径、编辑指令及三维度MOS评分,其中视频对存储为(源视频,编辑视频)的对应关系。基准使用建议包括:1)模型性能评估时,建议采用Spearman/Pearson相关系数对比预测分数与人类评分;2)跨维度分析可利用三维度得分的散点矩阵探究质量特性相关性;3)细粒度研究可按编辑类别(如风格迁移vs多物体交互)分层验证模型鲁棒性。数据集与Qwen2.5-VL等LMM架构兼容,其编辑指令-视频-评分的三元组结构特别适合微调多模态质量评估模型。对于新型评估算法开发,推荐采用4:1的标准划分进行训练验证,并利用隐藏重复样本(占比5%)进行可靠性验证。
背景与挑战
背景概述
TDVE-DB数据集由上海交通大学图像通信与网络工程研究所的研究团队于2025年创建,旨在解决文本驱动视频编辑领域缺乏专业评估基准的难题。作为当前规模最大、类别最丰富的文本驱动视频编辑质量评估数据集,它包含12种先进模型生成的3,857个编辑视频,涵盖8种编辑类别,并标注了173,565条人类主观评分。该数据集通过编辑视频质量、编辑对齐度和结构一致性三个核心维度,为评估视频编辑模型提供了全面标准,显著推动了AIGC时代视频编辑技术的标准化发展。
当前挑战
TDVE-DB主要应对两大挑战:在领域问题层面,传统视频质量评估方法难以捕捉文本指令与编辑结果的多模态对齐关系,且缺乏对结构一致性的量化标准;在构建过程中,需解决跨模型输出标准化(12种模型分辨率/帧率差异)、多维度评分体系设计(平衡主观评分客观性与语义细微差异),以及大规模人类标注质量控制(15名评估者跨3维度173,565次评分的一致性维护)等关键技术难题。
常用场景
经典使用场景
TDVE-DB作为当前规模最大、编辑类别最全面的文本驱动视频编辑质量评估基准数据集,其经典使用场景主要集中在评估和比较不同视频编辑模型的性能表现。该数据集包含3,857个经过12种前沿编辑模型处理的视频,覆盖8种编辑类别(如对象替换、风格迁移等),并标注了173,565条人类主观评分,涵盖视频质量、编辑对齐度和结构一致性三个关键维度。研究人员可利用TDVE-DB对各类编辑模型进行系统化基准测试,揭示现有技术在复杂编辑任务中的优势与不足。
解决学术问题
TDVE-DB有效解决了文本驱动视频编辑领域缺乏标准化评估体系的学术难题。传统视频质量评估方法难以捕捉编辑指令与视频内容的多模态对齐关系,而该数据集通过引入编辑对齐度和结构一致性等创新维度,为量化模型对文本指令的语义理解能力提供了可靠基准。基于此构建的TDVE-Assessor模型在三个评估维度上均显著超越现有VQA方法,为建立跨模型的统一评估范式奠定了数据基础,推动了视频编辑技术从定性分析向定量研究的范式转变。
衍生相关工作
TDVE-DB的发布催生了一系列创新研究:在模型层面,启发VideoLLAMA等多模态大模型引入时空注意力机制以提升编辑一致性;在评估方法上,推动CLIPScore等传统指标发展为考虑编辑意图的VQAScore。数据集支撑的TDVE-Assessor框架更衍生出AIGV-Assessor等跨生成任务的评估工具,其将质量回归任务重构为交互式QA的范式被后续工作广泛借鉴,形成了基于LMM的视频评估技术路线。
以上内容由遇见数据集搜集并总结生成



