PROVE-Bench
收藏github2026-05-14 更新2026-05-15 收录
下载链接:
https://github.com/xiaomi-research/prove
下载链接
链接失效反馈官方服务:
资源简介:
PROVE-Bench是一个用于评估图像和视频中对象去除的两层真实世界基准数据集,包含PROVE-M(80个带有地面真值的运动增强配对视频)和PROVE-H(100个没有地面真值的挑战性视频)。
PROVE-Bench is a two-tier real-world benchmark dataset for evaluating object removal in images and videos, which comprises PROVE-M (80 motion-enhanced paired videos with ground truth) and PROVE-H (100 challenging videos without ground truth).
创建时间:
2026-05-14
原始信息汇总
PROVE 数据集详情
数据集概述
PROVE(Perceptual Removal Coherence Benchmark)是一个面向图像和视频中对象去除任务的统一评估框架,旨在弥合现有评估指标与人类感知之间的差距。该框架包含以下核心组件:
- RC-S(空间去除连贯性):通过DINOv2局部特征上的滑动窗口MMD,评估单帧内涂抹区域与周围背景的融合程度。
- RC-T(时间去除连贯性):通过共享修复区域内的分布追踪,评估跨连续帧中涂抹区域的时间连贯性。
- PROVE-Bench:包含两个层级的真实世界基准数据集——PROVE-M(80个经过运动增强的配对视频,带有真实标注)和PROVE-H(100个无真实标注的挑战性视频)。
基准测试结果
PROVE-M(带有真实标注)
| 方法 | PSNR↑ | SSIM↑ | LPIPS↓ | ReMOVE↑ | CFD↓ | RC-S↑ | RC-T↓ |
|---|---|---|---|---|---|---|---|
| FGT | 21.6511 | 0.8619 | 0.2013 | 0.8622 | 0.3229 | 0.3797 | 0.8031 |
| ProPainter | 22.1846 | 0.8768 | 0.1559 | 0.8676 | 0.2774 | 0.4427 | 0.5951 |
| DiffuEraser | 22.0758 | 0.8706 | 0.1518 | 0.8681 | 0.3308 | 0.4787 | 0.4851 |
| VACE (1.3B) | 20.0826 | 0.8654 | 0.1545 | 0.8117 | 0.3283 | 0.4036 | 0.5217 |
| Minimax-Remover (1.3B) | 21.7476 | 0.8707 | 0.1542 | 0.8710 | 0.3202 | 0.4793 | 0.4485 |
| GenOmni (CogV5B) | 25.0165 | 0.9030 | 0.1223 | 0.8755 | 0.3842 | 0.5029 | 0.3145 |
| GenOmni (Wan1.3B) | 25.1480 | 0.9017 | 0.1109 | 0.8815 | 0.3457 | 0.5188 | 0.3238 |
| ROSE (1.3B) | 26.1333 | 0.9003 | 0.1212 | 0.8803 | 0.3364 | 0.4924 | 0.6538 |
| EffectErase (1.3B) | 27.0049 | 0.9098 | 0.1142 | 0.8841 | 0.3412 | 0.5270 | 0.2728 |
| UnderEraser (14B) | 28.3325 | 0.9156 | 0.0981 | 0.8824 | 0.2986 | 0.5188 | 0.3276 |
| SVOR (1.3B) | 27.4289 | 0.9239 | 0.0839 | 0.8836 | 0.2794 | 0.5236 | 0.2987 |
PROVE-H(无真实标注)
| 方法 | PSNR↑ | SSIM↑ | LPIPS↓ | ReMOVE↑ | CFD↓ | RC-S↑ | RC-T↓ |
|---|---|---|---|---|---|---|---|
| FGT | 29.4448 | 0.8615 | 0.1927 | 0.8474 | 0.3065 | 0.3716 | 0.5866 |
| ProPainter | 33.3531 | 0.9274 | 0.1063 | 0.8383 | 0.2830 | 0.3932 | 0.4453 |
| DiffuEraser | 31.4112 | 0.9178 | 0.1098 | 0.8440 | 0.3165 | 0.4387 | 0.3911 |
| VACE (1.3B) | 26.7266 | 0.8898 | 0.1071 | 0.8047 | 0.3288 | 0.4192 | 0.3438 |
| Minimax-Remover (1.3B) | 29.6021 | 0.8660 | 0.1315 | 0.8545 | 0.3320 | 0.4617 | 0.3277 |
| GenOmni (CogV5B) | 28.7643 | 0.8873 | 0.1183 | 0.8536 | 0.3516 | 0.5006 | 0.2141 |
| GenOmni (Wan1.3B) | 29.3140 | 0.8940 | 0.1027 | 0.8596 | 0.3422 | 0.5127 | 0.2368 |
| ROSE (1.3B) | 27.6261 | 0.8508 | 0.1402 | 0.8538 | 0.3361 | 0.4687 | 0.4373 |
| EffectErase (1.3B) | 24.3793 | 0.8156 | 0.1742 | 0.8532 | 0.3590 | 0.5081 | 0.2363 |
| UnderEraser (14B) | 27.4989 | 0.8485 | 0.1434 | 0.8560 | 0.3165 | 0.5075 | 0.2688 |
| SVOR (1.3B) | 27.5335 | 0.8907 | 0.1046 | 0.8574 | 0.3107 | 0.5166 | 0.2419 |
注意: 由于合规要求,开源数据集与论文中使用的数据略有不同。上述结果基于开源版本,可能与论文存在细微数值差异,但整体趋势保持一致。
数据集构成
- PROVE-M:80个运动增强的配对视频,带有真实标注(Ground Truth)。
- PROVE-H:100个无真实标注的挑战性视频。
预训练模型依赖
评估需要使用**DINOv2-giant**模型。
数据集下载
数据集可从HuggingFace平台下载:https://huggingface.co/datasets/HigherHu/PROVE-Bench
评估指标及含义
- RC-S(空间去除连贯性):数值越高越好,表示涂抹区域与背景的差异更小。
- RC-T(时间去除连贯性):数值越低越好,表示跨帧的时间连贯性更高。
许可协议
Apache 2.0
搜集汇总
数据集介绍

构建方式
在视觉媒体编辑领域,对象移除任务的评估长期受限于全参考指标对复制粘贴行为的偏袒与无参考指标对模糊输出的盲区。PROVE-Bench为此应运而生,通过构建包含真实运动增强配对视频(PROVE-M)与无真实标注挑战性视频(PROVE-H)的双层基准,系统性地填补了现有指标与人类感知之间的鸿沟。数据集采用滑动窗口最大均值差异(MMD)在DINOv2补丁特征上评估空间移除连贯性(RC-S),并通过共享修复区域的分布追踪衡量时间连贯性(RC-T),从而实现了无需真实标注的局部区域精准评估。
使用方法
使用PROVE-Bench需先配置基于Python 3.10+的环境,安装PyTorch、Transformers及OpenCV等依赖库,并从HuggingFace下载数据集。将DINOv2-giant预训练模型路径更新至配置脚本后,通过修改utils/dataset.py中的数据集路径即可完成初始化。评估时通过命令行工具run_prove_metrics.py指定数据集(如PROVE-M)与生成结果目录,可选择计算RC-S与RC-T指标,输出结果以CSV格式呈现,包含每个样本的逐项得分与总平均分,为研究者的算法优化提供明确量化反馈。
背景与挑战
背景概述
PROVE-Bench是一个面向图像与视频对象移除任务感知一致性评估的统一基准,由小米研究院主导创建,相关研究于2026年发表。该数据集的诞生源于当前主流评价指标(如PSNR、SSIM、LPIPS)在视觉移除领域与人类感知之间存在显著偏差的困境,这些全参考指标倾向于奖励简单的背景复制粘贴行为,而无参考指标则容易偏好模糊输出。PROVE-Bench通过构建包含80组具有运动增强配对视频的PROVE-M子集和100组无真实标注挑战性视频的PROVE-H子集,为评估移除算法在空间和时序上的感知一致性提供了全新试验场,填补了该领域评价体系的空白,对推动视频编辑、智能图像修复等任务的发展具有重要影响力。
当前挑战
当前对象移除领域面临的核心挑战在于度量标准与人类感知之间的根本性脱节。一方面,现有全参考指标如PSNR/SSIM/LPIPS要求原始真实标注作为参照,在面对真实场景中无标注视频时完全失效;而无参考指标如ReMOVE和CFD存在对模糊输出的隐蔽偏好,无法准确评估移除区域的视觉自然度。另一方面,时序一致性评估长期被忽视,现有TC/TF度量受未修改背景区域主导,难以捕捉移除区域各帧间的局部时序波动。此外,构建PROVE-Bench过程中面临数据获取与标注难题——需同时保证配对视频中目标物体位置准确变化、背景保持静态,并筛选出包含运动模糊、动态障碍物等高挑战性真实场景,这对数据采集与质量控制提出了严苛要求。
常用场景
经典使用场景
在视觉媒体编辑领域,PROVE-Bench作为专门针对物体移除任务感知一致性的评估基准,其经典使用场景在于对图像与视频中目标移除后的修复质量进行系统化评测。该数据集采用双层结构:PROVE-M包含80组带有运动增强配对标注的真实视频,PROVE-H则收录100段无真实标注的高挑战性视频,二者共同模拟了现实世界中物体移除任务的多样化需求。研究者利用该基准,可对各类图像/视频补全模型在空间协调性与时间连续性两个维度上的表现进行精准量化,从而推动移除后区域与背景无缝融合技术的发展。
解决学术问题
PROVE-Bench直击现有评估指标与人类感知之间的核心鸿沟,系统性地解决了三个关键学术问题:其一,传统全参考指标如PSNR、SSIM易奖励复制粘贴式伪移除行为,而该数据集提出的无参考度量RC-S通过DINOv2特征上的滑动窗口MMD实现局部区域评估,有效避免了这一偏差;其二,现有无参考方法偏好模糊输出,RC-S的设计对模糊偏见具有鲁棒性;其三,针对视频任务,传统时域度量易被未变化背景主导,而RC-T通过局部时域分布匹配实现了对移除区域时序一致性的精准刻画。这些工作为视觉移除领域建立了更贴近人类感知的评估新范式。
实际应用
在实际应用中,PROVE-Bench为视频编辑、影视后期制作、智能安防及增强现实等产业领域提供了关键的评估工具。视频编辑者需要从动态画面中移除多余物体或人物,并确保修复后的场景在视觉上自然无痕,该基准可精准衡量各补全算法在这一任务中的表现水准;在影视制作中,通过对特效移除序列的时序一致性进行量化,助力从业者筛选出最契合创作需求的解决方案;智能安防系统常需消除监控画面中的干扰元素,PROVE-Bench的评估指标确保了处理后视频的信息完整性与视觉可信度。这些应用场景充分体现了该数据集在弥合学术研究与工业落地之间裂隙的桥梁作用。
数据集最近研究
最新研究方向
PROVE-Bench最新研究方向聚焦于构建感知一致的视觉物体移除评价基准,突破传统全参考指标(如PSNR、SSIM、LPIPS)对图像修复区域与背景融合度评估的局限性。研究热点集中在两大前沿:一是借助DINOv2特征滑动窗口MMD实现无需真实参考的空间连贯性测量(RC-S),解决无参考指标对模糊输出的偏好问题;二是通过共享修复区域分布追踪构建时序连贯性评估(RC-T),攻克背景主导指标对目标区域变化不敏感这一核心挑战。该基准涵盖运动增强配对视频(PROVE-M)与无标注困难视频(PROVE-H)双层评测体系,已在对10余种主流图像/视频修复方法的系统测评中揭示出感知指标与人类判断的显著差异,有力推动了视觉编辑质量评估从像素级匹配向感知级对齐的范式演进。
以上内容由遇见数据集搜集并总结生成



