ArtifactWorld-Benchmark

github2026-04-30 更新2026-05-02 收录

下载链接：

https://github.com/fyting/ArtifactWorld

下载链接

链接失效反馈

官方服务：

资源简介：

ArtifactWorld-Benchmark是一个标准化的基准数据集，包含1.28K经过筛选的视频对，用于3D高斯飞溅伪影修复的研究。数据集包括地面真实视频（gt.tar）和伪影/退化视频（artifact.tar）。

ArtifactWorld-Benchmark is a standardized benchmark dataset containing 1.28K curated video pairs for research on 3D Gaussian splatting artifact removal. The dataset includes ground-truth videos (gt.tar) and artifact/degraded videos (artifact.tar).

创建时间：

2026-04-12

原始信息汇总

数据集概述：ArtifactWorld

ArtifactWorld 是一个用于 3D 高斯泼溅（3D Gaussian Splatting）伪影修复 的数据集，其核心在于通过视频生成模型实现大规模伪影修复。该数据集的设计围绕系统化数据扩展和同构双模型范式展开，旨在解决稀疏视角 3DGS 中的几何与光度退化问题。

核心方法

共享结构预测器：首先估计一个伪影热力图。
修复阶段：在原生自注意力机制内部，伪影感知三元组融合（AATF） 和解耦边界锚定（DBA） 协同工作，实现强度引导的时空修复和 3D 重建改进。

数据集构成

数据类别	说明
基准测试（已发布）	一个经过精心筛选的 1.28K 子集，详见项目页面和论文。
生成飞轮训练数据（计划发布）	论文中提到的 107.5K 规模的大规模训练数据及其训练代码将在后续版本中发布。

基准测试数据文件

gt.tar：基准测试的地面真实视频。
artifact.tar：基准测试的包含伪影/降质的视频。

模型权重（已发布）

模型权重可在 Hugging Face 上获取，包括两阶段 LoRA 权重和 AATF 辅助潜在向量。

weights.tar：包含 Stage-1 和 Stage-2 的 LoRA 检查点和辅助潜在向量。

权重文件	说明
`stage1_pred_headmap_lora.safetensors`	Stage-1：伪影热力图/噪声图预测（LoRA1）
`stage2_noisemap_blend_lora.safetensors`	Stage-2：在模型中联合实现 AATF 和 DBA 进行修复（LoRA2）
`auxiliary_latents/z_full.pt`	Stage-2：AATF 辅助潜在向量（一个融合分支）
`auxiliary_latents/z_null.pt`	Stage-2：AATF 辅助潜在向量（另一个融合分支）

代码与依赖

该代码库是 ArtifactWorld 的官方代码库，当前提供可运行的两阶段推理代码、基准预处理代码和配置文件。
代码基于 LTX-Video-Trainer 构建。
需要下载 LTX-Video 和 LTX-Video-0.9.7-dev 的基础模型权重以进行推理。
环境变量（如 ARTIFACTWORLD_WEIGHTS_ROOT）可用于配置路径。

授权许可

仓库代码采用 Apache License 2.0 许可。
stages/ 目录下的第三方组件保留其各自的许可文件。

搜集汇总

数据集介绍

构建方式

在稀疏视角三维高斯泼溅（3DGS）的重建过程中，常因观测信息不足而出现几何与光度退化现象。为系统解决此类伪影问题，ArtifactWorld-Benchmark数据集应运而生，其构建依托于大规模生成飞轮策略，通过将原始真实视频与经可控退化模型处理的伪影视频进行配对，形成包含107.5K规模的配对样本库。在此基础上，精选出1.28K个高质量样本构建标准化基准数据集，每个样本包含对应的清晰视频（gt）与退化视频（artifact），以mp4格式存储，确保了数据在时空维度上的一致性，为后续的伪影恢复评估提供了可靠的对照基础。

特点

该数据集具备显著的严谨性与可扩展性。其核心特点在于采用同构双模型范式与共享视频扩散主干架构，通过系统性的数据扩充策略，实现了从有限观测量到高质量恢复的跨越。数据集中包含了经过精心标注的伪影热力图与噪声图，为模型提供了关于退化分布的深度监督信息。此外，数据集内置了专门设计的伪影感知三元组融合机制（AATF）与解耦边界锚定技术（DBA），二者协同作用于自注意力机制内部，实现强度引导的时空修复，显著提升了三维重建的保真度与鲁棒性。

使用方法

使用ArtifactWorld-Benchmark时，首先需利用提供的工具将配对目录中同一命名的gt与artifact视频合并为参考输入视频。随后，分两个阶段运行推理流水线：第一阶段调用预测器对参考视频生成伪影热力图与噪声图；第二阶段在恢复过程中联合启用AATF与DBA模块，对第一阶段输出的噪声图进行感知融合与时空修补。所有模型权重与辅助潜变量均已通过Hugging Face平台发布，用户只需依据环境配置指南安装依赖并设置相关路径变量，即可通过简化脚本一键完成从数据预处理到最终修复的全流程推理与评估。

背景与挑战

背景概述

ArtifactWorld-Benchmark数据集由王新亮、石一峰和吴振宇于2026年创建，隶属于北京航空航天大学研究团队，旨在解决稀疏视角三维高斯泼溅（3DGS）重建过程中因视角不足导致的几何与光度伪影退化问题。该研究通过系统性数据扩展与同构双模型范式，首次将视频生成模型引入伪影修复领域，构建了包含1.28K精心筛选样本的标准化基准集，并计划释放107.5K大规模生成式飞轮训练数据。数据集及其配套的伪影感知三元组融合（AATF）与解耦边界锚定（DBA）方法，为提升3DGS重建质量提供了新的评估标准与修复框架，对计算机视觉领域的三维重建与视频生成交叉研究具有重要推动价值。

当前挑战

当前数据集面临的多维挑战包括：首先，稀疏视角下3DGS固有的几何与光度退化问题构成了核心领域难题，现有修复方法难以在保持全局一致性的同时有效消除局部伪影。其次，数据集构建过程中面临伪影类型多样性不足与真实退化样本匮乏的困境，尽管采用生成式飞轮策略扩展至107.5K规模，但合成伪影与真实场景退化之间的域差异仍需弥合。此外，高分辨率视频伪影修复计算开销巨大，双阶段推理的实时性受限，且当前基准仅包含1.28K样本，可能不足以充分评估模型在极端稀疏视角下的泛化鲁棒性。

常用场景

经典使用场景

ArtifactWorld-Benchmark最经典的使用场景在于评估和训练基于视频生成模型的三维高斯溅射伪影修复算法。该基准数据集包含1.28K精心配准的地面真值与伪影视频对，专为验证稀疏视角三维重建中出现的几何与光度退化修复效果而设计。研究者可利用此标准化数据，系统性地测试同构双模型范式下的伪影热图预测、伪影感知三元组融合（AATF）以及解耦边界锚定（DBA）等核心方法的性能，为三维场景修复领域提供可重复的评测基准。

衍生相关工作

基于ArtifactWorld-Benchmark数据集，衍生了一系列在三维视觉与视频生成交叉领域的经典工作。论文《ArtifactWorld》提出的同构双模型范式，将共享结构预测器与AATF、DBA机制集成于视频扩散骨干网络，开创了伪影修复的新方向。后续研究可沿此路径探索更高效的热图预测架构、多尺度时空融合策略，以及无监督领域自适应方法。此外，该数据集还催生了针对大规模生成飞轮训练数据的系统性扩展方案，推动从107.5K样本中学到的泛化修复能力向复杂真实场景迁移，形成了从数据构建到模型评估的完整研究闭环。

数据集最近研究