DAVIS-Edit|视频编辑数据集|形状一致性数据集

github2024-11-29 更新2024-11-30 收录

视频编辑

形状一致性

下载链接：

https://github.com/AlonzoLeeeooo/StableV2V

下载链接

链接失效反馈

资源简介：

DAVIS-Edit是一个用于视频编辑的测试基准数据集，特别用于评估视频编辑中形状一致性的稳定性。该数据集包含多种用户提示的不同模态，展示了StableV2V在处理广泛下游应用中的灵活性。

创建时间：

2024-11-17

原始信息汇总

StableV2V: Stablizing Shape Consistency in Video-to-Video Editing

概述

StableV2V 是一种新颖的视频编辑范式，旨在以形状一致的方式进行视频编辑，特别是在用户提示导致编辑内容形状发生显著变化的情况下。此外，StableV2V 展示了在处理不同模态用户提示的一系列下游应用中的优越灵活性。

数据集

DAVIS-Edit: 这是一个经过策划的测试基准，用于评估视频编辑任务。该数据集已上传到多个平台，包括 HuggingFace、wisemodel 和 ModelScope。

模型

StableV2V: 该模型用于视频编辑任务，支持多种编辑方式，包括基于草图的编辑和视频修复。

代码结构

StableV2V ├── LICENSE ├── README.md ├── assets ├── datasets ├── models ├── runners ├── inference.py ├── train_completion_net.py └── utils

依赖项

Python 3.10: 使用 conda 创建虚拟环境并安装依赖项。
预训练模型权重: 需要下载并放置在 checkpoints 文件夹中。

推理命令

bash python inference.py --raft-checkpoint-path checkpoints/raft-things.pth --midas-checkpoint-path checkpoints/dpt_swin2_large_384.pt --u2net-checkpoint-path checkpoints/u2net.pth --stable-diffusion-checkpoint-path stable-diffusion-v1-5/stable-diffusion-v1-5 --controlnet-checkpoint-path lllyasviel/control_v11f1p_sd15_depth --i2vgenxl-checkpoint-path ali-vilab/i2vgen-xl --ctrl-adapter-checkpoint-path hanlincs/Ctrl-Adapter --completion-net-checkpoint-path checkpoints/depth-refinement/50000.ckpt --image-editor-type paint-by-example --image-editor-checkpoint-path /path/to/image/editor --source-video-frames examples/frames/bear --external-guidance examples/reference-images/raccoon.jpg --prompt "a raccoon" --outdir results

Gradio 演示

提供了一个 Gradio 演示，通过交互式 UI 尝试 StableV2V。

引用

如果使用此工作，请引用相关论文。

结果

展示了 StableV2V 在视频编辑任务中的结果。

AI搜集汇总

数据集介绍

构建方式

DAVIS-Edit数据集的构建旨在为视频编辑任务提供高质量的测试基准。该数据集通过精心挑选和处理来自不同场景的视频片段，确保了数据的多样性和复杂性。具体而言，数据集的构建过程包括视频片段的选择、标注、以及编辑效果的验证，确保每一段视频都符合形状一致性和编辑质量的高标准。

特点

DAVIS-Edit数据集的主要特点在于其专注于形状一致性的视频编辑任务。数据集包含了多种编辑场景，如基于草图的编辑和视频修复，能够有效评估编辑算法在处理形状变化时的表现。此外，数据集还提供了详细的标注和参考图像，便于研究人员进行深入分析和算法优化。

使用方法

使用DAVIS-Edit数据集时，用户可以通过提供的命令行工具或Gradio界面进行推理和编辑操作。首先，用户需要下载并配置所需的模型权重，然后根据提示输入视频帧和编辑指令。数据集支持多种编辑类型，包括草图编辑和视频修复，用户可以根据具体需求选择合适的编辑方式。编辑结果将保存在指定的输出目录中，便于进一步分析和展示。

背景与挑战

背景概述

DAVIS-Edit数据集由Chang Liu、Rui Li、Kaidong Zhang、Yunwei Lan和Dong Liu等研究人员于近期创建，旨在支持视频到视频编辑领域的研究。该数据集的核心研究问题是如何在用户提示导致显著形状变化的情况下，保持视频编辑的一致性。DAVIS-Edit的推出对视频编辑领域具有重要影响，为研究人员提供了一个标准化的测试基准，以评估和改进视频编辑算法的性能。

当前挑战

DAVIS-Edit数据集在构建过程中面临多项挑战。首先，如何在用户提示导致显著形状变化的情况下，确保视频编辑的一致性是一个主要难题。其次，数据集的构建需要处理多种用户提示的多样性，这增加了数据集的复杂性和处理难度。此外，数据集的维护和更新也是一个持续的挑战，以确保其与最新研究进展保持同步。

常用场景

经典使用场景

在视频编辑领域，DAVIS-Edit数据集以其独特的形状一致性编辑能力而著称。该数据集特别适用于处理用户提示导致视频内容形状发生显著变化的场景。通过提供丰富的视频帧和编辑提示，DAVIS-Edit使得研究人员和开发者能够探索和验证视频编辑算法在保持形状一致性方面的表现。

衍生相关工作

基于DAVIS-Edit数据集，研究者们开发了多种视频编辑算法和工具。例如，StableV2V模型通过结合深度学习和形状一致性技术，实现了高质量的视频编辑。此外，DAVIS-Edit还激发了关于视频编辑中形状一致性和深度学习结合的研究，推动了相关领域的技术进步和创新。

数据集最近研究

最新研究方向

在视频编辑领域，DAVIS-Edit数据集的最新研究方向主要集中在形状一致性编辑技术上。随着StableV2V的提出，研究者们致力于在视频编辑过程中保持形状的一致性，特别是在用户提示导致内容形状发生显著变化的情况下。这一方向不仅提升了视频编辑的灵活性和准确性，还为下游应用如视频修复和草图引导编辑提供了新的可能性。通过结合深度学习与计算机视觉技术，DAVIS-Edit数据集的研究正推动视频编辑技术向更高层次的自动化和智能化发展。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

UniProt

UniProt（Universal Protein Resource）是全球公认的蛋白质序列与功能信息权威数据库，由欧洲生物信息学研究所（EBI）、瑞士生物信息学研究所（SIB）和美国蛋白质信息资源中心（PIR）联合运营。该数据库以其广度和深度兼备的蛋白质信息资源闻名，整合了实验验证的高质量数据与大规模预测的自动注释内容，涵盖从分子序列、结构到功能的全面信息。UniProt核心包括注释详尽的UniProtKB知识库（分为人工校验的Swiss-Prot和自动生成的TrEMBL），以及支持高效序列聚类分析的UniRef和全局蛋白质序列归档的UniParc。其卓越的数据质量和多样化的检索工具，为基础研究和药物研发提供了无可替代的支持，成为生物学研究中不可或缺的资源。

www.uniprot.org 收录

UAVDT

UAVDT数据集由中国科学院大学等机构创建，包含约80,000帧从10小时无人机拍摄视频中精选的图像，覆盖多种复杂城市环境。数据集主要关注车辆目标，每帧均标注了边界框及多达14种属性，如天气条件、飞行高度、相机视角等。该数据集旨在推动无人机视觉技术在不受限制场景下的研究，解决高密度、小目标、相机运动等挑战，适用于物体检测、单目标跟踪和多目标跟踪等基础视觉任务。

arXiv 收录

GHCN

GHCN（Global Historical Climatology Network）是一个全球历史气候网络数据集，包含了全球各地气象站记录的每日气象数据，如温度、降水、风速等。该数据集用于研究气候变化和天气模式。

www.ncei.noaa.gov 收录

中国行政区划shp数据

中国行政区划数据是重要的基础地理信息数据，目前不同来源的全国行政区划数据非常多，但能够开放获取的高质量行政区域数据少之又少。基于此，锐多宝的地理空间制作一套2013-2023年可开放获取的高质量行政区划数据。该套数据以2022年国家基础地理信息数据中的县区划数据作为矢量基础，辅以高德行政区划数据、天地图行政区划数据，参考历年来民政部公布的行政区划为属性基础，具有时间跨度长、属性丰富、国界准确、更新持续等特性。中国行政区划数据统计截止时间是2023年2月12日，包含省、市、县、国界、九段线等矢量shp数据。该数据基于2020年行政区划底图，按时间顺序依次制作了2013-2023年初的行政区划数据。截止2023年1月1日，我国共有34个省级单位，分别是4个直辖市、23个省、5个自治区和2个特别行政区。截止2023年1月1日，我国共有333个地级单位，分别是293个地级市、7个地区、30个自治州和3个盟，其中38个矢量要素未纳入统计（比如直辖市北京等、特别行政区澳门等、省直辖县定安县等）。截止2023年1月1日，我国共有2843个县级单位，分别是1301个县、394个县级市、977个市辖区、117个自治县、49个旗、3个自治旗、1个特区和1个林区，其中9个矢量要素未纳入县级类别统计范畴（比如特别行政区香港、无县级单位的地级市中山市东莞市等）。

CnOpenData 收录

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集，包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素，标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录