RealEdit

github2025-04-29 更新2025-05-01 收录

下载链接：

https://github.com/AyanaBharadwaj/RealEdit

下载链接

链接失效反馈

官方服务：

资源简介：

我们提供了一个包含48,002个编辑请求的训练集，每个请求有1-5个真实输出，以及一个包含9,337个编辑请求的测试集，每个请求有1个手动验证的真实输出。

We provide a training set comprising 48,002 editing requests, with each request having 1 to 5 ground-truth outputs, as well as a test set containing 9,337 editing requests, each of which has one manually verified ground-truth output.

创建时间：

2025-04-25

原始信息汇总

RealEdit数据集概述

数据集基本信息

名称: RealEdit
相关论文: REALEDIT: Reddit Edits As a Large-scale Empirical Dataset for Image Transformations（CVPR 2025接收）
项目页面: RealEdit Project Page

数据集内容

训练集: 48,002个编辑请求，每个请求包含1-5个真实输出
测试集: 9,337个编辑请求，每个请求包含1个手动验证的真实输出
访问地址: Huggingface数据集

模型信息

模型检查点: Huggingface模型
加载方式: 使用diffusers库加载
推理代码:
- 单图像编辑: edit_single_image.ipynb
- 批量推理: inference.py bash python inference.py --csv_path path/to/your/csv --image_dir path/to/your/image/folder --output_dir path/to/your/output/folder [--num_inference_steps NUM_STEPS] [--image_guadance_scale IMG_SCALE] [--text_guidance_scale TEXT_SCALE]

评估

评估代码: metrics_calculation.py

引用信息

bibtex @article{sushko2024realedit, title = {REALEDIT: Reddit Edits As a Large-scale Empirical Dataset for Image Transformations}, author = {Sushko, Peter and Bharadwaj, Ayana and Lim, Zhi Yang and Ilin, Vasily and Caffee, Ben and Chen, Dongping and Salehi, Mohammadreza and Hsieh, Cheng-Yu and Krishna, Ranjay}, journal = {arXiv preprint}, year = {2024}, }

搜集汇总

数据集介绍

构建方式

在计算机视觉领域，高质量的数据集是推动图像编辑技术发展的关键。RealEdit数据集通过系统性地收集来自Reddit平台的编辑请求，构建了一个包含48,002个训练样本和9,337个测试样本的大规模实证数据集。每个训练样本包含1-5个真实编辑结果，测试样本则经过人工验证确保质量，为图像转换任务提供了丰富的监督信号。

特点

该数据集以其规模化和真实性在图像编辑领域脱颖而出。不同于合成数据，RealEdit基于真实用户的编辑需求构建，涵盖了多样化的图像转换场景。特别值得注意的是，数据集不仅提供原始图像和编辑指令，还包含多个真实编辑结果，这为模型训练提供了宝贵的多模态监督信息。测试集的精心设计进一步确保了评估结果的可靠性。

使用方法

研究人员可通过Huggingface平台便捷获取该数据集。配套提供的diffusers库加载脚本和专用推理代码，支持用户快速开展图像编辑实验。inference.py脚本支持批量处理，允许通过简单配置实现不同参数的编辑效果生成。数据集特别适合用于微调InstructPix2Pix等图像编辑模型，其提供的评估代码还能帮助研究者客观衡量模型性能。

背景与挑战

背景概述

RealEdit数据集由Peter Sushko等研究人员于2024年提出，旨在为图像编辑领域提供大规模实证数据支持。该数据集基于Reddit平台收集的编辑请求构建，包含48,002个训练样本和9,337个测试样本，每个样本附带1-5个真实编辑结果。作为CVPR 2025的接收论文，其创新性在于将社交媒体中的用户生成内容转化为结构化研究资源，为图像变换任务建立了新的基准。该工作由斯坦福大学等机构合作完成，通过融合计算机视觉与自然语言处理技术，显著推动了指令引导图像编辑领域的发展。

当前挑战

RealEdit数据集主要应对指令引导图像编辑中的两大挑战：一是真实场景下多模态指令理解的复杂性，要求模型精准捕捉文本指令与视觉内容的关联；二是编辑结果的多样性评估，需平衡创意性与保真度的矛盾。在构建过程中，研究团队面临数据清洗的严峻考验，包括处理Reddit用户生成内容的噪声、标注不一致等问题。此外，为确保编辑结果的真实性，人工验证环节耗费大量资源，这反映了高质量多模态数据集构建的固有难度。

常用场景

经典使用场景

在计算机视觉领域，RealEdit数据集为图像编辑任务提供了丰富的训练和测试资源。该数据集包含大量编辑请求和对应的真实输出，特别适用于基于指令的图像变换研究。研究人员可以利用该数据集训练模型理解自然语言指令并执行复杂的图像编辑操作，如风格转换、对象添加或删除等。

衍生相关工作

RealEdit数据集已经催生了一系列基于扩散模型的图像编辑研究。相关工作主要集中在改进指令理解能力、提升编辑质量以及扩展编辑功能等方面。该数据集也为评估指标创新提供了平台，促进了基于LLM的自动评估方法和Elo评分系统在图像编辑领域的应用。

数据集最近研究