five

Complex-Edit|图像编辑数据集|模型评估数据集

收藏
arXiv2025-04-18 更新2025-04-19 收录
图像编辑
模型评估
下载链接:
https://huggingface.co/datasets/UCSC-VLAA/Complex-Edit
下载链接
链接失效反馈
资源简介:
Complex-Edit是由加州大学圣克鲁兹分校、爱丁堡大学和谷歌的研究人员创建的一个图像编辑指令复杂性可控的评估数据集。数据集通过GPT-4o模型自动收集多样化的编辑指令,并按照一定的结构化流程生成复杂指令。该数据集旨在评估图像编辑模型在处理不同复杂度指令时的性能。
提供机构:
加州大学圣克鲁兹分校, 爱丁堡大学, 谷歌
创建时间:
2025-04-18
AI搜集汇总
数据集介绍
main_image_url
构建方式
Complex-Edit数据集的构建采用了三阶段流程,首先利用GPT-4o生成原子级编辑指令序列,随后通过简化阶段去除冗余信息,最终将多个原子指令融合为复合指令。这种链式编辑(Chain-of-Edit)方法通过控制原子指令的融合数量,实现了对指令复杂度的精确调控。数据生成过程特别设计了24种原子操作类型,涵盖物体操控、色彩调整等9大类别,并通过规则过滤确保生成质量。
特点
该数据集的核心特征体现在复杂度可控的层级化指令结构,从单一原子指令到包含8个操作的复合指令形成连续光谱。其创新性在于通过量化指标(指令遵循度、身份保持度、感知质量)构建了多维评估体系,并引入基于视觉语言模型的自动评分管道。特别值得注意的是,数据集揭示了合成数据在复杂指令下导致图像风格失真的现象,为模型训练提供了重要启示。
使用方法
使用该数据集时,研究者可通过Hugging Face平台获取分复杂度层级的指令-图像对。评估阶段建议采用20次测量取平均的策略降低方差,并依据提供的详细评分标准(如10分制量规)进行多维度分析。对于复杂指令处理,论文验证了直接执行优于分步编辑的方案,同时推荐采用Best-of-N选择策略提升生成质量。数据集的元评估框架支持对现有模型在复杂场景下的系统性能力诊断。
背景与挑战
背景概述
Complex-Edit数据集由加州大学圣克鲁兹分校、爱丁堡大学和谷歌的研究团队于2025年联合推出,旨在系统评估基于指令的图像编辑模型在不同复杂度指令下的表现。该数据集通过GPT-4o自动生成多样化的编辑指令,采用“编辑链”式流水线构建,从原子级编辑任务逐步整合为复杂指令。作为首个支持复杂度可控评估的基准,Complex-Edit填补了现有图像编辑基准仅支持简单指令的空白,为测试时扩展性等前沿研究方向提供了标准化评估框架。其创新的视觉语言模型自动评估体系重新定义了图像编辑模型的三大核心维度:指令遵循度、身份保持度和感知质量。
当前挑战
该数据集面临的挑战主要体现在两个方面:领域问题层面,现有开源模型在复杂指令下性能显著劣于闭源模型,且指令复杂度提升会加剧模型在关键元素保留和美学质量维持方面的缺陷;构建过程层面,合成数据参与训练会导致编辑结果呈现过度合成化特征,这种现象在GPT-4o生成结果中同样显现。此外,将复杂指令分解为原子步骤的链式编辑策略会系统性降低模型表现,而简单的Best-of-N选择策略虽能提升效果,但无法根本解决复杂指令下的性能退化问题。数据生成过程中还需克服GPT-4o指令冗余简化、多原子指令自然融合等工程技术挑战。
常用场景
经典使用场景
Complex-Edit数据集在图像编辑领域中被广泛用于评估基于指令的图像编辑模型在不同复杂度指令下的表现。该数据集通过生成多样化的编辑指令,从简单的原子操作到复杂的复合指令,为研究者提供了一个系统化的测试平台。其经典使用场景包括测试模型在逐步增加指令复杂度时的性能变化,以及验证模型在保留图像关键元素和整体美学质量方面的能力。
衍生相关工作
基于Complex-Edit的评估框架,研究者已开展多项衍生工作。包括测试时缩放方法的优化研究、合成数据对模型输出的影响分析,以及链式思维推理在图像编辑中的适用性探索。该数据集还启发了对专有模型(如GPT-4o)图像生成能力的系统性评估,推动了指令引导编辑领域的新方法论发展。
数据集最近研究
最新研究方向
在图像编辑领域,Complex-Edit数据集的推出为基于指令的图像编辑模型提供了系统性的评估基准。该数据集通过GPT-4o自动生成多样化的编辑指令,并采用“Chain-of-Edit”流水线构建复杂性可控的指令集。前沿研究聚焦于模型在复杂指令下的表现,特别是开源模型与闭源模型之间的性能差距,以及随着指令复杂性增加,模型在保留关键元素和维持美学质量方面的能力下降。此外,研究还探讨了逐步分解复杂指令对模型性能的影响,以及通过Best-of-N选择策略提升编辑效果的方法。Complex-Edit的引入不仅揭示了合成数据在训练中的潜在问题,还为下一代图像编辑系统的评估提供了重要框架。
相关研究论文
  • 1
    $\texttt{Complex-Edit}$: CoT-Like Instruction Generation for Complexity-Controllable Image Editing Benchmark加州大学圣克鲁兹分校, 爱丁堡大学, 谷歌 · 2025年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

rule34lol-images-part2

该数据集'rule34lol-images-part2'是'rule34lol-images'数据集的第二部分,包含来自rule34.lol图像板的77,000个图像文件的元数据。数据集包括每个图像的URL、图像URL、文件路径和标签等字段。图像存储在zip存档中,并提供索引文件以便于访问。该数据集采用CC0许可,允许无限制使用、修改和分发。

huggingface 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

DNS-Challenge

深度噪声抑制挑战数据集,包含干净的语音和噪声剪辑,用于训练和评估在有噪声环境下增强语音的模型。

huggingface 收录

ShapeNet

ShapeNet 是由斯坦福大学、普林斯顿大学和美国芝加哥丰田技术研究所的研究人员开发的大型 3D CAD 模型存储库。该存储库包含超过 3 亿个模型,其中 220,000 个模型被分类为使用 WordNet 上位词-下位词关系排列的 3,135 个类。 ShapeNet Parts 子集包含 31,693 个网格,分为 16 个常见对象类(即桌子、椅子、平面等)。每个形状基本事实包含 2-5 个部分(总共 50 个部分类)。

OpenDataLab 收录