PICABench and PICA-100K

github2025-10-21 更新2025-10-22 收录

下载链接：

https://github.com/Andrew0613/PICABench

下载链接

链接失效反馈

官方服务：

资源简介：

PICABench是一个用于物理真实图像编辑的基准测试、评估器和数据套件，包含跨越光学、力学和状态转换八个物理定律的物理感知编辑案例，每个案例标注了表面/中间/明确难度层级。PICA-100K是合成的、视频衍生的训练数据，用于微调时提升物理一致性。

PICABench is a benchmark, evaluator, and data suite for physically realistic image editing. It contains physically-aware editing cases spanning eight physical laws covering optics, mechanics, and state transitions, with each case annotated with surface/medium/explicit difficulty levels. PICA-100K is a synthetic, video-derived training dataset designed to enhance physical consistency during model fine-tuning.

创建时间：

2025-10-20

原始信息汇总

PICABench 数据集概述

数据集基本信息

数据集名称: PICABench
核心目标: 评估图像编辑模型的物理真实性
主要组件: 基准测试、评估指标和训练数据

核心组件

1. PICABench基准测试

覆盖范围: 8个物理定律，涵盖光学、力学和状态转换三大领域
难度分级: 浅层、中级、显式三个难度等级
评估重点: 物理感知的图像编辑能力

2. PICAEval评估指标

验证方法: 基于区域定位的问答验证
标注内容: 人工标注的关注区域和空间锚定的判断题
评估维度: 物理一致性验证

3. PICA-100K训练数据

数据规模: 10万对合成编辑样本
数据来源: 视频帧衍生
主要用途: 提升图像编辑模型的物理一致性

数据集获取

PICABench基准数据

bash huggingface-cli download Andrew613/PICABench --repo-type dataset --local-dir PICABench_data

PICA-100K训练数据

bash huggingface-cli download Andrew613/PICA-100K --repo-type dataset --local-dir data/PICA-100K

评估流程

支持的评价方式

Qwen/vLLM评估
GPT-based评估
非编辑区域质量评估

输出结果

每个问题的准确率
按物理类别、定律和操作的聚合准确率
可视化标注图像

数据格式

元数据字段

输入/输出图像路径
编辑指令
物理类别和定律
难度等级
标注问答对
编辑区域信息

性能现状

顶级专有系统准确率约60%
存在显著的物理感知差距

提交要求

各子类别准确率
总体准确率
提交邮箱: puyuandong01061313@gmail.com

许可证

Apache License 2.0

搜集汇总

数据集介绍

构建方式

在图像编辑领域追求物理真实性的背景下，PICABench基准数据集通过精心设计的多层级结构构建而成。该数据集覆盖光学、力学和状态转换三大物理领域，细分为八项具体物理定律，并依据难度划分为表面、中间和显式三个层级。每个编辑案例均包含输入与输出图像对、自然语言编辑指令，以及由人工标注的兴趣区域和基于空间锚点的问答对，确保数据在物理一致性上的严谨性。

特点

PICABench数据集的核心特点在于其深度融合物理知识与视觉编辑任务。数据集不仅提供丰富的视觉编辑案例，还引入了PICAEval评估指标，通过区域定位的是非问答机制验证编辑结果的物理合理性。其训练数据PICA-100K源自视频帧合成的十万对编辑样本，显著提升了模型对物理规律的感知能力。当前领先模型的评估准确率仅约60%，凸显了现有技术与物理真实性之间存在的显著差距。

使用方法

研究者可通过标准化流程快速部署PICABench评估体系。首先从HuggingFace平台下载基准数据，随后配置基于GPT或Qwen的评估环境。运行评估脚本时，系统会自动解析包含图像路径与标注信息的元数据文件，生成针对每个物理定律的准确性分析报告。评估结果可直接提交至官方排行榜，为不同模型在物理感知编辑能力方面提供量化比较基准。

背景与挑战

背景概述

在计算机视觉与图像生成技术飞速发展的背景下，物理真实性图像编辑成为衡量人工智能系统认知能力的重要标尺。PICABench由研究团队于2025年提出，聚焦于光学、力学与状态转换三大物理领域的八类定律验证，通过构建包含显性、中间与表层三个难度层级的评测框架，系统评估现有图像编辑模型对物理规律的遵循程度。该数据集通过区域锚定的问答验证机制，为生成式模型的物理推理能力建立了量化基准，其发布的PICA-100K合成训练数据进一步推动了物理一致性编辑技术的发展。

当前挑战

该数据集核心挑战在于突破传统图像编辑仅关注视觉逼真度的局限，要求模型同时具备物理规律的理解与推理能力。具体表现为需解决多尺度物理现象的动态建模难题，包括光线传播的折射反射计算、物体形变的力学模拟以及状态转换的因果逻辑保持。在数据构建过程中，面临物理标注一致性与语义对齐的双重挑战，需通过视频帧序列合成百万级训练样本，并设计具有空间感知能力的问答对验证机制，确保评估体系与人类认知的高度吻合。

常用场景

经典使用场景

在计算机视觉领域，物理真实图像编辑正成为评估生成模型性能的关键维度。PICABench通过构建涵盖光学、力学与状态转换三大领域的八类物理定律测试集，为模型提供标准化的物理合理性评估框架。其经典应用场景包括对图像编辑模型进行多层级难度测试，通过区域锚定的问答验证机制，系统检验模型在保持光影一致性、反射折射准确性等物理属性方面的表现。

解决学术问题

该数据集有效解决了生成式人工智能中物理常识缺失的核心难题。传统图像编辑模型往往忽视物理定律的约束，导致产生违反光学反射规律或力学平衡的失真结果。PICABench通过构建人类标注的关注区域与空间锚定问答对，建立了可量化的物理合理性评估标准，为提升模型的物理世界认知能力提供了关键基准，推动图像编辑从视觉逼真迈向物理真实的重要跨越。

衍生相关工作

基于该数据集衍生的经典研究包括物理约束的扩散模型微调范式、多模态大模型的物理推理能力测评体系等。PICA-100K训练集的发布进一步催生了系列物理增强的编辑模型，如采用视频帧合成数据提升模型对连续物理过程的理解。这些工作共同构建起物理感知图像编辑的技术生态，推动着生成式AI向更具逻辑严谨性的方向发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集