five

PICABench and PICA-100K

收藏
github2025-10-21 更新2025-10-22 收录
下载链接:
https://github.com/Andrew0613/PICABench
下载链接
链接失效反馈
官方服务:
资源简介:
PICABench是一个用于物理真实图像编辑的基准测试、评估器和数据套件,包含跨越光学、力学和状态转换八个物理定律的物理感知编辑案例,每个案例标注了表面/中间/明确难度层级。PICA-100K是合成的、视频衍生的训练数据,用于微调时提升物理一致性。

PICABench is a benchmark, evaluator, and data suite for physically realistic image editing. It contains physically-aware editing cases spanning eight physical laws covering optics, mechanics, and state transitions, with each case annotated with surface/medium/explicit difficulty levels. PICA-100K is a synthetic, video-derived training dataset designed to enhance physical consistency during model fine-tuning.
创建时间:
2025-10-20
原始信息汇总

PICABench 数据集概述

数据集基本信息

  • 数据集名称: PICABench
  • 核心目标: 评估图像编辑模型的物理真实性
  • 主要组件: 基准测试、评估指标和训练数据

核心组件

1. PICABench基准测试

  • 覆盖范围: 8个物理定律,涵盖光学、力学和状态转换三大领域
  • 难度分级: 浅层、中级、显式三个难度等级
  • 评估重点: 物理感知的图像编辑能力

2. PICAEval评估指标

  • 验证方法: 基于区域定位的问答验证
  • 标注内容: 人工标注的关注区域和空间锚定的判断题
  • 评估维度: 物理一致性验证

3. PICA-100K训练数据

  • 数据规模: 10万对合成编辑样本
  • 数据来源: 视频帧衍生
  • 主要用途: 提升图像编辑模型的物理一致性

数据集获取

PICABench基准数据

bash huggingface-cli download Andrew613/PICABench --repo-type dataset --local-dir PICABench_data

PICA-100K训练数据

bash huggingface-cli download Andrew613/PICA-100K --repo-type dataset --local-dir data/PICA-100K

评估流程

支持的评价方式

  1. Qwen/vLLM评估
  2. GPT-based评估
  3. 非编辑区域质量评估

输出结果

  • 每个问题的准确率
  • 按物理类别、定律和操作的聚合准确率
  • 可视化标注图像

数据格式

元数据字段

  • 输入/输出图像路径
  • 编辑指令
  • 物理类别和定律
  • 难度等级
  • 标注问答对
  • 编辑区域信息

性能现状

  • 顶级专有系统准确率约60%
  • 存在显著的物理感知差距

相关资源

  • 官方排行榜: https://picabench.github.io
  • 论文: https://arxiv.org/pdf/2510.17681
  • HuggingFace论文: https://huggingface.co/papers/2510.17681

提交要求

  • 各子类别准确率
  • 总体准确率
  • 提交邮箱: puyuandong01061313@gmail.com

许可证

  • Apache License 2.0
搜集汇总
数据集介绍
main_image_url
构建方式
在图像编辑领域追求物理真实性的背景下,PICABench基准数据集通过精心设计的多层级结构构建而成。该数据集覆盖光学、力学和状态转换三大物理领域,细分为八项具体物理定律,并依据难度划分为表面、中间和显式三个层级。每个编辑案例均包含输入与输出图像对、自然语言编辑指令,以及由人工标注的兴趣区域和基于空间锚点的问答对,确保数据在物理一致性上的严谨性。
特点
PICABench数据集的核心特点在于其深度融合物理知识与视觉编辑任务。数据集不仅提供丰富的视觉编辑案例,还引入了PICAEval评估指标,通过区域定位的是非问答机制验证编辑结果的物理合理性。其训练数据PICA-100K源自视频帧合成的十万对编辑样本,显著提升了模型对物理规律的感知能力。当前领先模型的评估准确率仅约60%,凸显了现有技术与物理真实性之间存在的显著差距。
使用方法
研究者可通过标准化流程快速部署PICABench评估体系。首先从HuggingFace平台下载基准数据,随后配置基于GPT或Qwen的评估环境。运行评估脚本时,系统会自动解析包含图像路径与标注信息的元数据文件,生成针对每个物理定律的准确性分析报告。评估结果可直接提交至官方排行榜,为不同模型在物理感知编辑能力方面提供量化比较基准。
背景与挑战
背景概述
在计算机视觉与图像生成技术飞速发展的背景下,物理真实性图像编辑成为衡量人工智能系统认知能力的重要标尺。PICABench由研究团队于2025年提出,聚焦于光学、力学与状态转换三大物理领域的八类定律验证,通过构建包含显性、中间与表层三个难度层级的评测框架,系统评估现有图像编辑模型对物理规律的遵循程度。该数据集通过区域锚定的问答验证机制,为生成式模型的物理推理能力建立了量化基准,其发布的PICA-100K合成训练数据进一步推动了物理一致性编辑技术的发展。
当前挑战
该数据集核心挑战在于突破传统图像编辑仅关注视觉逼真度的局限,要求模型同时具备物理规律的理解与推理能力。具体表现为需解决多尺度物理现象的动态建模难题,包括光线传播的折射反射计算、物体形变的力学模拟以及状态转换的因果逻辑保持。在数据构建过程中,面临物理标注一致性与语义对齐的双重挑战,需通过视频帧序列合成百万级训练样本,并设计具有空间感知能力的问答对验证机制,确保评估体系与人类认知的高度吻合。
常用场景
经典使用场景
在计算机视觉领域,物理真实图像编辑正成为评估生成模型性能的关键维度。PICABench通过构建涵盖光学、力学与状态转换三大领域的八类物理定律测试集,为模型提供标准化的物理合理性评估框架。其经典应用场景包括对图像编辑模型进行多层级难度测试,通过区域锚定的问答验证机制,系统检验模型在保持光影一致性、反射折射准确性等物理属性方面的表现。
解决学术问题
该数据集有效解决了生成式人工智能中物理常识缺失的核心难题。传统图像编辑模型往往忽视物理定律的约束,导致产生违反光学反射规律或力学平衡的失真结果。PICABench通过构建人类标注的关注区域与空间锚定问答对,建立了可量化的物理合理性评估标准,为提升模型的物理世界认知能力提供了关键基准,推动图像编辑从视觉逼真迈向物理真实的重要跨越。
衍生相关工作
基于该数据集衍生的经典研究包括物理约束的扩散模型微调范式、多模态大模型的物理推理能力测评体系等。PICA-100K训练集的发布进一步催生了系列物理增强的编辑模型,如采用视频帧合成数据提升模型对连续物理过程的理解。这些工作共同构建起物理感知图像编辑的技术生态,推动着生成式AI向更具逻辑严谨性的方向发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作