Object State Bench

Name: Object State Bench
Creator: 波士顿大学
Published: 2025-05-05 04:24:57
License: 暂无描述

arXiv2025-05-05 更新2025-05-07 收录

下载链接：

https://github.com/cskyl/Object-StateBench

下载链接

链接失效反馈

官方服务：

资源简介：

Object State Bench数据集由波士顿大学的研究团队创建，旨在解决当前文本到图像生成模型在准确表现物体状态（如“一张没有瓶子的桌子”）方面的挑战。该数据集包含200个针对常见物体在多种物理状态下的描述提示，如“一个没有书籍的书架”、“一个没有瓶子的桌子”等。这些提示旨在帮助模型更好地理解并生成物体在不同状态下的图像。数据集的创建过程包括使用大型语言模型生成描述物体状态的提示，利用文本到图像生成模型生成图像，并使用视觉语言模型过滤出不符合物体状态描述的图像。该数据集主要应用于文本到图像生成模型的评估和微调，旨在提高模型在表现物体状态方面的准确性和泛化能力。

The Object State Bench dataset was developed by a research team from Boston University, aiming to address the challenges faced by current text-to-image generation models in accurately rendering object states, such as "a table without a bottle". This dataset includes 200 descriptive prompts for common objects across various physical states, for example, "a bookshelf without books", "a table without a bottle", and more. These prompts are intended to help models better comprehend and generate images of objects under different states. The dataset creation workflow involves using large language models (LLMs) to generate prompts that describe object states, leveraging text-to-image generation models to produce corresponding images, and employing vision-language models to filter out images that fail to match the given object state descriptions. This dataset is mainly used for the evaluation and fine-tuning of text-to-image generation models, with the objective of enhancing the models' accuracy and generalization capability in depicting object states.

提供机构：

波士顿大学

创建时间：

2025-05-05

搜集汇总

数据集介绍

构建方式

Object State Bench数据集的构建采用了一种全自动化的合成数据生成流程，旨在精准捕捉日常物品在不同物理状态下的表现。首先，通过大型语言模型生成描述常见物品处于空置或缺失状态的模板式提示词（如“一张没有瓶子的桌子”）。随后，利用现成的文本到图像生成模型基于这些提示词生成候选图像，并通过视觉语言模型进行筛选，剔除未能准确呈现目标状态的图像。最后，借助语言模型对初始提示词进行多样化改写，以增强句法结构的丰富性。整个流程最终产生了7600组高质量的图像-文本对，为模型训练提供了系统化的数据支持。

使用方法

Object State Bench主要服务于文本到图像生成模型的微调与评估。研究人员可将该数据集作为补充训练数据，通过LoRA等参数高效微调方法增强模型对物品状态的理解。数据集包含的200条评估提示词（含人工撰写和机器生成）可专门用于测试模型在复杂物理状态下的生成能力。使用时需注意，生成图像需与提示词描述的物品状态严格匹配，可通过GPT-4o-mini等工具进行自动化对齐度评估。该资源已开源，包含完整的数据生成代码和评估框架。

背景与挑战

背景概述

Object State Bench数据集由波士顿大学和Runway的研究团队于2025年提出，旨在解决文本到图像生成系统中物体状态表征的准确性问题。该数据集聚焦于日常物体在不同物理状态（如空置、满置、存在或缺失）下的视觉表现，通过自动化合成数据生成流程，构建了包含7600个高质量图像-文本对的数据集。其核心研究问题在于克服生成模型对物体共现上下文的依赖偏差，提升对否定性描述（如'无食物的厨房柜台'）的准确生成能力。该工作通过微调Stable Diffusion等开源模型，在公开基准测试中实现了8%-24%的性能提升，为生成式AI的语义理解树立了新标准。

当前挑战

该数据集面临双重挑战：在领域层面，现有文本到图像模型难以准确表征物体状态变化，特别是对否定性提示（如'无花瓶的桌子'）的理解存在系统性偏差，导致生成结果常包含非预期物体；在构建层面，需克服真实数据中物体状态样本分布不均的问题，通过合成数据生成中的多阶段过滤机制（包括视觉语言模型验证和提示重构）确保数据质量，同时避免因过度强调空置状态而导致物体本体表征失真。此外，平衡模型对新物体状态的泛化能力与基础生成质量的保持，也是关键技术难点。

常用场景

经典使用场景

Object State Bench数据集在文本到图像生成系统的研究中扮演了关键角色，特别是在提升模型对物体物理状态（如空置、满置、存在或缺失）的准确表征能力方面。该数据集通过精心设计的合成数据生成流程，为模型训练提供了大量高质量图像-文本对，这些数据对涵盖了日常生活中常见物体在不同物理状态下的表现。研究者们利用该数据集对多种开源文本到图像模型进行微调，显著提升了模型在生成图像时对物体状态的准确表达能力。

解决学术问题

Object State Bench数据集有效解决了当前文本到图像生成模型在物体状态表征上的核心问题。传统模型由于训练数据中物体状态的分布偏差，往往难以准确生成空置或缺失状态的物体图像。该数据集通过系统化的合成数据生成和过滤机制，为模型提供了丰富的物体状态样本，从而显著提升了模型对物体状态的理解能力。实验结果表明，经过该数据集微调的模型在物体状态表征任务上平均提升了24%的性能，为生成模型的语义对齐研究提供了重要突破。

实际应用

在实际应用层面，Object State Bench数据集为需要精确控制物体状态的图像生成场景提供了可靠解决方案。例如，在室内设计领域，设计师可以准确生成空置的房间或家具布局；在电商产品展示中，商家能够清晰呈现商品容器的不同状态；在教育领域，教师可以创建特定状态的教学素材。该数据集的应用显著提升了生成图像与文本描述的语义一致性，为各行业的视觉内容创作带来了新的可能性。

数据集最近研究