TiPAI-POC-Faithfulness

Hugging Face2025-12-13 更新2025-12-14 收录

下载链接：

https://huggingface.co/datasets/kapilw25/TiPAI-POC-Faithfulness

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含文本到图像生成的样本，具有**补丁级忠实度分数**和**系统性失败变体**。每个基础提示有4种变体：**v0_original**（正确的提示，作为基线）、**v1_attribute**（错误的颜色/大小/材质）、**v2_object**（交换/错误的主要对象）、**v3_spatial**（错误的空间关系或计数）。数据集用于训练补丁级偏好模型，以研究文本到图像的对齐（TiPAI-TSPO研究）。数据集包含80个基础提示，每个提示有4种变体，共20个类别。每个样本包括图像ID、提示ID、基础ID、变体类型、提示文本、类别、随机种子、生成的图像、全局分数、补丁分数、配对角色和失败类型等信息。

创建时间：

2025-12-13

原始信息汇总

TiPAI-POC-Faithfulness 数据集概述

数据集基本信息

数据集名称：TiPAI-POC: Patch-Level Faithfulness Dataset
发布者：Kapil Wanaskar
发布日期：2025年
许可协议：MIT License
语言：英语 (en)
任务类别：文本到图像生成 (text-to-image)、图像分类 (image-classification)
数据集规模：小于1K (n<1K)

数据集描述

本数据集包含用于文本到图像生成的样本，并提供了块级忠实度分数和系统性失败变体。其主要目的是训练块级偏好模型，以提升文本到图像的对齐能力（用于TiPAI-TSPO研究）。

核心设计

每个基础提示词包含4种变体：

v0_original：正确的提示词（作为基准）。
v1_attribute：错误的颜色、尺寸或材质。
v2_object：替换或错误的主要物体。
v3_spatial：错误的空间关系或数量。

数据集统计

总图像数：80
基础提示词数量：80
类别数量：20
已评分图像数：不适用 (N/A)
优选/拒绝配对数量：不适用 (N/A)

类别分布

类别	图像数量
street	4
playground	4
photo_studio	4
park	4
outer_space	4
office	4
living_room	4
library	4
kitchen	4
gym	4
garden	4
farm	4
fantasy	4
dining_room	4
classroom	4
campsite	4
cafe	4
bedroom	4
beach_scene	4
bathroom	4

变体类型（基于TIFA基准）

变体	描述	示例
v0_original	正确的提示词	"a red car on the beach"
v1_attribute	错误的属性	"a blue car on the beach"
v2_object	错误的物体	"a red bicycle on the beach"
v3_spatial	错误的空间关系/数量	"a red car in the ocean"

数据结构

数据集中的每个样本包含以下字段： python { "image_id": "attr_01_v0_seed42", "prompt_id": "attr_01_v0", "base_id": "attr_01", "variation": "v0_original", "prompt": "a shiny red sports car parked on a sandy beach at sunset", "category": "attribute_binding", "seed": 42, "image": <PIL.Image>, "global_score": 0.7234, "patch_scores": "[0.65, 0.72, ...]", # 49个值 (7x7网格) "pair_role": "chosen", # 或 "rejected" "failure_type": null # 或 "attribute", "object", "spatial" }

数据列说明

列名	类型	描述
`image_id`	字符串	唯一标识符
`prompt_id`	字符串	包含变体的提示词标识符
`base_id`	字符串	基础提示词标识符
`variation`	字符串	v0_original, v1_attribute, v2_object, v3_spatial
`prompt`	字符串	用于生成的文本提示词
`category`	字符串	忠实度类别
`seed`	整数	随机种子（固定为42）
`image`	图像	生成的图像
`global_score`	浮点数	CLIP对齐分数（0-1）
`patch_scores`	字符串	49个块分数的JSON数组
`pair_role`	字符串	"chosen" (v0) 或 "rejected" (v1/v2/v3)
`failure_type`	字符串	故意引入的失败类型

配对逻辑

针对每个基础提示词，会创建3个配对：

v0_original (优选) vs v1_attribute (拒绝) - 属性失败
v0_original (优选) vs v2_object (拒绝) - 物体失败
v0_original (优选) vs v3_spatial (拒绝) - 空间/数量失败

忠实度类别

object_presence：所有提及的物体是否都存在？
attribute_binding：属性（颜色、尺寸）是否正确？
counting：物体的数量是否正确？
spatial_relations：空间关系是否正确？
compositional：复杂的多物体场景。

块网格布局

块分数对应一个7x7的网格（共49个区域），低分数表示该区域与提示词不匹配（可能存在对齐问题）。

引用

bibtex @misc{tipai-poc-2025, title={TiPAI-POC: Patch-Level Faithfulness Dataset with Systematic Failure Variations}, author={Kapil Wanaskar}, year={2025}, publisher={HuggingFace}, url={https://huggingface.co/datasets/kapilw25/TiPAI-POC-Faithfulness} }

参考文献

TIFA Benchmark (https://tifa-benchmark.github.io/) - 失败类别分类法
CLIP (https://openai.com/research/clip) - 块级评分

搜集汇总

数据集介绍

构建方式

在文本到图像生成领域，评估生成内容与文本提示的忠实度是一项核心挑战。TiPAI-POC-Faithfulness数据集的构建采用了系统化的变体生成策略，以科学方式剖析模型失效模式。其基础源于TIFA基准的分类框架，针对每个基础提示，精心设计了四种语义变体：原始正确提示、属性错误、对象错误以及空间关系错误。通过固定随机种子生成对应图像，并利用CLIP模型计算全局对齐分数与细粒度的7x7网格补丁分数，从而形成包含选择与拒绝对的配对数据，为训练补丁级偏好模型提供了结构化的监督信号。

特点

该数据集的核心特征在于其精细的补丁级忠实度标注与系统化的失效类型覆盖。它不仅提供了图像与提示的全局匹配分数，更创新性地引入了49个网格区域的局部评分，使得模型能够识别图像中特定区域的语义偏差。数据集涵盖了二十种常见场景类别，每种场景下均包含四种精心设计的变体，全面覆盖了物体存在、属性绑定、计数、空间关系及组合复杂性等五大忠实度维度。这种多层次、多类型的标注结构，为深入研究文本到图像生成模型的细粒度对齐能力提供了宝贵的实验素材。

使用方法

研究人员可利用该数据集训练或评估旨在提升文本到图像生成忠实度的模型，特别是补丁级偏好学习模型。使用时可借助Hugging Face的`datasets`库直接加载，通过过滤操作轻松分离出原始正确样本与三种不同类型的失效样本，形成训练所需的选择-拒绝对。数据中的`patch_scores`字段以JSON字符串格式存储了49维的局部评分向量，解析后可用于监督模型关注图像中的特定问题区域。该数据集主要服务于TiPAI-TSPO等研究方向，为模型理解并纠正属性、物体及空间关系等方面的生成错误提供了基准测试平台。

背景与挑战

背景概述

TiPAI-POC-Faithfulness数据集于2025年由研究者Kapil Wanaskar构建，旨在推进文本到图像生成模型的忠实度评估研究。该数据集聚焦于细粒度的图像-文本对齐问题，通过引入基于TIFA基准的系统性失败变体，深入探究生成模型在属性绑定、物体存在、空间关系等维度的语义一致性。其核心研究问题在于如何量化并提升生成图像在局部区域与文本描述的匹配程度，为训练基于补丁级别的偏好学习模型提供关键数据支持，从而推动TiPAI-TSPO等前沿方法的发展，对多模态生成模型的可靠性评估领域具有重要影响。

当前挑战

该数据集致力于解决文本到图像生成中细粒度忠实度评估的挑战，具体包括模型在复杂场景下对属性、物体、空间关系等语义细节的准确呈现问题。构建过程中的挑战主要体现于系统性失败变体的设计，需依据TIFA基准的类别定义精确构造错误属性、错误物体及错误空间关系等变体，并确保每个基础提示对应多种失败类型以形成有效的选择-拒绝配对。此外，补丁级别分数的标注依赖于CLIP等模型的计算，如何保证评分在7x7网格布局中的一致性与判别力，亦是数据集构建的关键难点。

常用场景

经典使用场景

在文本到图像生成领域，评估生成内容与文本提示的忠实度是核心挑战之一。TiPAI-POC-Faithfulness数据集通过提供包含系统性失败变体的图像样本，为训练基于补丁级别的偏好学习模型提供了关键资源。该数据集将每个基础提示扩展为四种变体，包括原始正确版本及属性、对象和空间关系上的错误变体，从而构建了明确的“选择-拒绝”配对。这种结构使得研究者能够利用对比学习等方法，精细地优化生成模型在局部区域的语义对齐能力，推动文本到图像生成技术向更高保真度发展。

衍生相关工作

该数据集衍生的经典工作主要集中在基于补丁的忠实度优化框架上。例如，TiPAI-TSPO研究利用此类配对数据训练偏好模型，以指导扩散模型在推理过程中进行细粒度的对齐修正。同时，相关工作将补丁评分机制集成到生成模型的训练损失中，提出了多种局部感知的强化学习或对抗训练方法。这些研究扩展了TIFA基准的失败分类体系，并推动了如CLIP分数改进、基于区域的提示重加权等技术发展，共同构成了文本到图像生成领域中对语义可控性进行深入探索的重要分支。

数据集最近研究