TiPAI-POC-Faithfulness
收藏TiPAI-POC-Faithfulness 数据集概述
数据集基本信息
- 数据集名称:TiPAI-POC: Patch-Level Faithfulness Dataset
- 发布者:Kapil Wanaskar
- 发布日期:2025年
- 许可协议:MIT License
- 语言:英语 (en)
- 任务类别:文本到图像生成 (text-to-image)、图像分类 (image-classification)
- 数据集规模:小于1K (n<1K)
数据集描述
本数据集包含用于文本到图像生成的样本,并提供了块级忠实度分数和系统性失败变体。其主要目的是训练块级偏好模型,以提升文本到图像的对齐能力(用于TiPAI-TSPO研究)。
核心设计
每个基础提示词包含4种变体:
- v0_original:正确的提示词(作为基准)。
- v1_attribute:错误的颜色、尺寸或材质。
- v2_object:替换或错误的主要物体。
- v3_spatial:错误的空间关系或数量。
数据集统计
- 总图像数:80
- 基础提示词数量:80
- 类别数量:20
- 已评分图像数:不适用 (N/A)
- 优选/拒绝配对数量:不适用 (N/A)
类别分布
| 类别 | 图像数量 |
|---|---|
| street | 4 |
| playground | 4 |
| photo_studio | 4 |
| park | 4 |
| outer_space | 4 |
| office | 4 |
| living_room | 4 |
| library | 4 |
| kitchen | 4 |
| gym | 4 |
| garden | 4 |
| farm | 4 |
| fantasy | 4 |
| dining_room | 4 |
| classroom | 4 |
| campsite | 4 |
| cafe | 4 |
| bedroom | 4 |
| beach_scene | 4 |
| bathroom | 4 |
变体类型(基于TIFA基准)
| 变体 | 描述 | 示例 |
|---|---|---|
| v0_original | 正确的提示词 | "a red car on the beach" |
| v1_attribute | 错误的属性 | "a blue car on the beach" |
| v2_object | 错误的物体 | "a red bicycle on the beach" |
| v3_spatial | 错误的空间关系/数量 | "a red car in the ocean" |
数据结构
数据集中的每个样本包含以下字段: python { "image_id": "attr_01_v0_seed42", "prompt_id": "attr_01_v0", "base_id": "attr_01", "variation": "v0_original", "prompt": "a shiny red sports car parked on a sandy beach at sunset", "category": "attribute_binding", "seed": 42, "image": <PIL.Image>, "global_score": 0.7234, "patch_scores": "[0.65, 0.72, ...]", # 49个值 (7x7网格) "pair_role": "chosen", # 或 "rejected" "failure_type": null # 或 "attribute", "object", "spatial" }
数据列说明
| 列名 | 类型 | 描述 |
|---|---|---|
image_id |
字符串 | 唯一标识符 |
prompt_id |
字符串 | 包含变体的提示词标识符 |
base_id |
字符串 | 基础提示词标识符 |
variation |
字符串 | v0_original, v1_attribute, v2_object, v3_spatial |
prompt |
字符串 | 用于生成的文本提示词 |
category |
字符串 | 忠实度类别 |
seed |
整数 | 随机种子(固定为42) |
image |
图像 | 生成的图像 |
global_score |
浮点数 | CLIP对齐分数(0-1) |
patch_scores |
字符串 | 49个块分数的JSON数组 |
pair_role |
字符串 | "chosen" (v0) 或 "rejected" (v1/v2/v3) |
failure_type |
字符串 | 故意引入的失败类型 |
配对逻辑
针对每个基础提示词,会创建3个配对:
- v0_original (优选) vs v1_attribute (拒绝) - 属性失败
- v0_original (优选) vs v2_object (拒绝) - 物体失败
- v0_original (优选) vs v3_spatial (拒绝) - 空间/数量失败
忠实度类别
- object_presence:所有提及的物体是否都存在?
- attribute_binding:属性(颜色、尺寸)是否正确?
- counting:物体的数量是否正确?
- spatial_relations:空间关系是否正确?
- compositional:复杂的多物体场景。
块网格布局
块分数对应一个7x7的网格(共49个区域),低分数表示该区域与提示词不匹配(可能存在对齐问题)。
引用
bibtex @misc{tipai-poc-2025, title={TiPAI-POC: Patch-Level Faithfulness Dataset with Systematic Failure Variations}, author={Kapil Wanaskar}, year={2025}, publisher={HuggingFace}, url={https://huggingface.co/datasets/kapilw25/TiPAI-POC-Faithfulness} }
参考文献
- TIFA Benchmark (https://tifa-benchmark.github.io/) - 失败类别分类法
- CLIP (https://openai.com/research/clip) - 块级评分




