five

The COW of Rembrandt

收藏
arXiv2025-07-31 更新2025-08-02 收录
下载链接:
https://github.com/umilISLab/artistic-prompt-interpretation
下载链接
链接失效反馈
官方服务:
资源简介:
The COW of Rembrandt数据集由米兰大学计算机科学系的Alfio Ferrara、Sergio Picascia和Elisabetta Rocchetti创建,该数据集包含16,000个独特提示,用于研究文本到图像生成模型如何将内容与风格概念进行编码。数据集利用MSCOCO数据集的80个物体类别和WikiArt数据集的50种风格描述符构建,旨在通过分析模型在生成艺术作品时如何区分内容和风格,为理解大规模生成模型内部如何表示复杂艺术概念提供洞见。

The COW of Rembrandt Dataset was created by Alfio Ferrara, Sergio Picascia, and Elisabetta Rocchetti from the Department of Computer Science, University of Milan. This dataset contains 16,000 unique prompts for investigating how text-to-image generation models encode content and style concepts. It was constructed using 80 object categories from the MSCOCO dataset and 50 style descriptors from the WikiArt dataset. The dataset aims to provide insights into the internal representation of complex artistic concepts by large-scale generative models, through analyzing how models distinguish between content and style when generating artworks.
提供机构:
米兰大学计算机科学系
创建时间:
2025-07-31
原始信息汇总

数据集概述:The Cow of Rembrandt

研究背景

  • 研究文本到图像扩散模型在生成艺术作品时如何内部表示艺术概念(如内容和风格)。
  • 使用交叉注意力分析探讨模型如何分离提示中的内容描述和风格描述元素。
  • 发现扩散模型表现出不同程度的内容-风格分离,内容标记通常影响对象区域,风格标记影响背景和纹理。

数据集内容

文件结构

├── entities/ # 用于填充提示模板的数据 ├── output/ # 实验结果 | ├── prompts.csv # 实验使用的提示 │ ├── content_style_iou_results.csv # 实验的IoU结果 ├── src/ # 源代码 │ ├── analysis_utils.py # 指标计算 │ ├── config.py # 实验设置 │ ├── data_utils.py # 提示处理 │ ├── main_exp.py # 主实验 │ ├── main_viz.py # 主可视化 │ └── model_utils.py # 模型设置 ├── result_analysis.ipynb # 用于复制绘图和分析的Jupyter笔记本 ├── requirements.txt # Python依赖项 └── README.md # 本文件

数据来源

数据可用性

  • 完整提示和生成图像集可从Dataverse下载。

使用说明

环境要求

  • Python 3.10.5

安装步骤

  1. 克隆仓库: bash git clone https://github.com/umilISLab/artistic-prompt-interpretation.git cd artistic-prompt-interpretation

  2. 创建虚拟环境: bash python -m venv venv source venv/bin/activate # Windows: venvScriptsactivate

  3. 安装依赖项: bash pip install -r requirements.txt

重现结果

运行以下命令: bash python src/main_exp.py python src/main_viz.py

可视化示例

搜集汇总
数据集介绍
main_image_url
构建方式
The COW of Rembrandt数据集通过系统构建包含不同内容和风格组件的提示模板,利用Stable Diffusion XL模型生成艺术作品。研究团队设计了四种标准化的提示模板,将内容(如动物或物体)和风格(如艺术家或艺术运动)作为独立变量进行组合,生成了16,000个独特的提示。通过交叉注意力热图分析,量化了内容与风格在生成图像中的空间分布关系,揭示了模型如何区分或混淆这两个概念。
特点
该数据集的核心特点在于其系统性分析文本到图像扩散模型对艺术内容与风格的表征能力。通过交叉注意力热图技术,数据集提供了对生成图像中内容与风格空间分布的定量评估,揭示了模型在不同艺术风格和内容组合下的行为模式。特别值得注意的是,数据集包含了从清晰分离到高度重叠的多种案例,为理解模型内部表征机制提供了丰富素材。数据集中还包含了异常案例,如Rembrandt风格与人物内容的特殊交互,展现了艺术风格与主题之间的复杂关系。
使用方法
研究者可通过该数据集深入分析扩散模型对艺术概念的表征机制。使用流程包括:首先利用提供的提示模板生成艺术作品;然后提取并分析交叉注意力热图,计算内容与风格区域的重叠度指标;最后通过比较不同内容-风格组合的结果,探究模型内部的内容-风格解耦程度。数据集特别适合研究艺术风格迁移、生成模型可解释性以及计算机视觉中的内容-风格分离问题。配套提供的可视化工具支持对注意力图的直观探索,便于发现模型行为的模式和异常。
背景与挑战
背景概述
The COW of Rembrandt数据集由米兰大学计算机科学系的Alfio Ferrara、Sergio Picascia和Elisabetta Rocchetti于2025年创建,旨在探究基于Transformer的文本到图像扩散模型在生成艺术作品时如何编码内容和风格概念。该数据集通过分析交叉注意力热图,揭示了模型在无显式监督下对艺术内容与风格的内部分离机制,为理解大规模生成模型对复杂艺术概念的内部表征提供了新视角。其创新性方法论和开源工具对计算美学、生成式AI可解释性等跨学科领域具有重要启示意义。
当前挑战
该研究面临双重挑战:在领域层面,需解决艺术风格与内容解耦这一长期存在的计算机视觉难题,特别是当风格元素(如伦勃朗的光影技法)与内容主体(如奶牛形态)产生非常规耦合时;在构建层面,需设计能精确量化注意力区域重叠的评估指标(如IoUCS),并处理16,000组提示词组合引发的模型行为变异,同时克服热图阈值选择对结果敏感性的技术难题。
常用场景
经典使用场景
在艺术生成与计算机视觉领域,The COW of Rembrandt数据集被广泛用于研究文本到图像扩散模型如何解析和分离艺术创作中的内容与风格元素。通过分析模型生成的图像及其对应的交叉注意力热图,研究者能够深入探究模型在处理不同艺术风格和主题时的内部表征机制。这一数据集尤其适用于评估模型在生成具有特定艺术风格图像时的表现,为艺术风格迁移和内容生成提供了重要的实验基础。
实际应用
在实际应用中,The COW of Rembrandt数据集为艺术创作工具的开发提供了重要支持。例如,设计师和艺术家可以利用基于该数据集研究的模型,生成具有特定艺术风格(如立体主义或巴洛克风格)的图像,同时保持内容的清晰表达。此外,该数据集还可用于教育领域,帮助学生理解不同艺术风格的特征及其与内容的交互方式。
衍生相关工作
该数据集衍生了一系列经典研究工作,主要集中在文本到图像生成模型的解释性与艺术风格分析领域。例如,基于交叉注意力热图的分析方法(如DAAM)被广泛应用于其他生成模型的解释性研究中。此外,该数据集还启发了对艺术风格与内容解耦的进一步探索,推动了生成模型在艺术创作和风格迁移任务中的优化与改进。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作