openbrush-van-gogh
收藏OpenBrush Van Gogh 数据集详情
数据集简介
OpenBrush Van Gogh 是从 OpenBrush-75K 数据集中筛选出的文森特·梵高(Vincent van Gogh)全部作品的子集,包含 1,889 张图像,并配有结构化的视觉语言模型(VLM)描述。数据集采用 MIT 许可证,所有图像均为公共领域作品。
任务类别
- 图像到文本(image-to-text)
- 文本到图像(text-to-image)
- 图像分类(image-classification)
语言
- 英语(en)
标签
艺术、美术、绘画、公共领域、梵高、后印象派、单一艺术家、结构化描述、图像描述、扩散模型、视觉语言模型
数据集规模
- 图像数量:1,889 张
- 规模分类:1K < n < 10K
数据配置
| 配置名 | 数据分割 | 数据文件路径 |
|---|---|---|
| default | train | data/train-*.parquet |
数据模式(Schema)
| 字段 | 类型 | 描述 |
|---|---|---|
| id | 字符串 | 唯一标识符 |
| image | 图像 | 艺术品(PNG 格式字节数据) |
| width | 整型 | 图像宽度(像素) |
| height | 整型 | 图像高度(像素) |
| artist | 字符串 | 艺术家姓名 |
| style | 字符串 | 艺术运动/风格 |
| genre | 字符串 | 类型 |
| tags | 字符串列表 | 标准化描述性标签 |
| subject | 字符串 | 主体描述字段 |
| action | 字符串 | 动作描述字段 |
| setting | 字符串 | 环境描述字段 |
| mood | 字符串 | 情绪描述字段 |
| style_description | 字符串 | 风格描述字段 |
| lighting | 字符串 | 光照描述字段 |
| color | 字符串 | 色彩描述字段 |
| composition | 字符串 | 构图描述字段 |
| caption_full | 字符串 | 完整结构化描述 |
| source_file | 字符串 | 原始文件名 |
描述结构(Caption Schema)
每条数据包含 caption_full 字段以及 9 个独立字段,结构如下:
- TAGS: 逗号分隔的标准化描述性标签
- SUBJECT: 主体描述
- ACTION: 动作、手势、事件
- SETTING: 环境和背景
- MOOD: 情感基调和氛围
- STYLE: 艺术技巧和风格分析
- LIGHTING: 方向、质量、色温
- COLOR: 调色板和色彩关系
- COMPOSITION: 构图、平衡、焦点
数据加载示例
python from datasets import load_dataset
dataset = load_dataset("jaddai/openbrush-van-gogh") print(len(dataset["train"])) # 1,889
example = dataset["train"][0] print(example["caption_full"])
与父数据集的关系
本数据集是 jaddai/openbrush-75k v1.1 的一个筛选子集,所有图像、描述和元数据与父数据集完全一致,未进行重新描述或修改。筛选条件为:artist == "Vincent Van Gogh"。
许可证
- 许可证类型: MIT
- 图像版权: 底层艺术品均为公共领域(所有艺术家于 1954 年前去世)
- 结构化描述: 作为原创作品,以 MIT 许可证发布
引用格式
bibtex @dataset{openbrush_openbrush_van_gogh, title={OpenBrush Van Gogh}, author={jaddai}, year={2026}, publisher={Hugging Face}, url={https://huggingface.co/datasets/jaddai/openbrush-van-gogh}, note={Curated subset of openbrush-75k} }
致谢
- 原始艺术品图像来自公共领域艺术收藏
- 描述由 Qwen3-VL-30B-A3B 模型生成
- 标签标准化通过基于 LLM 的语义映射完成




