five

openbrush-van-gogh

收藏
Hugging Face2026-05-08 更新2026-05-09 收录
下载链接:
https://huggingface.co/datasets/jaddai/openbrush-van-gogh
下载链接
链接失效反馈
官方服务:
资源简介:
OpenBrush Van Gogh数据集是OpenBrush-75K的一个精选子集,专注于文森特·梵高的艺术作品。该数据集包含1,889幅图像,每幅图像都配有由Qwen3-VL-30B-A3B视觉语言模型生成的结构化描述。这些描述详细涵盖了多个方面,包括主题、动作、场景、情绪、风格、光线、色彩和构图。数据集适用于图像到文本、文本到图像和图像分类等任务。所有图像均为公共领域作品,描述部分则采用MIT许可证发布。数据集的结构化描述字段包括id、image、width、height、artist、style、genre、tags以及多个描述性字段(如subject、action、setting等)和完整的caption_full。数据集旨在为研究梵高艺术风格及其演变提供高质量的多模态数据资源。

The OpenBrush Van Gogh dataset is a curated subset of OpenBrush-75K, focusing on the artworks of Vincent van Gogh. It contains 1,889 images, each accompanied by structured descriptions generated by the Qwen3-VL-30B-A3B vision-language model. These descriptions cover multiple aspects in detail, including subject, action, setting, mood, style, lighting, color, and composition. The dataset is suitable for tasks such as image-to-text, text-to-image, and image classification. All images are in the public domain, while the descriptions are released under the MIT license. The structured description fields of the dataset include id, image, width, height, artist, style, genre, tags, as well as multiple descriptive fields (such as subject, action, setting, etc.) and the full caption_full. The dataset aims to provide high-quality multimodal data resources for studying Van Goghs artistic style and its evolution.
创建时间:
2026-04-27
原始信息汇总

OpenBrush Van Gogh 数据集详情

数据集简介

OpenBrush Van Gogh 是从 OpenBrush-75K 数据集中筛选出的文森特·梵高(Vincent van Gogh)全部作品的子集,包含 1,889 张图像,并配有结构化的视觉语言模型(VLM)描述。数据集采用 MIT 许可证,所有图像均为公共领域作品。

任务类别

  • 图像到文本(image-to-text)
  • 文本到图像(text-to-image)
  • 图像分类(image-classification)

语言

  • 英语(en)

标签

艺术、美术、绘画、公共领域、梵高、后印象派、单一艺术家、结构化描述、图像描述、扩散模型、视觉语言模型

数据集规模

  • 图像数量:1,889 张
  • 规模分类:1K < n < 10K

数据配置

配置名 数据分割 数据文件路径
default train data/train-*.parquet

数据模式(Schema)

字段 类型 描述
id 字符串 唯一标识符
image 图像 艺术品(PNG 格式字节数据)
width 整型 图像宽度(像素)
height 整型 图像高度(像素)
artist 字符串 艺术家姓名
style 字符串 艺术运动/风格
genre 字符串 类型
tags 字符串列表 标准化描述性标签
subject 字符串 主体描述字段
action 字符串 动作描述字段
setting 字符串 环境描述字段
mood 字符串 情绪描述字段
style_description 字符串 风格描述字段
lighting 字符串 光照描述字段
color 字符串 色彩描述字段
composition 字符串 构图描述字段
caption_full 字符串 完整结构化描述
source_file 字符串 原始文件名

描述结构(Caption Schema)

每条数据包含 caption_full 字段以及 9 个独立字段,结构如下:

  • TAGS: 逗号分隔的标准化描述性标签
  • SUBJECT: 主体描述
  • ACTION: 动作、手势、事件
  • SETTING: 环境和背景
  • MOOD: 情感基调和氛围
  • STYLE: 艺术技巧和风格分析
  • LIGHTING: 方向、质量、色温
  • COLOR: 调色板和色彩关系
  • COMPOSITION: 构图、平衡、焦点

数据加载示例

python from datasets import load_dataset

dataset = load_dataset("jaddai/openbrush-van-gogh") print(len(dataset["train"])) # 1,889

example = dataset["train"][0] print(example["caption_full"])

与父数据集的关系

本数据集是 jaddai/openbrush-75k v1.1 的一个筛选子集,所有图像、描述和元数据与父数据集完全一致,未进行重新描述或修改。筛选条件为:artist == "Vincent Van Gogh"

许可证

  • 许可证类型: MIT
  • 图像版权: 底层艺术品均为公共领域(所有艺术家于 1954 年前去世)
  • 结构化描述: 作为原创作品,以 MIT 许可证发布

引用格式

bibtex @dataset{openbrush_openbrush_van_gogh, title={OpenBrush Van Gogh}, author={jaddai}, year={2026}, publisher={Hugging Face}, url={https://huggingface.co/datasets/jaddai/openbrush-van-gogh}, note={Curated subset of openbrush-75k} }

致谢

  • 原始艺术品图像来自公共领域艺术收藏
  • 描述由 Qwen3-VL-30B-A3B 模型生成
  • 标签标准化通过基于 LLM 的语义映射完成
搜集汇总
数据集介绍
main_image_url
构建方式
OpenBrush-Van-Gogh数据集是从OpenBrush-75K大型艺术画作语料库中精心筛选出的子集,聚焦于文森特·梵高个人创作生涯的全部已知作品。其构建逻辑直接而高效:基于父数据集中的艺术家元数据字段,通过`artist == "Vincent Van Gogh"`这一单一过滤条件,从75,313幅涵盖多流派、多时代的画作中提取出1,889幅梵高真迹。所有图像、标注及元信息均保持与原始数据集完全一致,未进行任何二次标注或修改,确保了数据源的纯正与可追溯性。
使用方法
用户可通过HuggingFace Datasets库以一行代码便捷加载该数据集:`load_dataset("jaddai/openbrush-van-gogh")`,训练集共1,889条样本。每条数据包含图像(PNG格式)、基础属性(艺术家、风格、流派)及九个结构化描述字段。为规避下载75,313幅全量图像的带宽与存储开销,此子集专供聚焦于梵高单艺术家研究或后印象派风格分析的场景使用。数据集采用MIT许可证,适用于图像描述、文生图、图生文、图像分类及视觉语言模型微调等任务。
背景与挑战
背景概述
OpenBrush Van Gogh数据集由jaddai团队于2026年创建,是从包含75,313幅画作的OpenBrush-75K数据集中精心筛选出的子集,专注于荷兰后印象派大师文森特·梵高的1,889幅作品。该数据集的核心研究问题在于,为计算机视觉与多模态领域提供一个高度结构化、标注精细的单一艺术家绘画数据集,以推动视觉语言模型(VLM)在艺术理解、图像描述生成及风格迁移等任务中的发展。通过采用Qwen3-VL-30B-A3B模型生成包含标签、主体、动作、环境、情绪、风格、光线、色彩及构图九个维度的结构化描述,该数据集显著提升了艺术图像与文本对齐的精细度,为细分艺术流派的研究提供了高质量基准,并对AI艺术分析领域产生了重要影响。
当前挑战
该数据集旨在解决艺术图像理解领域中两大关键挑战:其一,现有大规模艺术品数据集往往涵盖众多艺术家与风格,导致模型难以捕捉特定艺术家的独有笔触、色彩演变及情感表达,而OpenBrush Van Gogh通过聚焦梵高一人,强化了对个人艺术特征的精细化建模能力;其二,艺术图像的文本描述常流于泛化,缺乏对技法和构成的深度解析,该数据集通过结构化标注系统,克服了这一限制。在构建过程中,团队面临从庞大母集中精准过滤梵高作品的挑战,需确保无冗余或错误归类;此外,生成高质量、多维度描述依赖顶尖VLM模型的计算资源,其标注的一致性与语义准确性也需严格校验,以保障数据集的学术价值。
常用场景
经典使用场景
在计算机视觉与多模态学习领域,OpenBrush Van Gogh数据集为研究者提供了一个高度聚焦且结构精良的艺术品分析基准。该数据集精选了文森特·梵高职业生涯从现实主义到后印象派风格的1889幅画作,每幅作品均附有由先进视觉语言模型生成的结构化标注,涵盖主题、动作、场景、情绪、风格、光线、色彩与构图等维度。这种精细化的标注体系使其成为训练与评估图像描述生成、风格迁移、艺术属性识别等任务的理想数据源,尤其适用于研究单一艺术家创作轨迹中的视觉语言映射关系。
解决学术问题
该数据集有效回应了艺术计算领域中长期存在的两大核心挑战:一是高质量、细粒度艺术标注数据的匮乏,二是艺术家个人风格演变过程的量化建模难题。通过提供统一标注模式下的梵高全集,研究者得以系统地探究印象派笔触特征、色彩调性演变与情感表达之间的关联规律,从而推动艺术风格量化分析、自动艺术批评及创造力计算等方向的理论建构。其结构化标注框架更可作为同类数据集构建的参考范式,促进艺术与人工智能交叉学科的标准化发展。
实际应用
在实际应用层面,OpenBrush Van Gogh为多个创意技术场景提供了坚实的数据基础。博物馆数字导览系统可借助该数据集训练能够识别并在展品旁自动呈现艺术背景说明的视觉问答模型;艺术教育平台可利用其中标注的风格与技法信息,开发针对性的绘画学习辅助工具,指导学生理解梵高不同时期的笔触特征与色彩运用。此外,该数据集的版权开放特性使其可直接服务于商业级的图像生成模型微调,赋能文生图应用以生成符合梵高美学特质的创意作品。
数据集最近研究
最新研究方向
在当前多模态生成与理解研究蓬勃发展的浪潮中,openbrush-van-gogh数据集以1,889幅梵高作品为核心,开辟了聚焦单一艺术大师风格、辅以结构化视觉语言模型标注的精细研究方向。该数据集不仅涵盖了梵高从荷兰现实主义时期到后印象派巅峰阶段的技术演变,更通过统一的元数据架构(如TAGS、SUBJECT、COMPOSITION等九个维度)为扩散模型、图像描述生成及视觉语言模型提供了高度组织化的训练素材。其前沿意义在于,研究界可借此深入挖掘特定艺术家独特的笔触、色彩心理学与构图哲学,从而推动艺术风格迁移、个性化图像合成以及艺术家身份自动识别等热点议题。同时,作为OpenBrush-75K系列的子集,它不仅降低了大规模艺术数据处理的算力门槛,更为跨艺术家对比分析与艺术流派演化建模提供了规范性基础,对数字人文与计算艺术学的交叉融合产生了深远影响。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作