five

openbrush-monet

收藏
Hugging Face2026-05-08 更新2026-05-09 收录
下载链接:
https://huggingface.co/datasets/jaddai/openbrush-monet
下载链接
链接失效反馈
官方服务:
资源简介:
OpenBrush Monet是一个专注于克劳德·莫奈作品的精选数据集,源自OpenBrush-75K数据集。包含1,334幅莫奈绘画作品,每幅都配有由Qwen3-VL-30B-A3B模型生成的结构化描述,详细涵盖主题、动作、场景、情绪、风格、光线、色彩和构图等方面。适用于图像到文本、文本到图像和图像分类等任务,特别适合研究印象派艺术。采用MIT许可证,所有艺术作品均属公共领域(艺术家均于1954年前去世)。结构化描述是原创作品,同样采用MIT许可证发布。

OpenBrush Monet is a curated dataset centered on the artistic works of Claude Monet, originating from the OpenBrush-75K dataset. It contains 1,334 paintings created by Monet, with each piece paired with structured descriptions generated by the Qwen3-VL-30B-A3B model. These descriptions comprehensively cover multiple dimensions including theme, depicted actions, scene setting, emotional tone, artistic style, lighting conditions, color palette and compositional structure. The dataset is applicable to tasks such as image-to-text, text-to-image and image classification, and is particularly well-suited for research on Impressionist art. It is licensed under the MIT License, and all included artworks are in the public domain, as their respective artists died prior to 1954. The structured descriptions are original creations, also released under the MIT License.
创建时间:
2026-04-27
原始信息汇总

OpenBrush Monet 数据集详情

数据集概述

OpenBrush Monet 是从 jaddai/openbrush-75k 数据集中筛选出的子集,专注于克劳德·莫奈(Claude Monet)的全部作品。该子集包含莫奈标志性的印象派作品,如干草堆、睡莲、鲁昂大教堂和吉维尼花园场景,并配有详细的 VLM(视觉语言模型)结构化描述。

核心统计

  • 总图片数: 1,334 张
  • 数据来源: OpenBrush-75K v1.1(筛选子集)
  • 许可证: MIT
  • 描述结构: v2 结构化(包含 9 个独立字段)

数据用途

适用于以下任务类型:

  • 图像到文本(image-to-text)
  • 文本到图像(text-to-image)
  • 图像分类(image-classification)

数据模式(Schema)

字段 类型 描述
id string 唯一标识符
image Image 艺术作品(PNG 格式)
width int 图像宽度(像素)
height int 图像高度(像素)
artist string 艺术家名称
style string 艺术运动/风格
genre string 流派
tags list[string] 标准化描述标签
subject string 主要主题描述
action string 动态、姿态、事件描述
setting string 环境与背景
mood string 情绪与氛围
style_description string 艺术技巧与风格分析
lighting string 光线方向、质量与色温
color string 调色板与色彩关系
composition string 构图、平衡与焦点
caption_full string 完整结构化描述
source_file string 原始文件名

描述结构说明

每条数据包含完整的 caption_full 字段,以及 9 个独立的结构化字段:

  • TAGS: 逗号分隔的标准化描述标签
  • SUBJECT: 主要主题描述
  • ACTION: 运动、姿态与事件
  • SETTING: 环境与背景
  • MOOD: 情感基调与氛围
  • STYLE: 艺术技巧与风格分析
  • LIGHTING: 光线方向、质量与色温
  • COLOR: 调色板与色彩关系
  • COMPOSITION: 构图、平衡与焦点

数据加载示例

python from datasets import load_dataset

dataset = load_dataset("jaddai/openbrush-monet") print(len(dataset["train"])) # 输出: 1,334

example = dataset["train"][0] print(example["caption_full"])

与父数据集的关系

  • 该子集是 jaddai/openbrush-75k v1.1 的筛选切片
  • 所有图像、描述和元数据均与父数据集完全一致,未经重新描述或修改
  • 筛选条件等价于父数据集中的:artist == "Claude Monet"
  • 如需完整的 75,313 幅绘画语料,请使用父数据集

相关子集

  • jaddai/openbrush-van-gogh
  • jaddai/openbrush-renoir
  • jaddai/openbrush-rembrandt
  • jaddai/openbrush-impressionism
  • jaddai/openbrush-renaissance
  • jaddai/openbrush-ukiyo-e
  • jaddai/openbrush-baroque
  • jaddai/openbrush-landscapes
  • jaddai/openbrush-portraits
  • jaddai/openbrush-religious-art
  • jaddai/openbrush-anonymous-masters
  • jaddai/openbrush-impressionist-landscapes

许可证与版权

  • 许可证: MIT
  • 作品版权: 底层艺术作品均属于公共领域(所有艺术家逝世于 1954 年之前)
  • 描述版权: 结构化描述为原创作品,以 MIT 许可证发布

技术说明

  • 描述生成模型:Qwen3-VL-30B-A3B
  • 标签标准化:借助基于 LLM 的语义映射辅助完成
搜集汇总
数据集介绍
main_image_url
构建方式
openbrush-monet数据集是从jaddai/openbrush-75k海量艺术画作语料库中精心筛选而得的子集,专注于克劳德·莫奈的个人作品。构建方式简洁而高效:通过艺术家字段过滤(artist == "Claude Monet"),从75,313幅画作中精准提取出1,334幅莫奈的经典之作,包括干草堆、睡莲、鲁昂大教堂和吉维尼花园等系列。所有图像与元数据均源自原始数据集,未作任何修改或重新标注,确保了数据的一致性与纯净性。
使用方法
使用此数据集极为便捷。用户可通过HuggingFace的datasets库一行代码加载:`dataset = load_dataset("jaddai/openbrush-monet")`,随后直接访问训练集中1,334条样本。每条样本包含完整的结构化标题字段,可直接用于图像描述生成、文本到图像合成、风格迁移、视觉语言模型微调等任务。若需获取完整OpenBrush语料库,建议使用父级数据集;针对莫奈专题研究,此子集可大幅节省带宽与存储资源,提升实验效率。
背景与挑战
背景概述
OpenBrush-Monet数据集由研究者jaddai于2026年创建,源自OpenBrush-75K大规模公共领域绘画语料库,旨在为计算机视觉与多模态研究提供专注于克劳德·莫奈作品的精细化子集。该数据集汇集了1334幅莫奈经典印象派画作,涵盖干草堆、睡莲、鲁昂大教堂等标志性题材,并利用Qwen3-VL-30B-A3B视觉语言模型生成了结构化的分层描述。作为图像描述、文本到图像生成及扩散模型等领域的重要资源,OpenBrush-Monet以MIT许可证公开,极大便利了针对单一艺术家风格与光影特性的深度学习研究,推动了艺术数字人文与生成式AI的交叉发展。
当前挑战
该数据集所解决的领域挑战在于,现有绘画数据集多涵盖广泛艺术家与风格,缺乏对特定大师作品精细标注的专注性资源,导致模型难以捕捉莫奈笔触中的光影渐变与色彩微妙性。构建过程中,从包含逾七万幅画作的母集中精准筛选并保留莫奈作品,需克服元数据噪声与归属模糊性问题;同时,利用VLM生成结构化描述时,需确保对印象派特有的光线质量、调色板及氛围处理的语义准确性,避免通用标注丢失艺术鉴赏的细节深度,是平衡规模化生成与专业精度的重要挑战。
常用场景
经典使用场景
OpenBrush Monet数据集汇聚了克劳德·莫奈1334幅印象派杰作,包括干草堆、睡莲、鲁昂大教堂及吉维尼花园等经典主题。该数据集为每幅画作提供了结构化的视觉语言模型描述,涵盖标签、主题、动作、环境、情绪、风格、光照、色彩与构图九个维度,特别聚焦于光线质量、调色板与氛围处理的细节刻画。在图像理解与生成领域,研究者常将其作为印象派艺术风格迁移的基准,或用于训练能够捕捉光影微妙变化的扩散模型与视觉语言模型。其精简的规模与高标注质量,使其成为验证单艺术家风格建模、细粒度艺术特征提取等任务的理想起点。
解决学术问题
该数据集有效解决了艺术计算中多维度语义标注缺失的难题,为解析印象派视觉语言的量化研究提供了结构化数据基础。通过精细化的分类字段,它支持学术探索光线与色彩在绘画中的函数关系建模,推动了艺术风格自动识别从粗粒度到细粒度的跃迁。此外,数据集弥合了计算机视觉与艺术史之间的鸿沟,使研究者能够系统分析莫奈在不同时期、不同主题下的风格演变规律,为理解印象派运动的视觉特征提供了可复现的实证依据。其影响辐射至跨模态学习领域,促进了视觉与语言联合表征在艺术场景中的深度应用。
实际应用
在实际应用层面,OpenBrush Monet数据集为艺术教育工具与创意生成平台注入了新颖动力。基于该数据训练的模型可辅助博物馆开发智能导览系统,自动为观众生成富有诗意的画作解读,提升观赏体验。在文化遗产数字化保护中,它助力高保真度风格迁移算法,使手机应用能实时将用户照片转化为莫奈风格的印象派图像。同时,电商设计领域利用其调色与构图特征,生成具有艺术化视觉效果的广告素材。数据集还赋能AI绘画社区,为爱好者提供精准的风格参照,降低了艺术创作的门槛,让更多人能体验到印象派美学的魅力。
数据集最近研究
最新研究方向
在人工智能与艺术史交叉的前沿领域,openbrush-monet数据集聚焦于对印象派大师莫奈作品的细粒度视觉语言理解与生成。该数据集从OpenBrush-75K语料库中精选1,334幅莫奈经典画作,涵盖干草堆、睡莲、鲁昂大教堂等标志性主题,并由Qwen3-VL-30B-A3B多模态大模型生成结构化描述,精细标注光线氛围、色彩关系与大气效果。当前研究热点的核心在于利用此类高质量、单艺术家、结构化的图文数据,推动扩散模型与视觉语言模型对艺术风格语义的深度建模,特别是捕捉印象派瞬息万变的光影特征与笔触韵律。该子集的出现有效降低了大规模多模态研究的资源门槛,为探究艺术风格迁移、自动化艺术批评、以及基于文本条件控制的精细画作生成提供了标准化的实验基底,其MIT许可与公开领域属性更促进了学术界与文化机构在数字人文领域的协作探索。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作