openbrush-rembrandt
收藏Hugging Face2026-05-08 更新2026-05-09 收录
下载链接:
https://huggingface.co/datasets/jaddai/openbrush-rembrandt
下载链接
链接失效反馈官方服务:
资源简介:
OpenBrush Rembrandt 是一个精选的子数据集,源自 OpenBrush-75K,专门收录了伦勃朗的绘画、蚀刻和素描作品。该数据集包含 776 幅图像,每幅图像都配有详细的结构化描述,涵盖主题、动作、场景、情绪、风格、光线、色彩和构图等多个方面。数据集适用于图像到文本、文本到图像和图像分类等任务,特别适合需要学习伦勃朗独特艺术风格(如单光源定向照明、深阴影和暖色调)的模型。所有图像均为公共领域作品,结构化描述则基于 MIT 许可发布。数据集还提供了唯一的标识符、图像尺寸、艺术家信息、风格流派等元数据字段。
创建时间:
2026-04-27
原始信息汇总
数据集概述:OpenBrush Rembrandt
OpenBrush Rembrandt 是 jaddai/openbrush-75k 数据集的子集,专注于荷兰巴洛克艺术家伦勃朗(Rembrandt)的全部作品,包括油画、蚀刻版画和素描。
数据集用途
- 任务类别: 图像到文本、文本到图像、图像分类
- 典型应用: 图像描述生成、扩散模型训练、视觉语言模型微调、艺术风格学习(如伦勃朗标志性的明暗对比、单光源定向照明、深色阴影与暖土色调)
- 适用语言: 英文
数据集规模与来源
- 图像总数: 776 张
- 数据源: 从 OpenBrush-75K v1.1 中按
artist == "Rembrandt"条件筛选而来 - 类型: 公共领域艺术作品(所有艺术家于 1954 年前去世)
- 许可证: MIT
数据模式与字段说明
数据集中每条记录包含以下字段:
| 字段 | 类型 | 描述 |
|---|---|---|
id |
string | 唯一标识符 |
image |
Image | 艺术作品图像(PNG 格式) |
width |
int | 图像宽度(像素) |
height |
int | 图像高度(像素) |
artist |
string | 艺术家名称 |
style |
string | 艺术运动/风格 |
genre |
string | 艺术流派 |
tags |
list[string] | 标准化描述标签 |
subject |
string | 主体描述 |
action |
string | 动作、姿态 |
setting |
string | 环境与背景 |
mood |
string | 情感基调与氛围 |
style_description |
string | 艺术技巧与风格分析 |
lighting |
string | 光照方向、质量、色温 |
color |
string | 调色板与色彩关系 |
composition |
string | 构图、平衡、焦点 |
caption_full |
string | 完整结构化描述 |
source_file |
string | 原始文件名 |
标注说明
- 标注模型: 使用 Qwen3-VL-30B-A3B 生成
- 标注格式: v2 结构化描述(包含 TAGS / SUBJECT / ACTION / SETTING / MOOD / STYLE / LIGHTING / COLOR / COMPOSITION 九个方面的独立字段及完整的
caption_full字段) - 与父数据集关系: 所有图像、描述与元数据与父数据集完全相同,未进行二次描述或修改
加载示例
python from datasets import load_dataset
dataset = load_dataset("jaddai/openbrush-rembrandt") print(len(dataset["train"])) # 776
example = dataset["train"][0] print(example["caption_full"])
相关子集
该数据集是 OpenBrush-75K 系列子集之一,同样按艺术家或艺术风格筛选的其他子集包括:
- openbrush-van-gogh
- openbrush-monet
- openbrush-renoir
- openbrush-impressionism
- openbrush-renaissance
- openbrush-ukiyo-e
- openbrush-baroque
- openbrush-landscapes
- openbrush-portraits
- openbrush-religious-art
- openbrush-anonymous-masters
- openbrush-impressionist-landscapes
许可与引用
- 许可证: MIT(底层艺术作品为公共领域,结构化描述以 MIT 协议发布)
- 建议引用格式: bibtex @dataset{openbrush_openbrush_rembrandt, title={OpenBrush Rembrandt}, author={jaddai}, year={2026}, publisher={Hugging Face}, url={https://huggingface.co/datasets/jaddai/openbrush-rembrandt}, note={Curated subset of openbrush-75k} }
搜集汇总
数据集介绍

构建方式
OpenBrush Rembrandt数据集源自规模宏大的OpenBrush-75K语料库,通过精细的艺术家筛选策略,仅保留其中归属于伦勃朗的作品。该筛选过程等价于在父数据集中执行`artist == "Rembrandt"`的过滤操作,共提取出776幅涵盖油画、蚀刻版画与素描的珍贵艺术杰作。所有图像与元数据均保持原始状态,未经过二次标注或修改,确保了数据纯净性与可溯源性。每幅作品均配有一套结构化标注体系,由Qwen3-VL-30B-A3B视觉语言模型生成,包含标签、主体、动作、环境、情绪、风格、光照、色彩与构图九个维度的细致描述,形成了层次分明、语义丰富的注释框架。
特点
该数据集的核心魅力在于其聚焦于巴洛克时期明暗对照法的巅峰代表——伦勃朗的独幅作品集。数据集中的图像精准捕捉了伦勃朗标志性的单一方向光源、深邃阴影与温暖大地色系调色板,为深度学习模型提供了学习戏剧性光线处理的绝佳范例。题材涵盖宗教场景、肖像画、自画像与圣经叙事,展现了艺术家全方位的创作广度。尽管规模精简至不足千幅,但其结构化标注的精细程度(九大描述字段)与艺术风格的纯粹性,使其在图像描述、文本到图像生成以及视觉语言模型微调等任务中,成为研究特定艺术风格的理想小型高质资源。
使用方法
用户可通过HuggingFace Datasets库便捷加载该数据集,仅需一行Python命令`dataset = load_dataset("jaddai/openbrush-rembrandt")`即可获取训练分割中的776个样本。每个样本以字典形式返回,包含图像字节流、尺寸、艺术家信息、九大结构化描述字段以及完整的合成描述`caption_full`。该数据集兼容图像到文本、文本到图像及图像分类等多种任务范式。对于希望避免下载完整OpenBrush-75K数据集(含75,313幅图像)以节省带宽与存储的研究者,此子集提供了高效且精准的替代方案,直接聚焦于伦勃朗艺术风格的建模与生成研究。
背景与挑战
背景概述
OpenBrush Rembrandt 数据集创建于2026年,由研究者 jaddai 从 OpenBrush-75K 语料库中精心筛选而出,聚焦于巴洛克艺术巨匠伦勃朗的776件绘画、蚀刻与素描作品。该数据集以 MIT 许可协议公开,旨在为视觉语言模型与图像生成领域提供高度结构化的单艺术家资源。伦勃朗作为明暗对比技法的集大成者,其作品蕴含着单一光源定向照明、深邃阴影与暖色调土色系等独特视觉特征,对于探索艺术风格迁移、图像描述生成及细粒度视觉理解至关重要。作为 OpenBrush 系列的精炼子集,该数据集不仅降低了研究者获取目标数据的存储与带宽成本,更推动了艺术计算领域对单一大师风格的系统性建模,为计算机视觉与艺术史交叉研究提供了宝贵基准。
当前挑战
该数据集所解决的领域挑战在于,现有大规模艺术数据集常混杂众多艺术家与流派的图像,导致模型难以精准捕捉特定大师的独特视觉语言。伦勃朗作品中的戏剧性光影、多层次情感氛围与复杂的叙事构图,要求视觉模型具备超越普通分类任务的深度感知能力。在构建过程中,研究团队需从包含75,313幅图像的 OpenBrush-75K 中精确筛选伦勃朗作品,确保每件作品的归属准确性,并克服图像来源分散、标注标准不一等难题。同时,依托 Qwen3-VL-30B-A3B 模型自动生成结构化描述,虽提升了效率,但自动标注的准确性、多义词歧义及对伦勃朗特定技法的精准刻画仍是挑战,需通过人工校验与语义映射优化以保证数据质量。
常用场景
经典使用场景
OpenBrush-Rembrandt数据集汇聚了荷兰巴洛克艺术巨匠伦勃朗的绘画、蚀刻版画与素描作品,共计776幅高清图像,每幅图像均配有由Qwen3-VL-30B-A3B视觉语言模型生成的结构化标注,涵盖主题、动作、环境、情绪、风格、光线、色彩与构图八个维度。这一精细化的标注体系使得该数据集成为训练图像描述模型的理想素材,尤其在需要捕捉巴洛克明暗对比风格与戏剧性用光的任务中表现出色。研究者可借此数据集微调视觉语言模型,使其精准理解并复现伦勃朗标志性的单光源定向照明与暖色土调色板,从而在艺术图像生成与自动描述领域开辟新的探索路径。
实际应用
在实际应用中,OpenBrush-Rembrandt展现出了多元化的转化潜力。艺术教育领域可以借助该数据集训练自动化导览系统,为博物馆观众提供基于图像内容的实时解说,生动阐释每幅作品的光线处理与叙事结构。在文化遗产数字化保护中,它可作为生成对抗网络的训练素材,智能修复受损画作的原始色调与细节。广告与影视行业则可利用该数据集微调文生图模型,快速生成具有巴洛克风格韵味的视觉素材,如戏剧性光影效果的海报或复古质感的概念图。同时,基于结构化标注开发的图像检索工具,能帮助设计师按光线方向或色彩情绪等复合标签精准查找参考作品,极大提升创作效率。
衍生相关工作
围绕OpenBrush-Rembrandt数据集,业界已衍生出一系列具有启发性的学术工作。其母数据集OpenBrush-75K的构建方法论,即利用高级视觉语言模型对艺术图像进行多维度结构化标注,为后续单一艺术家子集的创建提供了标准范式。同系列中梵高、莫奈、雷诺阿等子集的推出,形成了可供比较分析的艺术家风格数据库,促进了跨风格艺术生成任务的蓬勃发展。在此基础上,研究者进一步拓展出针对不同艺术运动(如印象派、文艺复兴)的进阶子集,以及聚焦特定主题(如风景、肖像、宗教艺术)的垂直子集,共同构建起一座层次丰富、覆盖全面的艺术计算分析资源库,有力推动了艺术与人工智能交叉领域的持续创新。
以上内容由遇见数据集搜集并总结生成



