five

openbrush-portraits

收藏
Hugging Face2026-05-09 更新2026-05-10 收录
下载链接:
https://huggingface.co/datasets/jaddai/openbrush-portraits
下载链接
链接失效反馈
官方服务:
资源简介:
OpenBrush Portraits 是一个精选的子集,源自 OpenBrush-75K 数据集,专注于肖像画。该数据集包含 13,059 幅跨越不同艺术家、流派和世纪的肖像画,适用于多样化的历史绘画风格肖像训练数据。数据集采用 MIT 许可证,所有艺术品均为公共领域(艺术家均于 1954 年前去世)。每幅画作配有详细的结构化标注,包括 9 个独立字段:TAGS(标签)、SUBJECT(主题)、ACTION(动作)、SETTING(场景)、MOOD(情绪)、STYLE(风格)、LIGHTING(光线)、COLOR(色彩)和 COMPOSITION(构图)。此外,还提供完整的结构化标注(caption_full)。数据集字段包括唯一标识符(id)、图像(image)、宽度(width)、高度(height)、艺术家(artist)、风格(style)、流派(genre)、标签列表(tags)以及各标注字段。数据集适用于图像到文本、文本到图像、图像分类等任务。
创建时间:
2026-04-27
原始信息汇总

OpenBrush Portraits 数据集详情

数据集概述

OpenBrush Portraits 是从 jaddai/openbrush-75k 数据集中筛选出的肖像画子集,包含跨越所有艺术家、艺术运动和世纪的历史肖像画作。该子集专为需要多样化历史绘画风格肖像训练数据的用户设计。

核心统计

  • 图片总数: 13,059 张
  • 数据来源: OpenBrush-75K v1.1(筛选子集)
  • 许可证: MIT
  • 标注模式: v2 结构化标注

筛选条件

从父数据集中按 genre == "portrait" 筛选得到。覆盖广泛历史时期,包括文艺复兴半身肖像、巴洛克明暗对比、洛可可社交、浪漫主义、现实主义、印象派、后印象派、表现主义等。

数据模式 (Schema)

字段 类型 描述
id string 唯一标识符
image Image 艺术品图像(PNG 格式)
width int 图像宽度(像素)
height int 图像高度(像素)
artist string 艺术家姓名
style string 艺术运动/风格
genre string 体裁
tags list[string] 标准化描述标签
subject string 主体描述
action string 动作、姿态
setting string 环境和背景
mood string 情感基调和氛围
style_description string 艺术技巧和风格分析
lighting string 光线方向、质量、色温
color string 调色板和色彩关系
composition string 构图、平衡、焦点
caption_full string 完整结构化标注
source_file string 原始文件名

标注结构

每条数据包含 caption_full 及 9 个独立字段:

  • TAGS: 逗号分隔的标准化描述标签
  • SUBJECT: 主要主体描述
  • ACTION: 运动、姿态、发生的事件
  • SETTING: 环境和背景
  • MOOD: 情感基调和氛围
  • STYLE: 艺术技巧和风格分析
  • LIGHTING: 光线方向、质量、色温
  • COLOR: 调色板和色彩关系
  • COMPOSITION: 构图、平衡、焦点

与父数据集的关系

本数据集是 jaddai/openbrush-75k v1.1 的一个筛选切片。所有图像、标注和元数据与父数据集中完全一致,未进行任何重新标注或修改。若需要完整的 75,313 幅画作,请使用父数据集。

使用示例

python from datasets import load_dataset

dataset = load_dataset("jaddai/openbrush-portraits") print(len(dataset["train"])) # 13,059

example = dataset["train"][0] print(example["caption_full"])

引用信息

bibtex @dataset{openbrush_openbrush_portraits, title={OpenBrush Portraits}, author={jaddai}, year={2026}, publisher={Hugging Face}, url={https://huggingface.co/datasets/jaddai/openbrush-portraits}, note={Curated subset of openbrush-75k} }

搜集汇总
数据集介绍
main_image_url
构建方式
OpenBrush Portraits是从大规模绘画数据集OpenBrush-75K中精心筛选出的肖像画子集,共计13,059幅图像。该子集严格沿用父数据集的MIT许可协议、标注模式与视觉语言模型(Qwen3-VL-30B-A3B)生成的描述体系,未对图像或标注信息进行任何二次修改。构建过程依据父数据集中'genre'字段条件(genre == 'portrait')进行过滤,从而在保留艺术家、流派、年代等多维元数据的同时,实现数据量的精确压缩与聚焦。
特点
该数据集横跨文艺复兴、巴洛克、洛可可、浪漫主义、现实主义、印象派、后印象派及表现主义等众多艺术运动,涵盖半身肖像、戏剧性明暗对比、社会群像等丰富画种。每条样本不仅包含图像本身,还提供9个结构化的标注字段(TAGS / SUBJECT / ACTION / SETTING / MOOD / STYLE / LIGHTING / COLOR / COMPOSITION)以及完整的组合描述文本'caption_full',形成了高度系统化的绘画语义层次,便于多模态模型进行细粒度理解与生成。
使用方法
用户可通过Hugging Face Datasets库直接加载,仅需调用load_dataset('jaddai/openbrush-portraits')即可获取包含13,059个样本的训练集。每个样本以parquet格式存储,包含图像二进制数据、尺寸、艺术家、风格、流派等元信息,以及结构化描述字段。该子集特别适用于肖像画风格迁移、受限图像生成、图像描述(captioning)以及视觉语言模型的微调任务,亦可作为历史绘画风格多样性研究的数据底座。
背景与挑战
背景概述
OpenBrush Portraits数据集由研究者jaddai于2026年创建,源自OpenBrush-75K v1.1版本,专注于从横跨文艺复兴、巴洛克、洛可可、浪漫主义、现实主义、印象派及表现主义等众多艺术运动的13,059幅肖像画作中提炼高质量数据。该数据集以MIT许可协议发布,采用结构化的VLM(Qwen3-VL-30B-A3B)生成标题,包含TAGS、SUBJECT、ACTION等九维度注释体系,旨在为图像描述、文本到图像生成、图像分类及视觉语言模型提供精细化的艺术肖像数据基础。作为开原艺术数据领域的重要分支,它有效缓解了现有数据集在历史绘画风格多样性上的不足,助力细粒度艺术分析与生成任务的发展。
当前挑战
该数据集面临的核心挑战包括:其一,肖像画跨风格识别难题——从文艺复兴细腻写实到表现主义抽象变形,模型需理解不同时代、画派在构图、光线、情感表达上的根本差异,现有通用图像分类器在此类历史跨度内容上常出现风格混淆。其二,结构化描述构建的复杂性——利用大语言模型生成九维标签需保证术语一致性(如“明暗对比法”在巴洛克与浪漫主义中的不同定义),父数据集75,313幅的体量对标注质量控制与语义映射算法提出了严苛要求,过滤出的肖像子集需额外处理帽子、珠宝等常见配饰导致的主题歧义问题。
常用场景
经典使用场景
在计算机视觉与多模态生成领域,openbrush-portraits数据集汇聚了横跨文艺复兴、巴洛克、洛可可、浪漫主义、现实主义、印象派及表现主义等艺术流派的13,059幅肖像画作,为研究者提供了一座跨越数百年的视觉艺术宝库。其经典使用场景集中于图像描述生成,尤其是针对历史绘画风格肖像的精细化结构化描述——每幅图像均附有TAGS、SUBJECT、ACTION、SETTING、MOOD、STYLE、LIGHTING、COLOR、COMPOSITION九大维度的标注,支持从主体、动作到光影、色彩的全方位解析,成为训练视觉语言模型进行艺术领域多模态理解与文本生成任务的理想基石。
衍生相关工作
基于该数据集,学术界已衍生出一系列经典工作,包括面向艺术图像的结构化描述生成模型、跨风格肖像画检索系统以及基于VLM的艺术批评辅助工具。Hugging Face社区围绕其父数据集openbrush-75K构建了多个专业化子集,如聚焦单一艺术家的openbrush-van-gogh与openbrush-rembrandt,以及按流派划分的openbrush-impressionism与openbrush-baroque,形成了从整体到局部的分层研究体系。这些派生数据集使研究者能够针对特定艺术运动或大师风格开展精准的对比实验,进一步催生了风格可控的图像生成、艺术史时间轴的可视化分析等前沿探索。
数据集最近研究
最新研究方向
该数据集聚焦于跨越文艺复兴至表现主义等多元历史时期的肖像画作,为视觉语言模型与图像生成领域提供了高度结构化的标注资源。近期前沿研究方向集中于利用其精细的语义标签体系(如主体、动作、情绪、光线等九维度描述)训练扩散模型及多模态理解系统,以提升对艺术风格、历史语境及情感氛围的精准捕捉与再创造能力。关联热点事件包括AIGC在文化遗产数字化中的广泛应用,以及视觉模型对艺术史知识嵌入的探索,该数据集作为连接古典艺术与当代生成技术的桥梁,对推动艺术风格迁移、文化传播与智能创作的教育意义深远。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作