PortraitCraft
收藏github2026-04-15 更新2026-04-15 收录
下载链接:
https://github.com/yytang25/PortraitCraft
下载链接
链接失效反馈官方服务:
资源简介:
PortraitCraft是一个用于肖像构图理解和生成的基准数据集,支持肖像构图和生成竞赛风格的训练。它包含两个轨道:肖像构图理解和肖像构图生成。数据集发布在Hugging Face上,可用于数据准备、训练和评估。
PortraitCraft is a benchmark dataset for portrait composition understanding and generation, supporting training for competition-style portrait composition and generation tasks. It includes two tracks: portrait composition understanding and portrait composition generation. Released on Hugging Face, this dataset can be used for data preparation, training and evaluation.
创建时间:
2026-04-03
原始信息汇总
PortraitCraft 数据集概述
数据集基本信息
- 数据集名称: PortraitCraft
- 核心用途: 肖像构图理解与生成
- 发布形式: 基准数据集(Benchmark)
- 关联论文: PortraitCraft: A Benchmark for Portrait Composition Understanding and Generation
- 官方实现: 本代码仓库
数据集内容与结构
数据集支持两个独立的竞赛式训练赛道:
| 赛道 | 目录 | 核心任务 |
|---|---|---|
| 赛道 1: 肖像构图理解 | qwen-vl-finetune/ |
针对构图相关理解任务微调 Qwen VL 模型 |
| 赛道 2: 肖像构图生成 | qwen-image-finetune/ |
针对生成任务(如 LoRA)微调 Qwen-Image 模型 |
数据获取与存储
- 数据集地址: https://huggingface.co/datasets/zijielou/PortraitCraft
- 内容: 包含两个赛道共用的训练集和测试集。
- 预训练模型地址: https://huggingface.co/yytang225/PortraitCraft
数据格式与标注
通用JSON数据结构
- 媒体文件路径: 通过
"image"字段指定。 - 提示词中的媒体标签:
<image>用于图像理解任务。
标注实例示例
每个数据实例包含以下关键字段:
"image_path": 图像文件名。"criteria": 包含多个构图评价维度的字典,每个维度提供"score"(分数)和"reason"(理由)。"total_score": 该实例的总分。
评价维度包括:
- Color Harmony(色彩和谐)
- Visual Style Consistency(视觉风格一致性)
- Sharpness(清晰度)
- Light and Shadow Modeling(光影建模)
- Creativity and Originality(创意与原创性)
- Exposure Control(曝光控制)
- Application of Classical Composition Principles(经典构图原则应用)
- Depth of Field and Layering(景深与层次)
- Visual Center Stability(视觉中心稳定性)
- Visual Flow Guidance(视觉流引导)
- Structural Support Stability(结构支撑稳定性)
- Appropriateness of Negative Space(负空间适当性)
- Subject Integrity(主体完整性)
赛道 1: 肖像构图理解
工作流程
- 准备并转换数据集。
- 编辑训练脚本中的模型路径、数据和超参数。
- 训练后进行推理,并将输出转换为标准JSON提交格式。
数据集配置
- 定义结构: 通过
DATASET_NAME字典指定"annotation_path"(标注文件路径)和"data_path"(图像数据路径)。 - 注册数据集: 将定义的数据集添加到
data_dict中。 - 采样率控制: 可在数据集名称后附加
%X(如"dataset_name%50")来指定采样百分比。
训练与评估
- 训练启动脚本: 提供了完整的分布式训练脚本示例,包含模型、数据和训练参数配置。
- 评估脚本:
evaluation/evaluation_multi.py - 结果转换脚本:
convert_json_test.py
赛道 2: 肖像构图生成
工作流程
- 准备数据并转换为竞赛格式。
- 更新
train_configs中的路径和超参数并启动训练。 - 训练后运行评估并按要求导出结果。
关键操作
- 数据转换:
python convert_json_train.py - 模型训练:
accelerate launch train.py --config ./train_configs/train_lora.yaml - 模型评估:
python evaluation.py
依赖与参考
- 主要依赖包: 可通过
qwen-vl-ft/目录下的requirements.txt安装。 - 参考代码:
- 赛道 1: QwenLM/Qwen3-VL
- 赛道 2: FlyMyAI/flymyai-lora-trainer
搜集汇总
数据集介绍

构建方式
PortraitCraft数据集的构建遵循严谨的学术规范,其核心在于系统性地收集与标注高质量的人像摄影样本。该数据集通过专业摄影平台获取原始图像,并邀请具备视觉艺术背景的评审人员,依据一套多维度的美学评价标准进行细致标注。这些标准涵盖色彩和谐、视觉风格一致性、清晰度、光影建模、创意与原创性、曝光控制、经典构图原则应用、景深与层次、视觉中心稳定性、视觉流引导、结构支撑稳定性、负空间适宜性以及主体完整性等十三个关键维度。每个维度不仅提供量化评分,还附有详细的文本解释,从而构建了一个兼具视觉样本与语义描述的大规模结构化数据集。
特点
PortraitCraft数据集最显著的特点在于其对人像构图美学进行了全面而精细的解构与量化。它并非简单的图像集合,而是提供了一个包含丰富语义标注的基准测试平台,专门用于评估和理解人像摄影的构图质量。数据集的设计紧密围绕两个核心任务展开:人像构图理解与人像构图生成,分别对应视觉语言模型的微调与图像生成模型的训练。其标注体系深度融合了摄影艺术理论与计算美学,使得模型能够学习从具体视觉特征到抽象美学评价的映射关系。此外,数据集的结构化格式与主流多模态框架(如Qwen-VL)高度兼容,便于研究人员进行快速的数据加载与模型训练。
使用方法
使用PortraitCraft数据集需根据具体研究目标选择相应路径。对于人像构图理解任务,研究人员需进入`qwen-vl-finetune`目录,按照指定格式准备训练数据,通常需要运行数据转换脚本将原始JSON标注转换为模型可接受的格式。随后,通过配置训练脚本中的模型路径、数据集采样率及超参数(如学习率、批大小、图像分辨率限制等),即可启动基于Qwen-VL等视觉语言模型的微调训练。训练完成后,使用配套的评估脚本对模型性能进行测试,并将输出结果转换为标准提交格式。对于人像构图生成任务,则需在`qwen-image-finetune`目录下,利用类似流程对Qwen-Image等生成模型进行微调,重点关注提示词与生成图像在构图美学上的一致性评估。整个流程强调数据路径的正确配置与模型组件的选择性调优。
背景与挑战
背景概述
PortraitCraft数据集于2025年由研究团队在arXiv上发布,旨在构建一个专注于人像构图理解与生成的基准测试平台。该数据集围绕人像摄影的艺术性与技术性展开,核心研究问题在于如何系统性地量化与评估构图质量,并推动生成式模型在构图美学上的可控性。通过引入多维度评分体系,如色彩和谐、视觉风格一致性、景深层次等,PortraitCraft为人像美学分析提供了结构化数据基础,对计算机视觉与生成式人工智能在艺术创作领域的交叉研究具有显著影响力。
当前挑战
在领域层面,PortraitCraft致力于解决人像构图质量评估这一主观且复杂的挑战,其难点在于将艺术构图原则转化为可量化的机器学习任务,并确保评估标准具备跨场景的鲁棒性。构建过程中,数据集面临标注一致性的难题,需协调多位评审对构图要素进行精细打分,同时平衡数据多样性与标注成本。此外,生成任务要求模型在遵循构图规则的同时保持视觉自然度,这对多模态对齐与细粒度控制提出了更高要求。
常用场景
经典使用场景
在计算机视觉与生成式人工智能领域,肖像构图的理解与生成一直是极具挑战性的研究方向。PortraitCraft数据集通过提供大规模、多维度标注的肖像图像,为研究者构建了一个标准化的评估平台。其经典使用场景主要集中于训练和评估多模态大模型,特别是针对Qwen-VL和Qwen-Image等架构,进行肖像构图美学评分、构图元素分析以及条件性肖像生成任务。该数据集将构图分解为色彩和谐、视觉风格一致性、景深与层次等十余项精细准则,使得模型能够学习专业摄影中的构图逻辑,而非仅仅进行像素级的重建。
实际应用
PortraitCraft数据集的实际应用场景广泛延伸至需要高质量肖像内容的产业领域。在专业摄影与后期制作中,基于该数据集训练的模型可以辅助摄影师进行实时构图分析与优化建议。在影视游戏、广告设计及社交媒体内容创作行业,模型能够根据指定的构图风格自动生成或修饰人物肖像,大幅提升内容生产的效率与一致性。此外,在在线教育平台,此类技术可用于构建智能摄影教学工具,为学习者提供基于具体图像的构图要点分析与改进反馈,实现个性化的技能培训。
衍生相关工作
围绕PortraitCraft数据集,学术界已衍生出一系列探索构图感知生成与理解的经典工作。这些工作主要沿两个方向展开:一是基于该数据集的细粒度标注,开发更精准的视觉语言模型,用于肖像质量评估与归因分析;二是利用其构建的生成-理解闭环,训练端到端的可控肖像生成系统,实现通过自然语言指令调整构图属性。相关研究不仅推动了Qwen-VL等特定模型在视觉理解任务上的性能边界,也催生了新的模型训练范式,例如将构图准则作为强化学习的奖励信号,引导生成模型输出更具美学价值的图像。
以上内容由遇见数据集搜集并总结生成



