AesGuide
收藏github2026-03-10 更新2026-03-12 收录
下载链接:
https://github.com/PKU-ICST-MIPL/Venus_CVPR2026
下载链接
链接失效反馈官方服务:
资源简介:
AesGuide是第一个美学指导数据集和基准,用于赋能多模态大型语言模型(MLLMs)进行美学指导和裁剪。
AesGuide is the first aesthetic guidance dataset and benchmark designed to enable multimodal large language models (MLLMs) to perform aesthetic guidance and image cropping.
创建时间:
2026-02-22
原始信息汇总
Venus 数据集概述
数据集基本信息
- 数据集名称: AesGuide
- 发布机构: PKU-ICST-MIPL
- 相关论文: Venus: Benchmarking and Empowering Multimodal Large Language Models for Aesthetic Guidance and Cropping
- 论文状态: 已被 CVPR 2026 接收
- 论文链接: https://arxiv.org/abs/2602.23980
数据集目的与动机
该数据集旨在解决多模态大语言模型在美学任务上的两个核心问题:
- 美学引导(拍摄中): 现有模型主要提供奉承性反馈,无法识别问题并提供可操作的指导。
- 美学裁剪(拍摄后): 现有模型无法有效重构画面或提供有说服力的解释,而 Venus 框架能产生平衡、视觉上吸引人的裁剪结果并给出清晰的美学原理。
数据集内容与结构
-
主要数据集: AesGuide,首个美学引导数据集和基准。
-
数据用途:
- 用于训练 Venus 框架的第一阶段(美学引导能力构建)。
- 作为评估基准(Benchmark_AesGuide)用于评估模型的美学引导能力。
-
辅助基准: FLMS 基准(Benchmark_FLMS),用于评估模型的美学裁剪能力。
-
数据目录结构:
Venus_CVPR2026 └── data ├── Benchmark_AesGuide/ # AesGuide 评估基准 │ ├── images/ │ └── json/ ├── Benchmark_FLMS/ # FLMS 评估基准 │ ├── images/ │ └── json/ ├── Stage1/ # 第一阶段训练数据 │ ├── images/ │ └── json/ └── Stage2/ # 第二阶段训练数据 ├── images/ └── json/
数据获取与使用
- 获取方式: 需要签署发布协议(
agreement/Release_Agreement.pdf)并发送至指定邮箱(tianxiangdu28@163.com)申请获取。 - 使用条件: 申请者需同意并确认已阅读并理解相关通知。
- 支持模型: 该数据集及方法支持以 Qwen-VL-Chat 为代表的多种骨干模型进行训练与评估。
评估方法
- 第一阶段评估(美学引导):
- 在 AesGuide 基准上进行。
- 步骤:推理 -> GPT 辅助评分(完整性、精确性、相关性三个维度) -> 汇总分数。
- 注意: 原论文使用 gpt-3.5-turbo 作为评估器,但由于相关 API 服务变更,未来计划采用版本明确的新评估器模型并更新代码库。
- 第二阶段评估(美学裁剪):
- 在 FLMS 基准上进行。
- 步骤:推理 -> 提取裁剪坐标 -> 计算分数。
相关资源
- 训练代码: 已发布。
- 预训练模型: 已发布 Venus-Q-Stage1 和 Venus-Q-Stage2 模型(HuggingFace 仓库地址:https://huggingface.co/popo28/Venus-Q-Stage1 与 https://huggingface.co/popo28/Venus-Q-Stage2)。
- 评估代码: 已发布。
搜集汇总
数据集介绍
构建方式
在计算机视觉与美学分析交叉领域,AesGuide数据集作为首个美学引导基准应运而生,旨在系统评估多模态大语言模型在美学指导与裁剪任务中的能力。该数据集的构建遵循严谨的学术范式,通过精心设计的流程收集并标注了大量涵盖多样化场景与美学维度的图像样本。构建过程中,研究者不仅整合了高质量的视觉数据,还引入了结构化的问题-答案对,确保每个样本均包含明确的美学缺陷描述与可执行的改进建议,从而为模型训练提供了丰富且精准的监督信号。
特点
AesGuide数据集的核心特点在于其开创性地将美学引导任务形式化为一个可量化评估的基准。该数据集不仅提供了大规模的图像-文本对,还细致划分了训练与评估子集,支持模型分阶段的能力构建与验证。其标注体系覆盖了美学指导的多个关键维度,如完整性、精确性与相关性,使得模型性能能够被客观、全面地衡量。此外,数据集与Venus框架紧密结合,通过思维链推理机制激活模型的美学裁剪能力,体现了任务设计的前瞻性与实用性。
使用方法
使用AesGuide数据集需遵循其设定的分阶段流程。研究者首先需签署发布协议以获取数据,随后按照指定目录结构组织训练与评估文件。数据集支持基于多种主流多模态大语言模型(如Qwen-VL-Chat)的微调,训练过程分为两个阶段:第一阶段利用AesGuide数据构建模型的美学引导能力;第二阶段通过思维链提示激活模型的美学裁剪功能。评估时,需分别在AesGuide基准与FLMS基准上运行推理脚本,并借助自动化评分工具(如GPT辅助评估)从多维度量化模型输出,最终汇总得分以完成性能分析。
背景与挑战
背景概述
在计算机视觉与多媒体计算领域,美学评估与引导一直是极具挑战性的研究方向,其核心在于模拟人类对视觉内容的审美感知。AesGuide数据集由北京大学媒体计算与智能感知实验室的研究人员杜天翔、何胡凌霄和彭宇新于2026年创建,并作为CVPR会议论文《Venus》的核心组成部分发布。该数据集旨在解决现有多模态大语言模型在美学引导任务中的关键局限,即模型往往仅能提供笼统的赞美,而无法精准识别图像中的美学缺陷并给出具体、可操作的改进建议。作为首个专门针对美学引导任务构建的数据集与基准,AesGuide通过系统化的数据标注,为模型赋予了在拍摄过程中提供实时、有效美学指导的能力,显著推动了智能摄影辅助与自动化图像增强技术的发展。
当前挑战
AesGuide数据集所针对的美学引导任务,其根本挑战在于将主观、模糊的人类审美标准转化为可计算、可操作的客观模型。具体而言,模型需要超越简单的质量评分或风格分类,深入理解构图、光影、色彩平衡等复杂美学要素,并能生成具有针对性的自然语言指导。在数据集构建过程中,研究者面临的主要挑战包括如何设计一套全面且一致的美学缺陷标注体系,以及如何收集涵盖多样化场景、光照条件和构图类型的图像样本,以确保数据的代表性与泛化能力。此外,为每张图像生成高质量、多维度(如完整性、精确性、相关性)的指导文本,并对模型输出进行可靠评估,均需要克服标注成本高昂与主观评判标准难以统一等难题。
常用场景
经典使用场景
在计算机视觉与多媒体领域,美学评估与图像裁剪是提升视觉内容质量的核心任务。AesGuide数据集作为首个美学指导数据集,其经典使用场景在于为多模态大语言模型提供系统性的美学分析与指导能力训练。通过该数据集,模型能够学习识别图像中的美学缺陷,如构图失衡、色彩失调或主体不突出等问题,并生成具体、可操作的美学改进建议,从而在图像拍摄前或后期处理中实现精准的美学引导。
实际应用
在实际应用层面,AesGuide数据集赋能的多模态大语言模型可广泛应用于摄影辅助、社交媒体内容优化、广告设计及影视后期制作等领域。例如,在移动摄影应用中,模型可实时分析取景画面,提供构图调整建议;在商业设计流程中,它能自动化评估图像美学质量,辅助设计师快速产出符合视觉吸引力的作品,显著提升内容创作效率与专业水准。
衍生相关工作
围绕AesGuide数据集,已衍生出多项经典研究工作,其中最具代表性的是Venus框架。该框架采用两阶段训练策略,首先利用AesGuide构建模型的美学指导能力,进而通过思维链推理激活其图像裁剪功能。此外,基于该数据集的美学评估基准也促进了后续研究,如跨模态美学理解模型的优化、自适应裁剪算法的开发,以及面向具体领域的美学增强技术探索。
以上内容由遇见数据集搜集并总结生成



