AesGuide

Name: AesGuide
Creator: 北京大学·计算机技术研究所
Published: 2026-02-27 20:47:31
License: 暂无描述

arXiv2026-02-27 更新2026-03-03 收录

下载链接：

https://github.com/PKU-ICST-MIPL/Venus_CVPR2026

下载链接

链接失效反馈

官方服务：

资源简介：

AesGuide是由北京大学团队构建的首个面向美学指导任务的大规模数据集，包含10,748张真实场景照片，每张均标注了美学评分、专业分析和拍摄改进建议。该数据集通过爬取网络平台照片与专业摄影师合作采购双重渠道构建，采用两阶段标注框架（MLLM初步提炼+专家人工修正）确保质量，重点解决现有模型在美学缺陷识别和可操作建议生成方面的不足。其核心应用领域为计算美学，旨在通过数据驱动方式提升多模态大模型在拍摄指导（如构图优化、光线调整）和后期裁剪中的解释性与交互能力。

AesGuide is the first large-scale dataset dedicated to aesthetic guidance tasks, constructed by a team from Peking University. It comprises 10,748 real-world scene photographs, each annotated with aesthetic scores, professional analyses, and actionable shooting improvement suggestions. This dataset is built through two channels: crawling photos from online platforms and procuring relevant materials in collaboration with professional photographers. It adopts a two-stage annotation framework (MLLM-based preliminary extraction + expert manual revision) to ensure data quality, primarily addressing the limitations of existing models in aesthetic defect recognition and actionable suggestion generation. Its core application domain is computational aesthetics, aiming to enhance the interpretability and interactivity of multimodal large language models in shooting guidance such as composition optimization, lighting adjustment and post-production cropping through data-driven approaches.

提供机构：

北京大学·计算机技术研究所

创建时间：

2026-02-27

搜集汇总

数据集介绍

构建方式

在计算美学领域，针对现有数据集多侧重于美学感知与描述、且评价往往过于正面化的问题，AesGuide数据集通过创新的美学指导生成框架（AGGF）构建而成。该框架整合了多模态大语言模型（MLLM）的提炼与专家标注两个阶段：首先利用GPT-4o等模型对从在线平台爬取或与专业摄影师合作获取的原始评论进行分析与总结；随后由包括自由摄影师、工作室专家在内的20名专业人士进行审核与修订，将内容规范为美学分析与美学指导两部分，并采用交叉评审与集体讨论机制确保标注质量与一致性，最终形成了包含10,748张真实世界照片的大规模数据集。

使用方法

该数据集主要用于训练与评估多模态大语言模型的美学指导与美学裁剪能力。在训练层面，研究者可利用其进行监督式指令微调，通过设计从整体印象到细节分析再到具体指导的渐进式复杂问题，使模型逐步习得类人的美学推理能力。在评估层面，其构建的基准测试可用于系统比较不同模型在生成批判性分析、识别视觉问题及提供可行建议等方面的表现。此外，基于AesGuide训练得到的、具备AG能力的模型，可作为后续激活美学裁剪等高级视觉编辑任务的基础，通过思维链（CoT）原理将空间决策与美学逻辑相融合，实现可解释、可交互的图像美学优化。

背景与挑战

背景概述

随着智能手机摄影的普及，普通用户与专业摄影师在美学判断与指导能力上存在显著差距。为弥合这一鸿沟，北京大学王选计算机研究所的研究团队于2026年正式提出了AesGuide数据集。该数据集旨在解决计算美学领域一个长期被忽视的核心问题：美学指导。美学指导要求模型不仅能评估图像的美学质量，更能识别具体的美学缺陷并提供可操作的拍摄改进建议。AesGuide作为首个专注于该任务的大规模基准，包含了10,748张真实世界照片，每张都标注了美学评分、专业分析和具体指导，标志着计算美学研究从被动评估向主动、可操作指导的重要范式转变，对推动智能摄影辅助工具的发展具有深远影响。

当前挑战

AesGuide数据集致力于解决美学指导这一复杂任务的挑战。首要挑战在于其解决的核心领域问题：如何使多模态大语言模型超越单纯的美学评分或赞美性描述，具备像专业摄影师一样精准识别构图失衡、光线不当等美学缺陷，并生成具体、可执行的改进建议（如调整拍摄角度、改变取景范围）的能力。在数据集构建过程中，团队面临多重挑战：一是原始网络评论数据存在噪声与不一致性，难以直接用于监督学习；二是确保标注的高质量与专业性，需要设计融合大模型提炼与多领域专家协同标注的复杂流程；三是建立可靠的评估基准，需克服传统多项选择评测的局限性，设计能够全面衡量生成内容的完整性、准确性与相关性的新型评估维度与指标。

常用场景

经典使用场景

在计算美学领域，AesGuide数据集为美学指导任务提供了首个大规模基准。该数据集最经典的应用场景在于训练和评估多模态大语言模型，使其能够像专业摄影师一样，在拍摄过程中识别构图、光线等美学缺陷，并提供可操作的改进建议。通过包含美学评分、分析和具体指导的三元标注，模型得以学习从整体印象到细节分析，最终生成针对性调整方案的渐进式推理过程，从而弥合普通用户与专业摄影之间的美学认知鸿沟。

解决学术问题

AesGuide数据集主要解决了计算美学中长期存在的两个核心学术问题。其一，它突破了现有美学数据集仅侧重于被动评分与描述的局限，首次将研究焦点转向主动的美学指导，即如何识别图像缺陷并提供具体改进方案。其二，该数据集通过高质量的问题识别与拍摄指导标注，有效应对了现有多模态大语言模型在美学任务中普遍存在的“过度褒奖”倾向与解释性不足的挑战，为模型与人类美学推理过程的对齐提供了可靠的数据基础。

实际应用

该数据集的实际应用场景紧密贴合大众摄影的日常需求。基于AesGuide训练的模型可集成于智能手机摄影应用或专业后期软件中，为用户提供实时的拍摄辅助。例如，在取景构图时，系统能即时指出背景杂乱、主体不突出等问题，并建议调整拍摄角度或使用特定光效；在后期编辑阶段，则可基于美学原理智能推荐裁剪区域，并解释其背后的构图逻辑。这种交互式、可解释的美学增强功能，显著提升了普通用户的摄影成品质量与创作体验。

数据集最近研究