CogIP-Bench (Cognition Image Property Benchmark)

github2025-12-01 更新2025-12-02 收录

下载链接：

https://github.com/Follen-cry/MLLM_Cognition_Alignment

下载链接

链接失效反馈

官方服务：

资源简介：

CogIP-Bench是一个用于评估和对齐多模态大语言模型在人类认知感知方面的数据集，涵盖美学、趣味性、情感效价和可记忆性四个关键维度。它包含训练集（3,200个示例）和测试集（480个示例），用于支持模型的监督微调和基准测试。

CogIP-Bench is a dataset dedicated to evaluating and aligning multimodal large language models in terms of human cognitive perception, covering four core dimensions: aesthetics, interestfulness, affective valence, and memorability. It comprises a training set with 3,200 instances and a test set with 480 instances, which supports supervised fine-tuning and benchmarking of such models.

创建时间：

2025-11-25

原始信息汇总

CogIP-Bench 数据集概述

数据集基本信息

数据集名称：CogIP-Bench (Cognition Image Property Benchmark)
核心目标：评估和对齐多模态大语言模型（MLLMs）在人类主观认知属性上的理解能力。
关注维度：聚焦于视觉认知的四个关键维度：
1. 美学：视觉吸引力、和谐度与艺术价值。
2. 趣味性：意外的视觉不协调与幽默感。
3. 情感效价：图像所引发的积极或消极情感基调。
4. 记忆性：图像被记住的可能性。

数据集内容与结构

数据集文件位于仓库的 data/cognition/ 目录下。

数据文件

cognition_training.json：包含 3,200 个样本 的训练集，采用 “描述-然后-预测” 的提示格式。
training_grpo.json：用于强化学习（组相对策略优化）消融实验的数据。
test_msg_file/：包含针对测试集（480 个样本）预格式化的 .json 推理文件，按四个认知维度（美学、情感效价、趣味性、记忆性）组织。

数据资源

cognition_images/：原始图像文件。
cognition_scores/：图像在四个认知特征上的真实评分。

数据集用途与方法

基准测试：用于评估 MLLMs（如 Qwen, Llama, Gemma）的预测与人类判断的一致性。
模型对齐：提供用于监督微调（SFT）的数据集，采用 软标签损失 和 “描述-然后-预测” 策略来教导模型理解主观认知。
下游应用：利用对齐后的模型引导图像生成（通过 Qwen-Image），使其具备特定的认知特征。

相关资源

项目主页：https://follen-cry.github.io/MLLM-Cognition-project-page/
预训练模型：https://huggingface.co/foolen/qwen2.5-vl-7b-cognition-full-sft
论文地址：https://arxiv.org/abs/2511.22805

搜集汇总

数据集介绍

构建方式

在视觉认知计算领域，CogIP-Bench数据集的构建旨在弥合多模态大语言模型与人类主观感知之间的鸿沟。该数据集围绕美学、趣味性、情感效价和记忆性四个核心认知维度，通过系统化收集人类标注数据构建而成。具体流程涉及从公开图像资源中筛选代表性样本，并邀请大量受试者对每幅图像在上述维度进行量化评分，从而形成覆盖3,200个训练样本和480个测试样本的标注集合。为确保标注的一致性与可靠性，研究团队采用了严格的标准化评分流程与数据清洗机制，最终生成包含图像文件、原始评分及结构化提示文本的完整数据资源。

使用方法

使用CogIP-Bench时，研究者可遵循数据准备、模型微调、性能评估与生成应用四个主要步骤。数据准备阶段需加载cognition_training.json等文件，其中已包含结构化提示与人类评分。模型微调可通过sft目录下的脚本实现，该流程采用软标签损失函数处理连续分数，保持数值间的语义关系。评估阶段则利用evaluation模块中的测试脚本，在四个认知维度上量化模型预测与人类评分的一致性。进一步地，对齐后的模型可作为qwen-image图像生成流程的认知引导模块，通过调整提示词生成具有特定美学或情感属性的图像，验证认知对齐的可迁移性。

背景与挑战

背景概述

在人工智能与计算机视觉领域，多模态大语言模型（MLLMs）在图像内容识别方面已展现出卓越能力，但在理解人类对图像的主观认知感知方面仍存在显著局限。CogIP-Bench（认知图像属性基准）由Yiming Chen、Junlin Han等研究人员于2025年提出，旨在填补这一空白。该数据集聚焦于美学、趣味性、情感效价和记忆性四个核心认知维度，通过构建包含人类标注的认知评分数据，推动MLLMs从单纯识别图像内容向理解人类主观感受的转变。其研究不仅为模型评估提供了新基准，还通过“描述-预测”策略和软标签损失等创新方法，促进了模型与人类认知的对齐，对跨模态感知计算和情感智能的发展具有重要影响。

当前挑战

CogIP-Bench所针对的领域问题在于使MLLMs能够准确理解并预测人类对图像的主观认知属性，这本质上是一个跨模态的回归与对齐任务。主要挑战包括：主观认知标注的固有模糊性与个体差异，使得构建可靠且一致的地面真值数据极为困难；模型需在连续数值评分与离散语言描述之间建立稳健映射，传统分类损失函数难以捕捉数值间的序关系。在构建过程中，挑战体现在大规模人类标注的成本与质量控制，以及如何设计有效的训练策略（如软标签损失）来保持评分间的数值连续性，避免模型过拟合于离散标签而丧失泛化能力。

常用场景

经典使用场景

在视觉认知计算领域，CogIP-Bench数据集为评估多模态大语言模型对人类主观感知的建模能力提供了基准。该数据集通过涵盖美学、趣味性、情感效价和记忆性四个认知维度，构建了一个包含图像及其对应人类评分的大规模测试集。研究人员通常利用该数据集对模型进行微调与评估，以验证模型是否能够像人类一样理解图像所传达的情感与感受，从而推动模型从客观识别向主观认知的跨越。

解决学术问题

该数据集主要解决了多模态大语言模型在理解图像主观属性方面的局限性问题。传统模型擅长识别图像中的客观内容，却难以量化人类对图像的情感反应与认知评价。CogIP-Bench通过提供基于人类标注的认知属性评分，为模型对齐人类感知建立了可量化的评估标准。其意义在于将视觉计算的研究焦点从“是什么”拓展至“感觉如何”，为构建具备情感智能的视觉系统奠定了数据基础，促进了认知科学与人工智能的交叉融合。

实际应用

在实际应用层面，经过CogIP-Bench对齐的模型能够赋能多种需要理解人类主观反应的场景。例如，在创意产业中，模型可以辅助评估广告图像的情感吸引力或艺术价值；在教育领域，可帮助设计更具记忆性的教学材料；在心理健康方面，能够分析视觉内容的情感倾向以支持情感计算应用。此外，该数据集支撑的图像生成技术，使得生成模型能够根据指定的认知属性（如“愉悦”或“幽默”）创作图像，拓展了可控内容生成的应用边界。

数据集最近研究