CogIP-Bench

Hugging Face2025-11-28 更新2025-11-29 收录

下载链接：

https://huggingface.co/datasets/foolen/CogIP-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

CogIP-Bench是一个全面的基准，旨在评估和调整多模态大型语言模型（MLLMs）与人类主观认知感知的一致性。该数据集包含四个关键认知维度的图像-提示对和地面真实分数：美学、趣味性、情感价值和记忆力。

CogIP-Bench is a comprehensive benchmark designed to evaluate and align multimodal large language models (MLLMs) to be consistent with human subjective cognitive perception. This dataset comprises image-prompt pairs and ground-truth scores across four core cognitive dimensions: aesthetics, funniness, affective valence, and memorability.

创建时间：

2025-11-24

原始信息汇总

CogIP-Bench: Cognition Image Property Benchmark 数据集概述

数据集简介

CogIP-Bench是一个综合性基准数据集，旨在评估和对齐多模态大语言模型与人类主观认知感知。该数据集专门针对模型在主观属性感知方面的能力进行测量。

数据集基本信息

任务类别: 问答
语言: 英语
许可协议: CC-BY-4.0
数据规模: 1K-10K
总数据量: 168,515,218字节
下载大小: 165,420,288字节

数据集结构

数据划分

训练集: 3,200个样本，145,969,790字节
测试集: 480个样本，22,545,428字节

数据特征

id: 字符串类型，图像唯一标识符
image: 图像类型，本地存储的图像文件
dimension: 字符串类型，认知维度
prompt: 字符串类型，给模型的指令
score: float32类型，人类偏好评分真值

数据文件格式

基准数据文件

metadata_train.jsonl: 训练分割文件
metadata_test.jsonl: 测试分割文件

SFT训练数据

original_cognition.json: 用于监督微调的原始JSON文件

认知维度评估

维度	描述	评分范围	评分等级
美学	评估视觉吸引力、和谐度和构图	0.0-10.0	极低、低、中、高、极高
趣味性	测量图像的幽默或娱乐质量	0.0-10.0	极低、低、中、高、极高
情感效价	捕捉情感基调（从正面到负面）	-3.0-3.0（映射到1-10）	负面、中性、正面
记忆性	反映图像被记住的可能性	0.0-1.0（映射到1-10）	极低、低、中、高、极高

数据示例

每个数据点包含图像ID、图像路径、详细提示指令和人类评分真值，采用"描述后预测"策略指导模型输出结构化响应。

搜集汇总

数据集介绍

构建方式

在认知科学与人机交互的交叉领域，CogIP-Bench通过系统化采集人类主观评价构建而成。该数据集整合了来自四个认知维度的标注数据，包括美学评价、幽默感知、情感效价与记忆性，每项数据均基于严格设计的评分标准与人工标注流程生成。原始数据经结构化处理转化为标准化的JSONL格式，同时保留用于监督微调的源JSON文件，确保数据的一致性与可追溯性。

特点

作为多模态大语言模型认知对齐评估的重要工具，本数据集具备多维度的主观属性标注体系。其独特之处在于覆盖了传统视觉任务中常被忽视的主观认知层面，通过描述-预测双阶段任务设计，将定性描述与定量评分有机结合。数据分布呈现人类认知判断的连续谱特征，且每个维度均设有专业化的评分区间与语义标签，为模型提供细粒度的对齐目标。

使用方法

针对多模态认知研究的具体需求，该数据集支持两种典型应用范式。在基准测试场景下，研究者可通过加载标准化的JSONL文件，利用内置的图像-提示对与真实评分进行模型性能验证；对于模型优化需求，可调用原始JSON文件实施监督微调，训练模型生成符合认知规律的结构化输出。使用过程中需注意不同认知维度对应的评分量纲差异，并严格遵循描述优先再预测的交互协议。

背景与挑战

背景概述

随着多模态大语言模型在客观识别任务上的成熟，其在主观认知感知方面的局限性逐渐显现。CogIP-Bench应运而生，旨在填补模型对人类主观感受量化能力的空白。该数据集由研究团队于2023年构建，聚焦美学价值、幽默程度、情感效价与记忆强度四个认知维度，通过3200个训练样本与480个测试样本，建立了图像内容与人类主观评价的映射关系，为认知计算领域提供了首个系统性的多维度评估基准。

当前挑战

该数据集致力于解决多模态模型在主观认知属性量化方面的核心难题，包括跨维度感知的一致性建模、连续评分与离散标签的语义对齐。构建过程中面临双重挑战：在数据层面需克服人类评分的主观偏差与跨文化认知差异，在技术层面需设计能同时处理图像语义理解与数值回归的混合架构，并确保描述-预测策略在复杂认知任务中的有效性。

常用场景

经典使用场景

在视觉认知计算领域，CogIP-Bench数据集被广泛用于评估多模态大语言模型对人类主观感知的匹配能力。该数据集通过美学、幽默度、情感效价和记忆性四个维度，构建了标准化的图像-文本配对评估框架，研究者可基于其结构化提示词与真实评分数据，系统性地验证模型对图像主观属性的理解精度。

衍生相关工作

基于该数据集衍生的经典研究包括认知对齐训练范式CogAlign，其通过监督微调将描述-预测策略融入模型架构；另有团队开发了跨模态认知传递框架CogTransfer，将四维认知特征迁移至视频理解领域。这些工作显著拓展了主观认知计算在生成式AI与脑机接口等前沿方向的应用边界。

数据集最近研究