five

AssoCiAm

收藏
arXiv2025-09-18 更新2025-11-21 收录
下载链接:
https://github.com/lyf15/AssoCiAm
下载链接
链接失效反馈
官方服务:
资源简介:
AssoCiAm是一个为评估多模态大型语言模型的关联思维能力而设计的基准数据集。该数据集旨在通过混合计算方法规避关联任务中的内在歧义,从而更准确和可靠地评估模型的关联能力。数据集包含多模态图像和文字问题,旨在评估模型在识别自然物体形状并将其与最相似物体关联的能力。数据集的创建过程采用了控制扩散模型和CLIP模型来生成和过滤图像,以及遗传算法来选择合适的干扰项,从而确保每个问题的答案唯一且具有代表性。AssoCiAm数据集旨在解决多模态大型语言模型在关联任务中的评估问题,为模型在关联思维能力方面的研究和开发提供了重要参考。

AssoCiAm is a benchmark dataset designed to evaluate the associative thinking capabilities of multimodal large language models. This dataset leverages hybrid computational methods to circumvent the inherent ambiguity in associative tasks, enabling more accurate and reliable assessment of models' associative abilities. The dataset includes multimodal images and textual questions, aimed at evaluating models' capacity to recognize the shapes of natural objects and associate them with their most similar counterparts. During the dataset's creation, controlled diffusion models and CLIP were used for image generation and filtering, while genetic algorithms were adopted to select appropriate distractors, ensuring that each question has a unique and representative answer. The AssoCiAm dataset is developed to address the evaluation challenges of multimodal large language models in associative tasks, providing an important reference for the research and development of models' associative thinking skills.
提供机构:
中山大学、广东工业大学、西北大学
创建时间:
2025-09-18
搜集汇总
数据集介绍
main_image_url
构建方式
在构建AssoCiAm数据集的过程中,研究团队采用了一种混合计算方法来系统性地规避关联任务中固有的歧义问题。首先,通过从ILSVRC12数据集中提取代表性掩码,并利用SAM模型进行分割,确保掩码形状具有典型性。随后,结合控制扩散模型生成图像,并通过CLIP分类器进行筛选,仅保留分类概率高于97%的掩码,再由人类专家进一步精炼,以消除内部歧义。在构建问题-选项对时,采用图结构建模选项间关系,通过遗传算法优化目标函数,最小化正确答案与干扰项之间的相似性,同时控制选项间相似度的方差,从而有效避免外部歧义。
特点
AssoCiAm数据集的核心特点在于其专注于评估多模态大语言模型的关联思维能力,同时通过严谨的设计规避了任务中的歧义问题。该数据集包含2,025个测试样本,涵盖25个日常生活类别,每个样本由高分辨率图像和多样化的问题-选项对组成。其独特之处在于将歧义分解为内部和外部两类,内部歧义通过掩码筛选和图像生成过程消除,确保答案的合理性;外部歧义则通过图模型和优化算法减少干扰项的相似性。数据集还设计了4T1、7T1和10T1三个子任务,难度逐级递增,全面检验模型在不同复杂度下的关联能力。
使用方法
使用AssoCiAm数据集进行评估时,需遵循标准的多选项问答格式。评估过程采用Top-1准确率作为核心指标,以公平衡量模型在关联任务中的表现。研究人员需为模型提供统一的提示模板,包含图像、问题及多个选项,要求模型基于视觉内容进行关联推理,选择最匹配的答案。数据集的三个子任务需分别计算准确率,并根据选项数量加权平均,以综合反映模型的关联能力。此外,该数据集支持分析模型认知与关联能力的相关性,可通过与MMMU等认知基准的分数对比,深入探索模型智能的内在机制。
背景与挑战
背景概述
AssoCiAm数据集由中山大学、广东工业大学及西北大学的研究团队于2025年联合提出,旨在应对多模态大语言模型在联想能力评估中的模糊性问题。该数据集聚焦于人工智能通用智能发展中的创造力核心——联想思维,通过构建包含图像与多选项问答的基准测试,系统量化模型在视觉联想任务中的表现。其创新性在于首次将内部模糊性与外部模糊性纳入考量,推动了多模态认知评估范式的精细化发展,为模型创造性能力的可靠度量奠定了重要基础。
当前挑战
在联想能力评估领域,传统基准常因忽略答案的模糊性而导致评估失真。AssoCiAm需解决两大核心挑战:其一,联想任务固有的发散特性导致多个选项可能均具合理性,形成外部模糊性;其二,标注答案本身可能缺乏逻辑一致性,引发内部模糊性。构建过程中,研究团队需通过混合计算方法筛选代表性视觉掩码,并利用图优化算法消除选项间的形状相似性,确保评估结果既反映真实联想能力,又维持任务难度与人类认知的一致性。
常用场景
经典使用场景
在人工智能领域,AssoCiAm数据集主要用于评估多模态大语言模型在联想思维任务中的表现。该数据集通过呈现包含自然物体形状的图像及多项选择问题,要求模型识别图像中物体的轮廓并将其与最相似的选项关联起来。这种设计模拟了人类联想思维中从单一概念发散至多种可能性的认知过程,为量化模型的创造性能力提供了标准化测试环境。
衍生相关工作
基于AssoCiAm的评估方法催生了多项创新研究,例如结合因果推理的创造力评估框架、面向长序列理解的联想能力测试基准MiniLong-Bench。其歧义消解技术被扩展应用于视觉问答系统的公平性优化,启发了多模态大模型在医疗影像分析中的联想诊断研究,推动了可信人工智能评估体系的发展。
数据集最近研究
最新研究方向
在人工智能迈向通用智能的进程中,多模态大语言模型的创造力评估成为关键研究焦点。AssoCiAm基准通过引入混合计算方法,系统性地规避了关联任务中固有的内部与外部模糊性问题,为模型联想能力的可靠量化提供了新范式。当前前沿研究集中于探索认知能力与联想思维之间的强正相关性,并揭示模糊性如何诱导模型产生随机化行为,这一发现对提升评估信度及推动模型创造性发展具有深远意义。
相关研究论文
  • 1
    通过中山大学、广东工业大学、西北大学 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作