CAT2000
收藏arXiv2025-09-30 收录
下载链接:
http://saliency.mit.edu/results_cat2000.html
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为CAT2000,其训练集包含了2000个输入刺激,这些刺激被分为20个不同的语义类别。此外,该数据集还用于评估模型在显著性预测方面的性能。
This dataset is named CAT2000. Its training split contains 2000 input stimuli, which are categorized into 20 distinct semantic categories. Additionally, this dataset is also utilized to evaluate the performance of models in saliency prediction tasks.
提供机构:
MIT Saliency Team
搜集汇总
数据集介绍

构建方式
在视觉显著性研究领域,为克服传统数据集规模有限、类别单一及中心偏差等问题,CAT2000数据集通过系统化设计构建而成。该数据集包含4000张图像,涵盖动作、艺术、卡通、室内外场景、线条画、随机图像等20个类别,每类200张,图像分辨率统一为1920×1080像素。数据采集过程中,120名观察者在受控环境下自由观看图像,通过高精度眼动仪记录其注视点,每张图像由24名不同观察者观看,以确保数据的多样性和可靠性。图像来源包括网络搜索引擎、现有计算机视觉数据集及特定生成方法,如随机拍摄、卫星图像和人工合成类别,以全面覆盖不同视觉注意机制。
特点
CAT2000数据集以其大规模、多类别和高质量眼动数据著称,显著提升了视觉显著性研究的基准。数据集涵盖自然与人工图像,包括艺术、社会交互、随机模式等类别,能够有效激发自下而上或自上而下的注意机制。其眼动数据包含超过2400万次眼跳,提供了丰富的注视点分布信息,有助于分析不同场景下的注意模式。此外,数据集通过精心设计的观察者分配方案,减少了中心偏差的影响,并提供了训练集与测试集的划分,支持模型训练与评估,为行为研究和计算模型开发提供了重要资源。
使用方法
CAT2000数据集主要用于视觉显著性模型的训练、评估及行为学研究。研究人员可访问公开数据集,其中训练集包含每类100张图像及18名观察者的注视数据,测试集则提供剩余图像但保留所有24名观察者的注视点,以支持对新观察者或未见图像的预测任务。使用该数据集时,可基于注视点数据计算标准化扫描路径显著性等指标,评估模型性能。此外,数据集的多类别特性允许探索不同视觉因素对注意的影响,如语义线索或低层特征,为开发下一代显著性模型及理解人类视觉注意机制提供实证基础。
背景与挑战
背景概述
在计算机视觉领域,视觉显著性建模研究历经近二十年的发展,旨在模拟人类在自然场景中的注视行为。然而,现有模型往往依赖于规模有限且存在偏差的数据集,可能导致过拟合问题,进而阻碍该领域的深入探索。为应对这一局限,威斯康星大学密尔沃基分校与南加州大学的研究团队于2015年共同构建了CAT2000数据集。该数据集包含20个类别的4000张图像,涵盖卡通、艺术、室内外场景等多种类型,并通过120名观察者的自由观看实验收集了大规模眼动数据。CAT2000的创立不仅为显著性模型提供了更全面的评估基准,也推动了自上而下与自下而上注意力机制的跨类别比较研究,对视觉注意力的行为分析与计算建模产生了深远影响。
当前挑战
CAT2000数据集致力于解决视觉显著性预测中的模型泛化难题,其核心挑战在于克服传统数据集的固有偏差。具体而言,早期数据集常受限于中心偏差、场景类别单一及观察者数量不足等问题,导致模型难以区分底层视觉特征与高层语义线索的贡献。在构建过程中,研究团队面临多重困难:一是需平衡图像类别的多样性,确保涵盖从抽象图案到社会交互场景的广泛内容;二是实验设计需高效管理4000张图像与120名观察者的匹配,通过分批次呈现避免视觉疲劳;三是眼动数据采集需严格控制设备校准、观察者距离等变量,以保障数据质量与一致性。这些挑战共同凸显了大规模显著性数据标准化建设的复杂性。
常用场景
经典使用场景
在视觉显著性建模领域,CAT2000数据集被广泛用于评估和比较不同显著性模型的性能。该数据集包含20个类别的4000张图像,涵盖了从自然场景到人工合成的多样化视觉刺激,为研究者提供了一个大规模且无偏的基准测试平台。通过记录120名观察者在自由观看这些图像时的眼动数据,CAT2000能够模拟人类在复杂视觉环境中的注意力分配模式,从而帮助验证模型在预测注视点方面的准确性和鲁棒性。
实际应用
在实际应用中,CAT2000数据集为计算机视觉系统的优化提供了重要支持。基于该数据集训练的显著性模型可广泛应用于图像压缩、广告设计、用户界面优化和自动驾驶等领域。例如,在图像压缩中,模型可识别人类视觉关注的重点区域,实现更高效的数据编码;在广告设计中,通过分析注视点分布,能够优化视觉元素的布局以提升信息传递效果。这些应用显著提升了人机交互的效率和用户体验。
衍生相关工作
CAT2000数据集催生了一系列重要的衍生研究,推动了显著性建模的多元化发展。基于该数据集,研究者提出了多种改进的显著性预测算法,如结合深度学习技术的端到端模型,以及专门针对特定类别(如社交场景或卫星图像)的注意力机制分析。此外,该数据集还促进了跨学科研究,例如在心理学领域用于探索自上而下与自下而上注意力的交互机制,或在神经科学中用于验证视觉感知的理论模型。
以上内容由遇见数据集搜集并总结生成



