CrowdFix

Name: CrowdFix
Creator: 巴基斯坦国立科技大学
Published: 2019-10-09 15:40:19
License: 暂无描述

arXiv2019-10-09 更新2024-06-21 收录

下载链接：

https://github.com/MemoonaTahira/CrowdFix

下载链接

链接失效反馈

官方服务：

资源简介：

CrowdFix是由巴基斯坦国立科技大学创建的一个包含89个高清视频片段的数据集，总计434个视频片段，用于研究人群中的视觉注意力和显著性。该数据集通过眼动追踪技术收集，视频来源于互联网，并被分为稀疏、密集自由流动和密集拥挤三个不同的人群密度级别。CrowdFix旨在通过提供多样化的真实生活移动人群视频，帮助改进显著性模型的设计和创建，特别是在处理拥挤场景时的应用，如人群监控和管理。

CrowdFix is a dataset developed by the National University of Sciences and Technology, Pakistan. It includes 89 high-definition video clips, with a total of 434 video clips across the entire dataset, and is designed for research on visual attention and visual saliency in crowds. The dataset was collected using eye-tracking technology, with source videos retrieved from the Internet, and is categorized into three distinct crowd density levels: sparse, densely free-flowing, and densely congested. CrowdFix aims to assist in the design and development of improved saliency models, especially for applications in crowded scenarios such as crowd monitoring and management, by providing diverse real-life videos of moving crowds.

提供机构：

巴基斯坦国立科技大学

创建时间：

2019-10-07

搜集汇总

数据集介绍

构建方式

在视觉显著性研究领域，针对拥挤场景的专用数据集尚属稀缺。CrowdFix数据集的构建始于从Flickr、Pexels等五个在线平台，依据知识共享许可协议精心采集了89段描绘真实生活场景的高清（720p）人群视频。为确保数据质量，所有视频均未经加速处理且不含水印。随后，研究团队依据每平方米人数标准，通过23名标注者的自由观看与判断，将视频细致划分为稀疏、密集自由流动与密集拥堵三个密度等级。为捕捉自底向上的视觉注意机制，原始视频被裁剪为1至3秒的片段，并随机重组为两段约10分钟的MTV风格刺激材料，以此最大程度减少自上而下认知过程的影响。最终，利用EyeTribe眼动仪，在严格控制的环境下记录了26名参与者的注视点数据，形成了包含原始视频帧、二值化注视点图及高斯模糊显著性图的结构化数据集。

特点

CrowdFix数据集的核心特征在于其专注于真实动态拥挤场景，并首次在视频维度提供了基于密度分级的精细标注。该数据集包含434个高清视频片段，覆盖了从稀疏到高度拥堵的连续人群密度谱系，为探究视觉注意在不同人群规模下的调制规律提供了独特视角。数据集的眼动数据采样率为60Hz，空间精度达0.5至1.0度，确保了注视点记录的可靠性。尤为重要的是，其MTV风格的视频编排有效分离了自底向上的显著性驱动，使得注视模式更能反映刺激本身的低阶特征。与现有通用视频显著性数据集相比，CrowdFix填补了拥挤场景动态显著性基准数据的空白，并为模型评估提供了包含注视点数量、持续时间及空间分布的多维度分析基础。

使用方法

该数据集主要服务于计算视觉与心理学交叉领域的研究。研究者可通过其公开的GitHub仓库获取完整的视频刺激材料、眼动注视数据及相应的显著性图。在模型评估方面，数据集支持使用AUC-J、NSS、KL散度及相关系数等标准指标，对动态或静态显著性预测模型在拥挤场景下的性能进行基准测试。具体而言，用户可将模型预测的显著性图与数据集提供的高斯模糊真实注视图进行定量比较，尤其可深入分析模型在不同人群密度等级上的表现差异。此外，数据集的密度分级标签使得研究者能够探究视觉注意机制随人群密度变化的规律，为开发面向拥挤场景的专用显著性模型提供训练数据与理论依据。该数据集也可用于眼动分析、人群行为理解及视频压缩等相关应用研究。

背景与挑战

背景概述

视觉显著性研究作为自然视觉与计算机视觉的交叉领域，旨在量化人类对场景中重要区域的感知机制。在动态场景分析中，拥挤场景因其复杂的视觉刺激与随机活动模式，对显著性建模提出了独特挑战。CrowdFix数据集由巴基斯坦国立科学技术大学（NUST）的Memoona Tahira、Sobas Mehboob等研究人员于2019年创建，旨在填补拥挤视频显著性数据集的空白。该数据集包含从互联网收集的89个真实生活拥挤视频，标注为稀疏、密集自由流动和密集拥堵三个密度等级，并通过眼动追踪技术记录了26名参与者的注视数据。作为首个高分辨率（720p）拥挤视频显著性数据集，CrowdFix为拥挤场景中的视觉注意力研究提供了基准，推动了监控、人群管理及安全领域算法的进步。

当前挑战

CrowdFix数据集致力于解决拥挤场景中视觉显著性预测的挑战。拥挤场景包含大量相互竞争的视觉刺激，其动态性与随机性使得传统显著性模型难以准确捕捉人类注视模式，导致预测精度下降。在数据集构建过程中，研究人员面临多重困难：首先，现有拥挤视频数据集分辨率较低，无法满足眼动数据对高清细节的需求，因此需从零收集高质量视频素材。其次，为最小化自上而下的注意力影响，需通过跳跃剪辑和MTV风格视频设计来突出自下而上的显著性，这增加了视频处理的复杂性。此外，标注不同密度等级依赖人工判断，需确保标注者间的一致性，而眼动实验的数据清洗也需剔除校准误差较大的参与者，以保障数据可靠性。

常用场景

经典使用场景

在视觉注意力和显著性研究领域，CrowdFix数据集为探索拥挤场景下的视觉行为提供了关键资源。该数据集通过眼动追踪技术记录了真实生活视频中的人类注视点，特别针对稀疏、密集自由流动和密集拥堵三种人群密度水平进行了标注。研究者利用这些数据，能够深入分析人群动态如何影响视觉注意的分配，从而揭示在复杂环境中的自底向上注意机制。这一经典应用场景不仅推动了视觉认知理论的发展，还为计算机视觉模型提供了宝贵的训练与验证基准。

实际应用

在实际应用层面，CrowdFix数据集对公共安全监控、人群管理和智能交通系统具有重要价值。通过分析不同密度人群的视觉注意模式，可以优化监控摄像头的布局和算法，快速识别异常行为或潜在风险区域。例如，在密集拥堵场景中，系统可依据注视点分布预测人群流动瓶颈，辅助疏导决策。此外，该数据集还可用于增强现实界面设计、视频压缩编码以及广告投放优化，通过模拟人类在拥挤环境中的视觉关注点，提升信息传递效率和用户体验。

衍生相关工作

CrowdFix数据集的发布催生了一系列针对拥挤场景的视觉计算研究。基于其多密度标注特性，后续工作如CrowdSalNet等模型专门集成了人群动态特征提取模块，以提升显著性预测的准确性。同时，该数据集促进了跨学科研究，例如与心理学结合探究注意资源在人群中的分配机制，或与社会计算融合分析集体视觉行为模式。此外，许多研究借鉴其MTV风格视频剪辑方法，构建了更广泛的动态显著性数据集，推动了视觉注意建模向更自然、更复杂场景的拓展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集