Place Pulse-Gaze

Name: Place Pulse-Gaze
Creator: 苏黎世联邦理工学院
Published: 2026-05-02 00:25:13
License: 暂无描述

arXiv2026-05-02 更新2026-05-05 收录

下载链接：

https://github.com/lin102/Place-Pulse-Gaze

下载链接

链接失效反馈

官方服务：

资源简介：

Place Pulse-Gaze是由苏黎世联邦理工学院团队构建的增强型城市感知数据集，基于Place Pulse 2.0精选子集扩展而成。该数据集包含10,223组街景图像-眼动追踪数据对，涵盖财富、安全和无聊三个感知维度，每张图像由5名参与者通过600Hz眼动仪记录7秒的凝视行为并标注5级Likert量表评分。数据通过超分辨率技术提升至1600×1100像素分辨率，并经过严格的质量过滤。该数据集创新性地将人类视觉注意机制引入城市计算领域，为研究主观感知形成过程提供了多模态基础，可应用于个性化城市规划、环境心理学和人机交互等方向。

Place Pulse-Gaze is an enhanced urban perception dataset constructed by the team from ETH Zurich, expanded from a curated subset of Place Pulse 2.0. This dataset contains 10,223 pairs of street view images and eye-tracking data, covering three perceptual dimensions: wealth, safety and boredom. For each image, 5 participants recorded 7-second gaze behaviors via a 600Hz eye tracker and provided 5-point Likert scale ratings. The images were upscaled to a resolution of 1600×1100 pixels using super-resolution technology, and underwent strict quality filtering. This dataset innovatively introduces human visual attention mechanisms into the field of urban computing, providing a multimodal foundation for studying the formation process of subjective perceptions, and can be applied to research directions such as personalized urban planning, environmental psychology and human-computer interaction.

提供机构：

苏黎世联邦理工学院

创建时间：

2026-05-02

搜集汇总

数据集介绍

构建方式

在城市感知研究领域，现有方法多从街景图像直接建模主观感知，却忽略了人类视觉注意过程的关键作用。为弥补这一空白，Place Pulse-Gaze数据集基于Place Pulse 2.0中精选的2,248张街景图像构建。研究团队采用配额抽样策略，依据财富、安全与无聊三个感知维度的分数分布进行分层采样，确保覆盖完整的感知光谱。随后，原始低分辨率图像经超分辨率模型提升至1600×1100像素以优化视觉清晰度。在眼动实验中，96名被试在24英寸显示器上自由浏览每张图像7秒，并使用5点李克特量表进行主观评分，同时由Tobii Pro Spectrum眼动仪以600Hz采样率同步记录凝视数据。每位被试完成125次试验，每张图像由5名不同被试评价，最终经无效记录过滤后获得10,223个有效的图像-凝视-标签三元组，构成该数据集的核心内容。

使用方法

该数据集适用于从纯凝视到多模态融合的多层次感知建模任务。研究者可采用凝视仅建模模式，将原始眼动记录经I-DT算法分割为注视事件序列，每个事件以凝视坐标、注视时长及后续扫视长度编码为Token，输入Transformer编码器进行三分级感知预测。在多模态融合模式下，可将凝视Token与两类场景表征进行联合建模：其一是基于语义分割的AOI标签序列，其二为冻结的ImageNet-21k预训练ViT提取的图像块嵌入。实验表明，纯凝视模型Macro-F1可达40.1%，而凝视与语义AOI融合可使性能提升至46.1%；即便在强大的ViT基线之上，凝视融合仍带来约1.8%的稳定提升。所有模型采用交叉熵损失与AdamW优化器训练，数据集及代码已开源于GitHub仓库，支持可重复研究。

背景与挑战

背景概述

城市感知描述了个体如何主观评价和理解城市环境，这一过程深刻影响着居住选择、公共健康与经济政策。在计算视觉与街景图像蓬勃发展的背景下，MIT媒体实验室的Place Pulse系列数据集（1.0与2.0）开创了大规模众包标注的城市感知研究范式，实现了从图像到安全、富裕、活力等多维感知属性的直接预测。然而，现有方法普遍将人类对城市的主观印象视为图像本身的客观属性，忽略了感知形成过程中个体视觉注意与认知解读的核心作用。为弥合这一鸿沟，来自苏黎世联邦理工学院（ETH Zurich）的研究团队（Lin Che, Xi Wang, Marc Pollefeys等）于2026年构建了Place Pulse-Gaze数据集，首次将同步眼动追踪记录与主观感知标签引入街景图像，开辟了注意力引导的多模态城市计算新方向。

当前挑战

该数据集面临的核心挑战在于：其一，现有的图像中心化研究范式忽视了人类感知的本质——主观感知不仅源于场景内容，更受制于个体如何分配视觉注意力并认知解译环境线索，传统方法难以捕捉个体感知差异。其二，数据集构建过程中面临显著困难：受眼动实验成本约束，需从110,998张图像的Place Pulse 2.0中通过配额采样策略精选出2,248张覆盖完整感知光谱的街景图像，同时须解决原始图像分辨率低（400×300像素）问题，使用超分辨率模型提升至1600×1100像素以保证注视映射精度；此外，需招募96名被试，在严格控制实验室条件下采集600Hz高频眼动数据，并对每个图像收集5个独立被试的评分与眼动记录，最终经过严格无效数据筛选获得10,223个有效图像-注视对，这一过程对数据质量与实验设计的协同提出了极高要求。

常用场景

经典使用场景

在城市感知与视觉注意力的交叉研究领域，Place Pulse-Gaze数据集为探究人类注视行为如何反映主观城市环境评价提供了独特的实验基础。该数据集的核心使用场景是将街景图像与同步的眼动追踪记录及个体感知标签相结合，从而实现对主观城市感知的精细化建模。研究者可基于该数据集，分析不同感知维度（如富裕、安全、无聊）下观察者的注视模式差异，包括注视分布、扫视路径和语义关注区域，进而揭示视觉探索策略与主观评价之间的潜在关联。这一场景突破了传统仅依赖图像内容的感知建模范式，转而关注视觉感知过程本身的行为表征。

解决学术问题

该数据集解决了城市感知研究中长期存在的关键学术问题：如何量化并建模个体在形成主观环境评价时的视觉注意过程。传统方法多将感知视为图像属性的直接映射，忽略了人脑在感知中的主动信息采样与认知解读。Place Pulse-Gaze通过引入注视行为作为可观测的感知过程信号，填补了这一空白。研究证明，单纯注视动态即可携带预测信号，且注视与场景表示的融合能系统性地提升感知预测性能。这一发现意义深远，不仅验证了注视行为在主观感知建模中的价值，还推动了城市计算从‘图像中心’向‘人本中心’的范式演进，为理解城市环境的个体化体验提供了新的理论视角。

实际应用

在实际应用层面，Place Pulse-Gaze数据集为智慧城市中的个性化服务与环境评估提供了技术支撑。其可应用于城市安全感知的实时监测，通过可穿戴眼动设备捕捉行人的视觉注意力，辅助识别潜在危险区域。在城市规划设计领域，该数据集能指导基于视觉体验的街道空间优化，例如通过分析居民对绿化或建筑的注视偏好，改善公共空间品质。此外，结合智能眼镜等新兴硬件，该数据集所启发的注视引导多模态框架可用于旅游推荐系统，通过分析游客的视觉注意力分布，动态推荐符合其审美偏好的景观与路线，从而提升城市游览的个性化体验。

数据集最近研究