N-DHF1K; N-UCF Sports

Name: N-DHF1K; N-UCF Sports
Creator: 法国国家科学研究中心; 蔚蓝海岸大学
Published: 2026-05-22 23:52:01
License: 暂无描述

arXiv2026-05-22 更新2026-05-26 收录

下载链接：

https://github.com/romageek/sest

下载链接

链接失效反馈

官方服务：

资源简介：

本研究构建了N-DHF1K与N-UCF Sports两个合成事件显著性数据集，旨在解决事件相机领域缺乏大规模标注数据的瓶颈。N-DHF1K源自DHF1K视频显著性基准，包含1000个涵盖150种场景类别的视频，共超过60万帧，并融合了17位观察者的逐帧注视点标注；N-UCF Sports则基于UCF Sports动作数据集，包含150段涵盖9类体育动作的视频。数据集通过ESIM库将RGB视频流转化为事件流，采用正负对比度阈值0.09与3毫秒不应期参数，完整保留了运动、对比度与时间显著性线索。这些合成数据为事件驱动的视觉注意力建模提供了规模化监督信号，支持动态显著性预测模型的训练与评估，推动神经形态视觉与注意力机制交叉领域的发展。

This study constructed two synthetic event saliency datasets, N-DHF1K and N-UCF Sports, to address the bottleneck of lacking large-scale labeled data in the field of event cameras. N-DHF1K is derived from the DHF1K video saliency benchmark, containing 1000 videos covering 150 scene categories, with over 600,000 frames in total, and incorporating frame-by-frame gaze annotations from 17 observers. N-UCF Sports is based on the UCF Sports action dataset, which includes 150 videos covering 9 categories of sports actions. The datasets converted RGB video streams into event streams via the ESIM library, adopting positive and negative contrast thresholds of 0.09 and a 3-millisecond refractory period parameter, which fully retained motion, contrast, and temporal saliency cues. These synthetic datasets provide large-scale supervision signals for event-driven visual attention modeling, supporting the training and evaluation of dynamic saliency prediction models, and promoting the development of the interdisciplinary field of neuromorphic vision and attention mechanisms.

提供机构：

法国国家科学研究中心; 蔚蓝海岸大学

创建时间：

2026-05-22

原始信息汇总

该数据集详情页面目前尚未提供具体的数据集信息。页面中仅标注“代码和数据将很快发布”，目前无任何可供总结的数据集内容、结构、用途或示例。

搜集汇总

数据集介绍

构建方式

鉴于事件相机在动态范围、低延迟及能效方面展现的显著优势，但其在视觉显著性预测领域的研究因缺乏大规模标注数据集而进展缓慢。为填补这一空白，本研究基于两个大规模RGB视频显著性基准数据集DHF1K和UCF Sports，利用ESIM事件模拟器将原始视频转换为事件流，从而构建了两个全新的事件基显著性数据集N-DHF1K和N-UCF Sports。具体而言，N-DHF1K源自包含1000段视频、涵盖150种场景类别的DHF1K数据集，而N-UCF Sports则源于150段UCF Sports Action数据集中的动作视频。在转换过程中，设定正负对比度阈值为0.09，并采用3毫秒的不应期。原始视频对应的注视点标注和显著性图被保留作为事件数据的真值标签，从而实现了对高质量人类注视数据的可扩展监督。

特点

N-DHF1K与N-UCF Sports数据集具有显著的规模与多样性优势。N-DHF1K包含约1000段视频，覆盖广泛的运动模式与场景类别，其注视点标注来自17名观察者，提供了超过60万帧的逐帧显著性信息。N-UCF Sports虽然规模较小（150段视频），但专注于九类体育动作，观察者的注视任务从自由浏览转向动作识别，呈现出不同的视觉搜索策略。两个数据集共同弥补了现有唯一事件基显著性数据集（仅含598段8秒短片，且场景类别不平衡）的不足，为模型训练提供了更丰富的时空动态信息和更为均衡的场景分布。此外，这些数据集虽是合成生成，但已有研究证实通过逼真视频生成的事件表征能够有效保留与下游任务相关的运动、对比度及时序显著性线索。

使用方法

这两个数据集专为事件基显著性预测模型的训练与评估而设计。使用时可依据论文提供的划分方案：N-DHF1K分为500段训练视频、100段验证视频和100段测试视频；N-UCF Sports分为103段训练视频、15段验证视频和32段测试视频。在模型输入上，需将原始事件流转换为体素网格表示，形状为[T, 2, H, W]，其中T为时间箱数量（论文推荐7至21个箱），H和W均为224像素，每个箱的持续时间需与源视频采样率匹配（N-DHF1K为33.33毫秒，N-UCF Sports为100毫秒）。评估时，可采用AUC-Judd、皮尔逊相关系数（CC）、相似性度量（SIM）和归一化扫描路径显著性（NSS）等标准指标。数据集及配套代码已开源发布，研究者可直接从GitHub仓库获取。

背景与挑战

背景概述

N-DHF1K与N-UCF Sports是由法国蔚蓝海岸大学及法国国家科研中心的研究人员Romaric Mazna、Jean Martinet与Sai Deepesh Pokala在2025年提出的两个事件驱动显著性预测基准数据集。这两套数据集的创建初衷在于填补事件相机领域内大规模标注显著性数据的空白。研究团队利用ESIM仿真工具，将经典的RGB视频显著性数据集DHF1K与UCF Sports转化为事件流，从而保留了原始视频中的运动、对比度与时间显著性线索。N-DHF1K包含1000段视频，涵盖150个场景类别，拥有超过60万帧注视数据；N-UCF Sports则聚焦9类体育动作，包含150段视频。这两个数据集为基于深度学习的事件显著性预测提供了充足的合成监督信号，显著提升了模型训练的多样性与鲁棒性，并在零样本真实相机测试中验证了其泛化能力，开创了事件视觉与神经形态注意力研究的新方向。

当前挑战

事件显著性预测面临多重挑战。在领域问题层面，与成熟的RGB显著性建模不同，事件数据由异步、稀疏的亮度变化信号构成，缺乏密集的纹理与颜色信息，传统基于帧的模型难以直接适用。如何从无固定帧率、仅有对比度变化的事件流中提取与人类注意力相契合的时空显著性特征，是一个核心难题。在数据集构建过程中，挑战同样尖锐：真实事件相机收集的大规模注视数据极其匮乏，仅有单一方位、不足600段视频且场景类别失衡的小规模数据集可用。为此，研究团队采用事件仿真技术，从RGB基准中生成合成数据，但仿真过程需精细设定对比度阈值与不应期，以确保生成的事件流能够忠实反映原始运动与显著性动力学，避免引入偏差。此外，保证合成数据对真实事件流的迁移能力，亦是构建与验证过程中的关键挑战。

常用场景

经典使用场景

在事件视觉与注意力建模的交叉领域，N-DHF1K和N-UCF Sports作为首批大规模事件型显著性预测基准数据集，其最经典的使用场景在于为基于事件相机的动态显著性建模提供标准化的训练与评估平台。研究者可利用这两套数据集中涵盖的多样化运动模式与场景动态——N-DHF1K包含150类场景、千余条视频及17位观察者的密集注视标注，N-UCF Sports则聚焦九类体育动作——来训练和验证深度神经网络在稀疏、异步事件流上的显著性预测能力，从而弥补该领域长期缺乏大规模标注数据的空白。

衍生相关工作

围绕N-DHF1K和N-UCF Sports，学术界已衍生出以SEST为代表的Transformer基线架构，该工作开创性地将预训练的事件型Swin Transformer骨干与三维卷积解码器相结合，实现了对多尺度时空特征的显式建模。这些数据集还催生了关于事件时空融合策略的深入探索，如消融实验揭示的3D卷积相对于2D替代方案在捕获跨帧依赖上的本质优越性，以及可学习中心偏差模块在不同时间窗口下的自适应机制。此外，跨数据集泛化能力的系统评估为后续研究如何构建更具鲁棒性的事件显著性模型提供了方法论基础。

数据集最近研究