DHF1K
收藏arXiv2018-05-26 更新2024-06-21 收录
下载链接:
https://github.com/wenguanwang/DHF1K
下载链接
链接失效反馈官方服务:
资源简介:
DHF1K是一个大规模的视频注视点预测数据集,由北京智能信息技术实验室创建。该数据集包含1000个高质量视频序列,覆盖广泛的场景、运动、物体类型和背景复杂度。DHF1K旨在通过提供多样化和具有挑战性的动态场景,推动视频注视点建模的发展。数据集中的每个视频都由17名观察者进行注视点标注,总帧数超过600,000帧。DHF1K不仅用于视频注视点预测模型的训练和评估,还提供了丰富的视频类别和属性标注,以深入理解动态场景自由观看中的注视引导机制。
DHF1K is a large-scale video gaze prediction dataset developed by the Beijing Intelligent Information Technology Laboratory. This dataset contains 1000 high-quality video sequences covering a wide spectrum of scenarios, motions, object types and background complexities. DHF1K aims to advance the development of video gaze prediction modeling by providing diverse and challenging dynamic scenes. Each video in the dataset is annotated by 17 observers, with the total number of frames exceeding 600,000. Besides being used for training and evaluating video gaze prediction models, DHF1K also provides rich video category and attribute annotations to facilitate in-depth understanding of the gaze guidance mechanism during free viewing of dynamic scenes.
提供机构:
北京智能信息技术实验室
创建时间:
2018-01-23
搜集汇总
数据集介绍

构建方式
在动态视觉显著性研究领域,构建一个具有广泛代表性和多样性的数据集对于推动模型发展至关重要。DHF1K数据集的构建遵循了系统性原则,通过约200个关键词从YouTube平台精心筛选出1000个高质量视频序列,涵盖日常活动、体育、社交互动、动物、人造物、艺术表演及自然风光等七大类共150个子类。所有视频统一转换为640×360分辨率、30帧率的格式,总计包含超过58万帧图像。数据采集过程中,17名参与者在自由观看条件下通过SMI RED 250眼动仪记录注视点,最终获得超过5100万次注视数据,确保了标注的丰富性与可靠性。数据集按600/100/300的比例划分为训练、验证和测试集,其中测试集标注未公开,以支持公平的模型评估。
使用方法
DHF1K数据集主要用于动态视觉显著性模型的训练、验证与性能评估。研究者可利用其公开的训练集和验证集进行模型开发,通过整合时空信息学习人类在自由观看视频时的注视模式。数据集中提供的每帧注视点标注支持端到端的深度学习框架,例如结合CNN-LSTM架构与注意力机制,以同时利用静态显著性先验和动态时序特征。在评估阶段,模型可在未公开标注的测试集上进行性能测试,并通过在线服务器提交结果,使用NSS、SIM、CC、AUC-J和s-AUC等多项指标进行综合比较。此外,数据集的类别与属性标注支持细粒度分析,有助于探究不同场景因素对视觉注意力的影响,从而推动更具泛化能力的模型设计。
背景与挑战
背景概述
在计算机视觉领域,动态场景下的视觉显著性预测旨在模拟人类在观看视频时注意力分配机制,对于视频理解、压缩与内容分析等应用具有重要价值。DHF1K(Dynamic Human Fixation)数据集由北京理工大学智能信息技术北京实验室、南开大学及中佛罗里达大学的研究团队于2017年联合创建,旨在解决现有视频显著性数据集在规模、多样性与通用性方面的不足。该数据集包含1000个高质量视频序列,涵盖广泛场景、运动模式与对象类别,并记录了17名观察者在自由观看条件下的眼动数据,为动态显著性建模提供了标准化的大规模基准,显著推动了视频显著性研究的发展。
当前挑战
DHF1K数据集致力于应对动态显著性预测领域的核心挑战:在复杂多变的视频环境中准确模拟人类注意力机制。现有数据集如Hollywood-2与UCF sports多局限于特定任务场景,缺乏对自由观看模式下通用动态场景的覆盖,且规模有限,难以支撑深度模型的训练需求。在构建过程中,研究团队面临多重挑战:需确保视频内容在运动模式、对象类型与背景复杂度上的高度多样性,以规避模型过拟合;同时,大规模眼动数据采集需克服设备校准、参与者疲劳控制与数据一致性维护等技术难题,并通过精心设计的训练-测试分割策略保障评估的公正性。
常用场景
经典使用场景
在视觉注意力建模领域,DHF1K数据集被广泛用于评估和训练动态场景下的显著性预测模型。该数据集通过涵盖日常活动、体育、社交互动、动物、艺术品、人造物和风景等七大类别的视频序列,为研究者提供了丰富且多样化的动态视觉刺激。其精心设计的训练、验证和测试分割,确保了模型在未见过数据上的泛化能力评估,成为视频显著性检测任务中的基准测试平台。
解决学术问题
DHF1K数据集解决了动态视觉显著性研究中长期存在的规模不足和多样性缺乏问题。以往的数据集如Hollywood-2和UCF sports局限于特定场景或任务驱动,而DHF1K通过包含1000个高质量视频序列,覆盖广泛的内容、运动模式和对象类型,为探索人类在自由观看动态场景时的注意力机制提供了可靠数据基础。该数据集促进了时空显著性表征的学习,推动了深度学习模型在动态注意力预测中的发展。
实际应用
在实际应用中,DHF1K数据集支持的视频显著性模型被用于视频内容理解、智能压缩、自动字幕生成和视觉问答系统。例如,在视频压缩中,基于显著性预测的区域优先编码可以优化存储和传输效率;在自动驾驶领域,模型能够模拟人类视觉注意力,辅助系统快速识别关键交通元素。这些应用显著提升了多媒体处理和计算机视觉系统的智能化水平。
数据集最近研究
最新研究方向
在动态视觉显著性研究领域,DHF1K数据集作为大规模、高多样性的基准,推动了基于深度学习的视频显著性模型的发展。当前前沿研究聚焦于融合时空特征的神经网络架构,特别是引入注意力机制以增强静态与动态显著性表征的分离学习。例如,采用CNN-LSTM结合监督式注意力模块的模型,能够有效利用大规模静态注视数据,提升模型在复杂动态场景中的泛化能力。这一方向与计算机视觉中多模态学习、时序建模等热点紧密关联,显著促进了视频内容分析、人机交互等应用的技术进步,为理解人类视觉注意机制提供了更坚实的计算基础。
相关研究论文
- 1Revisiting Video Saliency: A Large-scale Benchmark and a New Model北京智能信息技术实验室 · 2018年
以上内容由遇见数据集搜集并总结生成



