GazeSeg
收藏arXiv2024-11-30 更新2024-12-06 收录
下载链接:
http://arxiv.org/abs/2412.00309v1
下载链接
链接失效反馈官方服务:
资源简介:
GazeSeg数据集是由合肥工业大学和浙江大学联合创建的,旨在解决自然场景中视线跟随和目标识别的问题。该数据集包含77.5万张图像,每张图像都有像素级的注释,涵盖270个不同的目标类别。数据集的创建过程结合了现有的GazeFollow数据集,并通过引入新的注释协议来提高数据质量。GazeSeg数据集的应用领域广泛,包括社交互动、自闭症诊断和人与计算机交互等,旨在通过精确的像素级预测来提升视线跟随任务的性能。
GazeSeg is a dataset jointly created by Hefei University of Technology and Zhejiang University, which aims to address the challenges of gaze following and target recognition in natural scenes. This dataset consists of 775,000 images, each paired with pixel-level annotations covering 270 distinct target categories. During its development, GazeSeg incorporates the existing GazeFollow dataset and introduces a novel annotation protocol to improve data quality. The GazeSeg dataset has a wide range of application scenarios including social interaction, autism diagnosis and human-computer interaction, with the goal of enhancing the performance of gaze following tasks through precise pixel-level prediction.
提供机构:
合肥工业大学, 浙江大学
创建时间:
2024-11-30
搜集汇总
数据集介绍

构建方式
GazeSeg数据集的构建基于GazeFollow数据集,通过引入像素级注释扩展了其范围。具体而言,该数据集包含了77,496张图像,每张图像都带有像素级的注释,涵盖了270个不同的类别。构建过程中,首先利用现有的注释点识别目标对象,并参考MS-COCO和ImageNet数据集对对象进行掩码和类别标注。对于多目标点的注释,综合考虑所有点以确定目标,通常以中心点为主要参考。此外,为了确保数据质量,移除了目标模糊或目标类别出现频率极低的图像。
特点
GazeSeg数据集的显著特点在于其像素级的注释和高度的场景多样性。该数据集不仅包含了室内和室外的多种场景,还涵盖了270个不同的对象类别,这些类别遵循长尾分布,增加了数据集的挑战性。此外,GazeSeg是首个在第三人称视角下进行像素级注释的自然场景数据集,为研究提供了丰富的语义信息和准确的定位信息。
使用方法
GazeSeg数据集适用于多种视觉任务,特别是需要高精度目标定位和语义理解的任务。研究者可以利用该数据集进行模型训练和评估,特别是在需要进行像素级分割和目标识别的场景中。使用时,建议结合数据集提供的像素级注释和类别信息,进行多任务学习,如方向估计、目标分割和识别等。此外,数据集的多样性和高注释质量也使其成为开发和测试新算法的有力工具。
背景与挑战
背景概述
GazeSeg数据集由合肥工业大学和浙江大学的研究人员于2024年创建,旨在解决自然场景中多样物体注视目标预测的问题。该数据集基于GazeFollow数据集,包含72,000张图像,具有像素级注视目标标注和270个类别。GazeSeg的核心研究问题是如何在复杂场景中准确预测注视目标,并提供清晰的语义和精确的范围。这一研究对理解人类行为、社交互动、自闭症诊断和人类-计算机交互等领域具有重要影响。
当前挑战
GazeSeg数据集面临的挑战包括:1) 自然场景中物体多样性和复杂性带来的注视目标预测困难;2) 现有方法主要关注注视点而非物体,导致语义和范围不明确;3) 数据集构建过程中,像素级标注的复杂性和高成本;4) 模型在处理模糊物体和位置时的不确定性;5) 实际应用中,注视跟随结果的初始化和实用性问题。这些挑战要求研究者开发新的方法,以提高注视目标预测的准确性和实用性。
常用场景
经典使用场景
GazeSeg数据集在视觉领域中被广泛应用于视线追踪任务,特别是在自然场景中进行像素级别的视线目标预测。该数据集通过提供72k张带有像素级注释的图像,涵盖270个不同的视线目标类别,为研究人员提供了一个丰富的资源库。经典的使用场景包括视线方向估计、视线目标分割和识别,这些任务在社交互动、自闭症诊断和人类-计算机交互等应用中具有重要意义。
解决学术问题
GazeSeg数据集解决了现有视线追踪方法在自然场景中表现不佳的问题,特别是那些仅关注视线点而非目标对象的方法。通过提供像素级别的注释,该数据集促进了视线目标的精确分割和识别,从而解决了视线追踪中的模糊对象和位置问题。这不仅提高了视线追踪的准确性,还为多任务框架的发展提供了基础,推动了视线追踪技术的进步。
衍生相关工作
基于GazeSeg数据集,许多相关工作得以展开,推动了视线追踪技术的发展。例如,一些研究通过结合深度信息和图像特征,进一步提升了视线目标的预测精度。此外,基于Transformer的架构也被应用于视线追踪任务,显示出在处理复杂场景中的潜力。这些衍生工作不仅扩展了视线追踪的应用范围,还为未来的研究提供了新的方向和方法。
以上内容由遇见数据集搜集并总结生成



