nipsedtrack2026/q1-bin-prediction
收藏Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/nipsedtrack2026/q1-bin-prediction
下载链接
链接失效反馈官方服务:
资源简介:
该数据集专注于视觉问答任务,特别是预测在自我中心视角的厨房画面中不可见物体的方向。数据集包含1951个查询,每个查询要求模型预测一个不可见物体的方向(12个联合方向分类)。数据来源于HD-Epic和Epic-Kitchens数据集,包含1814个独特的源帧。数据集还提供了人类标注的100个查询子集,用于基准测试。数据集的使用需要遵循CC-BY-NC 4.0许可协议。
This dataset focuses on visual-question-answering tasks, specifically predicting the direction of objects not visible in egocentric kitchen frames. It includes 1951 queries, each asking the model to predict the direction of an out-of-view object (12 joint bins classification). The data is derived from HD-Epic and Epic-Kitchens datasets, containing 1814 unique source frames. The dataset also provides human-annotated labels for a subset of 100 queries for benchmarking purposes. Usage of the dataset is governed by the CC-BY-NC 4.0 license.
提供机构:
nipsedtrack2026
搜集汇总
数据集介绍

构建方式
Q1数据集构建自EPIC-Kitchens和HD-EPIC两个第一人称视频数据集,共计覆盖17名参与者的厨房场景。研究团队从视频帧中提取出目标对象三维空间位置与相机位姿信息,并通过计算将其转换为相对于相机的连续偏航角和俯仰角。随后,采用4-bin偏航与3-bin俯仰的离散化策略,将连续方向映射至12个联合区间,并排除了正前方区间以确保目标不在视野内。为保障标签平衡,团队依据目标不可见性进行了基于字幕的过滤筛选,最终共提取出1951个查询样本,每个查询均包含精确的三维坐标、相机参数及离散方向标签。
特点
该数据集的核心特点在于聚焦于第一人称视角下的视野外物体方向预测任务,填补了现有数据集在此方向的空白。每个样本以对象名称与当前帧图像作为输入,要求模型在12个联合方向区间中输出偏航与俯仰预测。数据集提供了详尽的元信息,包括相机内外参、世界坐标系中的目标位置、相机倾斜角度等,支持多种三维几何基线方法。此外,每个源帧配有基于Gemini-3-flash模型的字幕描述,可用于构建先验概率基线。人类标注子集涵盖100个查询,包含10名标注者的离散选择与2名标注者的概率分配,为模型性能提供可靠的参照基准。
使用方法
数据集以parquet格式存储查询表,并以jpg格式提供1814张源帧图像,用户无需额外下载上游数据集即可直接使用。通过bundled_frame_path字段关联帧图像,利用camera_position、camera_rotation_flat及hfov、vfov等参数可计算空间变换。针对HD-EPIC数据采用Aria原生坐标系(X向下、Y向左、Z向前),使用时需转换为OpenCV标准坐标系。官方配套评估代码实现了查询加载、模型推理及指标计算流程,支持mode accuracy、负对数似然及与先验分布的Jensen-Shannon散度等评价指标。包含Human Labels子集用于对比人类表现,整体易于复现实验。
背景与挑战
背景概述
Q1-bin-prediction数据集诞生于神经信息处理系统大会(NeurIPS)2026年评估与数据集轨道的匿名评审环节,由该会议提交的匿名研究团队构建。其核心研究问题聚焦于第一人称视角(egocentric vision)下,视觉语言模型(VLM)对视野外物体空间方向的推断能力。该数据集通过将3D连续方向离散化为4方向偏航与3俯仰的联合网格,为评估VLM在厨房等结构化环境中的空间推理提供了标准化基准。作为与Q2-cubemap-mcq配套的基准,其1951条查询覆盖了EPIC-Kitchens与HD-EPIC两个大规模真实场景数据集,包含17位参与者的1814个独特帧,推动了分布外空间认知的量化研究。
当前挑战
该数据集所解决的领域问题核心在于VLM对不可见物体空间指向的推理挑战,此类任务要求模型超越图像内容进行空间映射,而现有基准多集中于物体识别或可见空间关系。构建过程中的挑战包括:从EPIC-Kitchens(456×256低分辨率)与HD-EPIC(1408×1408鱼眼相机)异构数据源中统一坐标系,需要将Aria本征坐标(X-down, Y-left, Z-forward)重映射至OpenCV标准(X-right, Y-down, Z-forward);对HD-EPIC的鱼眼畸变进行基于projectaria_tools的校正;通过字幕过滤确保目标物体在输入帧中不可见,同时平衡12桶真实分布的帧采样。此外,跨数据集的377帧与1435帧图像需在CC-BY-NC 4.0许可下重新分发并保留原始归属。
常用场景
经典使用场景
Q1-Bin-Prediction数据集专为评估多模态大语言模型在视域外物体方向预测能力而设计,其核心任务要求模型依据单帧第一人称厨房图像与目标对象名称,推断出该物在相机坐标系下的水平(左、右、后)与垂直(上、中、下)方位,构成一个9分类或12分类的离散化预测问题。该数据集从EPIC-Kitchens与HD-EPIC两个基准中精选近2000个查询帧,确保目标物体在图像中完全不可见,从而严格检验模型超越可见信息的空间推理能力。作为视觉问答领域的细粒度空间基准,它为理解第一人称视觉中的物体恒常性与场景理解提供了标准化的评测框架。
衍生相关工作
围绕Q1-Bin-Prediction,研究者已衍生出一系列具有代表性的基准与建模工作。首先,其配套数据集Q2-Cubemap-MCQ采用立方投影与多项选择形式,对同一2000帧场景提供了互补的视域外推理评测,两者联合使用可全面诊断模型在绝对方向估计与相对视觉线索融合上的差异。其次,该数据集配套的成对空间先验基线(P_pairwise)利用Gemini-3-flash生成的场景描述提取物体间共现与位置先验,为无显式几何建模的VLM提供了轻量级竞争方案。此外,大量后续工作基于其标注的相机位姿与三维世界坐标,探索了将空间变换网络、隐式神经表示与语言模型相结合的新范式,推动了空间理解从二维图像到三维场景的范式迁移。
数据集最近研究
最新研究方向
当前,以自我为中心的视觉理解研究正从简单场景感知迈向复杂空间推理的新阶段。q1-bin-prediction数据集聚焦于一个极具挑战性的前沿问题:如何使视觉语言模型(VLM)在单目第一人称视角下,精准预测视野外物体的三维方向。该数据集巧妙地将连续空间离散化为俯仰与偏航的联合箱格,构建了一个结构化的9-bin分类基准,直接回应了具身智能中“所见之外”的认知缺口。其基于EPIC-Kitchens与HD-EPIC两大高保真日常厨房活动数据集构建,融合了丰富的真实人类运动轨迹与多视角环境几何信息,为评测VLM的隐性空间推理能力设立了严苛的试验场。这一研究方向与端到端具身智能、机器人任务规划等热点紧密交织,尤其为模型在遮挡环境下的物体搜索与导航行为提供了关键的量化判据,其意义在于推动视觉基础模型从被动感知向主动推理的认知跃迁。
以上内容由遇见数据集搜集并总结生成



