PinpointQA

Hugging Face2026-04-13 更新2026-04-14 收录

下载链接：

https://huggingface.co/datasets/RainChow/PinpointQA

下载链接

链接失效反馈

官方服务：

资源简介：

PinpointQA是一个专注于室内视频中小物体空间理解的数据集和基准测试。其核心目标是评估模型在给定小物体（如手机、充电器、遥控器或瓶子）时，能否判断其是否存在、通过附近参考物定位、精确描述其位置，并生成对下游系统直接有用的输出。数据集包含1,024个场景和10,094个QA对，涵盖102个标准目标类别，数据来源于ScanNet++和ScanNet200。PinpointQA组织为四个渐进式任务：目标存在验证（TPV）、最近参考物识别（NRI）、细粒度空间描述（FSD）和结构化空间预测（SSP）。数据集提供了基准注释和基于场景的中间空间表示，但不包含原始场景资产或转换后的视频文件。每个样本包含唯一标识符、场景ID、来源数据集、任务类型、问题文本、选项（如适用）、答案和目标物体名称等字段。PinpointQA适用于多模态模型在室内视频中小物体空间理解方面的基准测试、指令调优和监督微调，以及渐进式能力分析和基于参考的定位研究。

创建时间：

2026-04-01

原始信息汇总

PinpointQA 数据集概述

数据集基本信息

数据集名称: PinpointQA
语言: 英语 (en)
许可证: Apache-2.0
数据规模: 10K<n<100K
任务类别: 视频-文本到文本 (video-text-to-text)
标签: 基准测试 (benchmark)、空间理解 (spatial-understanding)、小物体 (small-object)、室内场景 (indoor-scenes)

核心目标与内容

PinpointQA 专注于一个实际问题：给定一个已知的小物体（如手机、充电器、遥控器或瓶子），模型能否判断它是否出现、通过附近的参考物定位它、精确描述其位置，并提供对下游系统直接有用的输出。

除了基准测试标注，本仓库还发布了在场景构建过程中建立的中间空间表示。这些文件保留了用于生成已发布问答对的目标中心局部空间上下文，可用于进一步分析或构建额外的基于真实场景的任务。

任务结构

PinpointQA 是一个渐进式的四阶段基准测试：

任务	名称	目标	输出格式
TPV	目标存在性验证	判断查询的小物体是否出现在场景中	`Yes` / `No`
NRI	最近参考物识别	识别目标最近的参考物体（不包括支撑面）	多项选择
FSD	细粒度空间描述	使用支撑面、附近参考物和厘米级距离描述目标位置	自然语言
SSP	结构化空间预测	以结构化形式输出相同的基于真实场景的空间信息	JSON

关键统计数据

场景数量: 1,024
问答对数量: 10,094
规范目标类别: 102
源数据集: ScanNet++, ScanNet200
任务分布 (在所有已发布问答对中): TPV 26.47%, NRI 23.10%, FSD 25.08%, SSP 25.34%
源数据分布 (在所有已发布问答对中): ScanNet++ 73.2%, ScanNet200 26.8%
发布的数据划分: 训练集 6,121 / 验证集 1,954 / 测试集 2,019

类别命名说明

PinpointQA 在基准定义层面包含 102 个规范目标类别。数据集中目标列报告了更多不同的字符串值，这是预期的：一些语义相同或相近的名称作为表面形式保留在已发布的文本字段中，以提高可读性以及与源标注或任务表述的兼容性。例如，命名变体如 mobile phone 和 phone。在论文和项目页面中报告基准统计数据时，我们按规范类别级别而非原始字符串表面级别进行计数。

数据集组织与字段

文件结构

PinpointQA/ ├── train.jsonl ├── validation.jsonl ├── test.jsonl ├── intermediate_spatial_representations/ │ ├── scene_xxx.json │ ├── scene_yyy.json │ └── ... └── README.md

已发布字段

id: 全局唯一的样本标识符
scene_id: 场景标识符
source_dataset: scannetpp 或 scannet200
local_sample_id: 场景内的局部样本索引
task: 简短的任务标签 (TPV, NRI, FSD, SSP)
question_type: 原始长格式任务名称
instruction: 任务指令
question: 面向用户的问题文本
choices: NRI 任务的候选选项，否则为 null
answer: 真实答案
target: 在已发布样本文本中使用的查询小物体名称
split: 数据划分名称

按任务划分的字段说明

TPV: answer 为 Yes 或 No
NRI: choices 包含四个候选物体；answer 是正确的选项文本
FSD: answer 是一个自然语言的位置描述
SSP: answer 是一个 JSON 格式的字符串，表示结构化的空间基础信息

中间空间表示

intermediate_spatial_representations/ 文件夹存储用于实例化 TPV、NRI、FSD 和 SSP 的基于真实场景的场景级表示。

每个文件对应一个场景，并与 scene_id 对齐。
这些文件保留了用于问答构建的目标中心局部空间上下文。
发布的内容包括基于真实场景的信息，如目标物体、支撑面、附近参考物和局部空间关系/距离。

空间语义

支撑面与参考物体

支撑面 是在最终基于真实场景的表示中直接支撑目标物体的表面。

在 NRI 中，支撑面被排除在候选参考选项之外。
在 FSD 和 SSP 中，支撑面作为一个独立的字段被保留，因为它通常是必要的定位锚点。
附近的参考物是用于描述或构建目标最终位置的额外局部物体。

距离

FSD 和 SSP 中的距离源自基于真实场景的场景几何，并在发布的基准测试输出中以厘米表示。

源数据准备说明

重要提示：此仓库仅发布基准测试标注和中间空间表示。它不重新分发原始场景资源或转换后的视频文件。要重现基于视频的实验，用户应首先根据ScanNet++ 和 ScanNet v2 / ScanNet200 的官方来源获取原始资源，并遵守其各自的许可证和访问要求。

源数据集链接

ScanNet++: https://scannetpp.mlsg.cit.tum.de/scannetpp/
ScanNet v2 / ScanNet200:
- 官方网站: http://www.scan-net.org/
- ScanNet200 基准测试文档: https://kaldir.vc.in.tum.de/scannet_benchmark/documentation

视频转换工具

ScanNet++ 和 ScanNet v2 / ScanNet200 的源资源并非以现成的 MP4 视频文件形式分发。如果您的流程需要标准视频文件，我们在项目 GitHub 仓库中提供了转换脚本：

工具文件夹: https://github.com/rainchowz/PinpointQA/tree/main/tools

预期用途

PinpointQA 适用于：

在室内视频中对多模态模型进行小物体中心空间理解的基准测试
针对基于真实场景的空间问答任务进行指令微调或有监督微调
研究从目标存在性到结构化空间输出的渐进能力细分
分析多模态系统中基于参考物的定位和空间基础行为

非预期用途

PinpointQA 不适用于：

所有视频理解能力的通用基准测试
替代开放世界物体跟踪或密集视频描述基准测试
室外场景、无约束机器人技术或动态多智能体交互的基准测试
原始场景资源或视频文件的独立来源

限制与偏差

用户应注意以下限制：

基准测试仅限于室内场景。
它特别关注小物体中心的定位和空间表达，而非全场景理解。
发布的问答对是基于真实场景的几何和基准逻辑构建的，因此某些答案风格可能比无约束的人类语言更规则。
一些目标名称即使映射到相同的规范类别，也作为不同的发布表面形式被保留。
该仓库不重新分发原始视频或原始场景资源，因此复现需要单独访问源数据集。

质量保证

我们结合自动过滤和人工审查来提高数据集的准确性和一致性。

无效标签以及背景或结构物体被过滤掉。
仅保留满足预定义小物体词汇表的目标实例。
仅对场景内具有唯一标签的目标实例生成问题。
NRI 样本包含四个不同的候选选项。
FSD 答案被限制为人类可读且面向定位的。
SSP 输出需要包含可解析的关键字段。
应用迭代式人工抽查来完善模板和问答逻辑。

许可证与上游数据声明

此仓库中的 Apache-2.0 许可证适用于本仓库中发布的基准测试标注和中间空间表示。原始场景资源仍受 ScanNet++ 和 ScanNet v2 / ScanNet200 的官方条款、许可证和访问条件的约束。用户有责任根据相应的原始条款获取和使用上游源数据。

性能概览

下表显示了整体基准测试结果的代表性子集。我们报告了 TPV、NRI、FSD 和 SSP 的平均分数，其中 Avg Micro 是任务级微平均分数的算术平均值，Avg Macro 是任务级宏平均分数的算术平均值。

排名	模型	Avg Micro	Avg Macro
1	Qwen3-VL-8B-Instruct-SFT	0.48	0.49
2	InternVL3.5-8B-Instruct-SFT	0.45	0.45
3	Kimi K2.5	0.42	0.44
4	Qwen3-VL-8B-Instruct	0.39	0.40
5	GPT-5.4	0.38	0.40

资源链接

项目页面: https://rainchowz.github.io/PinpointQA
GitHub 仓库: https://github.com/rainchowz/PinpointQA
讨论区: https://huggingface.co/datasets/RainChow/PinpointQA/discussions
联系方式: zhouzy1622@mails.jlu.edu.cn

引用

bibtex @article{zhou2026pinpointqa, author = {Zhiyu Zhou and Peilin Liu and Ruoxuan Zhang and Luyang Zhang and Cheng Zhang and Hongxia Xie and Wen-Huang Cheng}, title = {PinpointQA: A Dataset and Benchmark for Small Object-Centric Spatial Understanding in Indoor Videos}, journal = {arXiv preprint arXiv:2604.08991}, year = {2026} }

搜集汇总

数据集介绍

构建方式

在室内视觉理解领域，PinpointQA数据集的构建依托于ScanNet++与ScanNet200两大权威三维场景数据集。通过系统化筛选与标注流程，研究团队从1024个室内场景中提取出102类小型目标物体，并基于场景几何信息生成空间表示。每个样本均经过自动过滤与人工复核，确保目标实例具有唯一标签且满足预定义的小物体词汇表，进而衍生出包含目标存在验证、最近参考识别、细粒度空间描述及结构化空间预测的四阶段渐进式问答对，共计10094条高质量标注数据。

特点

该数据集的核心特征在于其专注于室内视频中小型物体的空间理解，通过渐进式任务设计系统评估模型的多模态推理能力。数据集中不仅包含详尽的问答标注，还提供了基于场景的中间空间表示，这些表示保留了以目标为中心的空间上下文信息，支持进一步的分析与任务构建。此外，数据集在类别命名上区分了规范类别与表面形式，确保了统计的一致性与文本的可读性，其任务分布均衡，涵盖了从二元判断到结构化输出的完整能力谱系。

使用方法

研究者可通过Hugging Face的`datasets`库便捷加载PinpointQA数据集，并依据标准划分获取训练、验证与测试集。每个样本均包含场景标识、任务类型、问题指令及标准答案等结构化字段。对于需要原始视频的研究，用户需依据许可分别从ScanNet++与ScanNet200官方渠道获取场景资产，并利用项目提供的转换脚本将其转为标准视频格式。该数据集适用于多模态模型的基准测试、指令微调以及对渐进式空间理解能力的系统性研究。

背景与挑战

背景概述

PinpointQA数据集于2026年由Zhiyu Zhou等研究人员提出，旨在推动室内视频中小物体空间理解的研究。该数据集源自ScanNet++和ScanNet200等知名三维场景数据集，包含超过一万个问答对，覆盖一百余种小物体类别。其核心研究问题聚焦于多模态模型能否在复杂室内环境中，对手机、遥控器等小型目标进行存在性验证、近邻参照物识别、精细化空间描述及结构化空间预测。这一工作为视觉语言模型在具身智能与机器人交互等领域的空间推理能力提供了系统化的评估基准。

当前挑战

PinpointQA所应对的领域挑战在于室内场景中小物体的精准空间理解，这要求模型克服目标尺寸小、视觉特征微弱、以及与周围环境物体关系复杂等难题。在数据集构建过程中，研究者需从原始三维场景数据中提取并标注小物体的空间信息，涉及几何关系计算与自然语言描述的映射，同时需确保问答对在语义上的严谨性与多样性。此外，数据集的创建还面临源数据授权与格式转换的技术障碍，以及在不同任务间保持评估指标一致性的挑战。

常用场景

经典使用场景

在室内场景视觉理解领域，PinpointQA数据集为评估多模态模型对小物体的空间感知能力提供了标准化基准。其经典使用场景聚焦于渐进式四阶段任务：首先验证目标物体是否存在，随后识别其最近参照物，进而生成厘米级精度的自然语言空间描述，最终输出结构化空间预测。这一设计使得研究者能够系统性地剖析模型从物体检测到精细化空间推理的完整认知链条，尤其适用于分析模型在复杂室内环境中对手机、遥控器等小型物品的定位与描述性能。

衍生相关工作

该数据集的发布催生了一系列聚焦小物体空间理解的衍生研究。基于其四阶段任务框架，学者们提出了多种融合视觉-语言特征的神经网络架构，如针对NRI任务的图注意力网络改进模型。同时，其发布的中间空间表征文件激发了关于空间知识蒸馏的新方向，部分工作尝试将这些几何先验知识注入轻量级模型。此外，数据集的任务设计理念也被扩展到室外场景与小物体追踪领域，形成了新的研究分支。

数据集最近研究