PinpointQA
收藏PinpointQA 数据集概述
数据集基本信息
- 数据集名称: PinpointQA
- 语言: 英语 (en)
- 许可证: Apache-2.0
- 数据规模: 10K<n<100K
- 任务类别: 视频-文本到文本 (video-text-to-text)
- 标签: 基准测试 (benchmark)、空间理解 (spatial-understanding)、小物体 (small-object)、室内场景 (indoor-scenes)
核心目标与内容
PinpointQA 专注于一个实际问题:给定一个已知的小物体(如手机、充电器、遥控器或瓶子),模型能否判断它是否出现、通过附近的参考物定位它、精确描述其位置,并提供对下游系统直接有用的输出。
除了基准测试标注,本仓库还发布了在场景构建过程中建立的中间空间表示。这些文件保留了用于生成已发布问答对的目标中心局部空间上下文,可用于进一步分析或构建额外的基于真实场景的任务。
任务结构
PinpointQA 是一个渐进式的四阶段基准测试:
| 任务 | 名称 | 目标 | 输出格式 |
|---|---|---|---|
| TPV | 目标存在性验证 | 判断查询的小物体是否出现在场景中 | Yes / No |
| NRI | 最近参考物识别 | 识别目标最近的参考物体(不包括支撑面) | 多项选择 |
| FSD | 细粒度空间描述 | 使用支撑面、附近参考物和厘米级距离描述目标位置 | 自然语言 |
| SSP | 结构化空间预测 | 以结构化形式输出相同的基于真实场景的空间信息 | JSON |
关键统计数据
- 场景数量: 1,024
- 问答对数量: 10,094
- 规范目标类别: 102
- 源数据集: ScanNet++, ScanNet200
- 任务分布 (在所有已发布问答对中): TPV 26.47%, NRI 23.10%, FSD 25.08%, SSP 25.34%
- 源数据分布 (在所有已发布问答对中): ScanNet++ 73.2%, ScanNet200 26.8%
- 发布的数据划分: 训练集 6,121 / 验证集 1,954 / 测试集 2,019
类别命名说明
PinpointQA 在基准定义层面包含 102 个规范目标类别。
数据集中目标列报告了更多不同的字符串值,这是预期的:一些语义相同或相近的名称作为表面形式保留在已发布的文本字段中,以提高可读性以及与源标注或任务表述的兼容性。例如,命名变体如 mobile phone 和 phone。
在论文和项目页面中报告基准统计数据时,我们按规范类别级别而非原始字符串表面级别进行计数。
数据集组织与字段
文件结构
PinpointQA/ ├── train.jsonl ├── validation.jsonl ├── test.jsonl ├── intermediate_spatial_representations/ │ ├── scene_xxx.json │ ├── scene_yyy.json │ └── ... └── README.md
已发布字段
id: 全局唯一的样本标识符scene_id: 场景标识符source_dataset:scannetpp或scannet200local_sample_id: 场景内的局部样本索引task: 简短的任务标签 (TPV,NRI,FSD,SSP)question_type: 原始长格式任务名称instruction: 任务指令question: 面向用户的问题文本choices: NRI 任务的候选选项,否则为nullanswer: 真实答案target: 在已发布样本文本中使用的查询小物体名称split: 数据划分名称
按任务划分的字段说明
- TPV:
answer为Yes或No - NRI:
choices包含四个候选物体;answer是正确的选项文本 - FSD:
answer是一个自然语言的位置描述 - SSP:
answer是一个 JSON 格式的字符串,表示结构化的空间基础信息
中间空间表示
intermediate_spatial_representations/ 文件夹存储用于实例化 TPV、NRI、FSD 和 SSP 的基于真实场景的场景级表示。
- 每个文件对应一个场景,并与
scene_id对齐。 - 这些文件保留了用于问答构建的目标中心局部空间上下文。
- 发布的内容包括基于真实场景的信息,如目标物体、支撑面、附近参考物和局部空间关系/距离。
空间语义
支撑面与参考物体
支撑面 是在最终基于真实场景的表示中直接支撑目标物体的表面。
- 在 NRI 中,支撑面被排除在候选参考选项之外。
- 在 FSD 和 SSP 中,支撑面作为一个独立的字段被保留,因为它通常是必要的定位锚点。
- 附近的参考物是用于描述或构建目标最终位置的额外局部物体。
距离
FSD 和 SSP 中的距离源自基于真实场景的场景几何,并在发布的基准测试输出中以厘米表示。
源数据准备说明
重要提示:此仓库仅发布基准测试标注和中间空间表示。它不重新分发原始场景资源或转换后的视频文件。 要重现基于视频的实验,用户应首先根据ScanNet++ 和 ScanNet v2 / ScanNet200 的官方来源获取原始资源,并遵守其各自的许可证和访问要求。
源数据集链接
- ScanNet++: https://scannetpp.mlsg.cit.tum.de/scannetpp/
- ScanNet v2 / ScanNet200:
- 官方网站: http://www.scan-net.org/
- ScanNet200 基准测试文档: https://kaldir.vc.in.tum.de/scannet_benchmark/documentation
视频转换工具
ScanNet++ 和 ScanNet v2 / ScanNet200 的源资源并非以现成的 MP4 视频文件形式分发。如果您的流程需要标准视频文件,我们在项目 GitHub 仓库中提供了转换脚本:
- 工具文件夹: https://github.com/rainchowz/PinpointQA/tree/main/tools
预期用途
PinpointQA 适用于:
- 在室内视频中对多模态模型进行小物体中心空间理解的基准测试
- 针对基于真实场景的空间问答任务进行指令微调或有监督微调
- 研究从目标存在性到结构化空间输出的渐进能力细分
- 分析多模态系统中基于参考物的定位和空间基础行为
非预期用途
PinpointQA 不适用于:
- 所有视频理解能力的通用基准测试
- 替代开放世界物体跟踪或密集视频描述基准测试
- 室外场景、无约束机器人技术或动态多智能体交互的基准测试
- 原始场景资源或视频文件的独立来源
限制与偏差
用户应注意以下限制:
- 基准测试仅限于室内场景。
- 它特别关注小物体中心的定位和空间表达,而非全场景理解。
- 发布的问答对是基于真实场景的几何和基准逻辑构建的,因此某些答案风格可能比无约束的人类语言更规则。
- 一些目标名称即使映射到相同的规范类别,也作为不同的发布表面形式被保留。
- 该仓库不重新分发原始视频或原始场景资源,因此复现需要单独访问源数据集。
质量保证
我们结合自动过滤和人工审查来提高数据集的准确性和一致性。
- 无效标签以及背景或结构物体被过滤掉。
- 仅保留满足预定义小物体词汇表的目标实例。
- 仅对场景内具有唯一标签的目标实例生成问题。
- NRI 样本包含四个不同的候选选项。
- FSD 答案被限制为人类可读且面向定位的。
- SSP 输出需要包含可解析的关键字段。
- 应用迭代式人工抽查来完善模板和问答逻辑。
许可证与上游数据声明
此仓库中的 Apache-2.0 许可证适用于本仓库中发布的基准测试标注和中间空间表示。 原始场景资源仍受 ScanNet++ 和 ScanNet v2 / ScanNet200 的官方条款、许可证和访问条件的约束。用户有责任根据相应的原始条款获取和使用上游源数据。
性能概览
下表显示了整体基准测试结果的代表性子集。我们报告了 TPV、NRI、FSD 和 SSP 的平均分数,其中 Avg Micro 是任务级微平均分数的算术平均值,Avg Macro 是任务级宏平均分数的算术平均值。
| 排名 | 模型 | Avg Micro | Avg Macro |
|---|---|---|---|
| 1 | Qwen3-VL-8B-Instruct-SFT | 0.48 | 0.49 |
| 2 | InternVL3.5-8B-Instruct-SFT | 0.45 | 0.45 |
| 3 | Kimi K2.5 | 0.42 | 0.44 |
| 4 | Qwen3-VL-8B-Instruct | 0.39 | 0.40 |
| 5 | GPT-5.4 | 0.38 | 0.40 |
资源链接
- 项目页面: https://rainchowz.github.io/PinpointQA
- GitHub 仓库: https://github.com/rainchowz/PinpointQA
- 讨论区: https://huggingface.co/datasets/RainChow/PinpointQA/discussions
- 联系方式: zhouzy1622@mails.jlu.edu.cn
引用
bibtex @article{zhou2026pinpointqa, author = {Zhiyu Zhou and Peilin Liu and Ruoxuan Zhang and Luyang Zhang and Cheng Zhang and Hongxia Xie and Wen-Huang Cheng}, title = {PinpointQA: A Dataset and Benchmark for Small Object-Centric Spatial Understanding in Indoor Videos}, journal = {arXiv preprint arXiv:2604.08991}, year = {2026} }




