five

MV-ScanQA 和 TripAlign

收藏
arXiv2025-08-15 更新2025-11-27 收录
下载链接:
https://matthewdm0816.github.io/tripalign-mvscanqa/
下载链接
链接失效反馈
官方服务:
资源简介:
MV-ScanQA 是一个用于评估多视图场景理解和组合推理能力的 3D 问答数据集,其中 68% 的问题需要整合来自多个视图的信息。TripAlign 是一个大规模的 2D-3D-语言语料库,包含超过 100 万个三元组,通过 2D 视图作为中介,自然地将多个上下文相关的对象组合在一起,从而实现更密集的多对象注释。这两个数据集旨在解决现有 3D 视觉语言数据集在多视图推理和稀疏注释方面的局限性,为 3D 视觉语言模型的训练和评估提供了新的挑战和机会。

MV-ScanQA is a 3D question answering dataset developed to evaluate multi-view scene understanding and compositional reasoning capabilities, with 68% of its questions requiring the integration of information from multiple views. TripAlign is a large-scale 2D-3D-language corpus containing over one million triples, which naturally groups multiple contextually related objects via 2D views as an intermediary to enable denser multi-object annotations. These two datasets aim to address the limitations of existing 3D vision-language datasets in multi-view reasoning and sparse annotation, providing novel challenges and opportunities for the training and evaluation of 3D vision-language models.
提供机构:
北京大学
创建时间:
2025-08-15
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作