five

Multi-vision Sensor Perception and Reasoning (MS-PR) benchmark

收藏
github2025-01-02 更新2025-01-03 收录
下载链接:
https://github.com/top-yun/MS-PR
下载链接
链接失效反馈
官方服务:
资源简介:
该基准数据集旨在评估视觉语言模型(VLMs)在传感器特定推理任务中的能力。数据集包含三种类型的传感器(热成像、深度、X射线)和六种类型的问题(存在、计数、位置、场景描述、上下文推理、传感器推理),共有约6000个问题和答案。

This benchmark dataset is designed to evaluate the capabilities of Vision-Language Models (VLMs) on sensor-specific reasoning tasks. It includes three types of sensors: thermal imaging, depth, and X-ray, as well as six categories of questions: existence, counting, location, scene description, contextual reasoning, and sensor reasoning, with approximately 6,000 question-answer pairs in total.
创建时间:
2024-12-27
原始信息汇总

Multi-vision Sensor Perception and Reasoning Benchmark (MS-PR)

数据集概述

MS-PR 是一个用于评估视觉语言模型(VLMs)在传感器特定推理任务上的基准数据集。该数据集旨在解决多视觉传感器图像与传感器数据之间的核心信息差距,通过引入 Diverse Negative Attributes (DNA) 优化,显著提升了 VLMs 在多视觉传感器场景中的推理能力。

数据集内容

  • 传感器类型:热成像(Thermal)、深度(Depth)、X射线(X-ray)
  • 问题类型:存在性(Existence)、计数(Count)、位置(Position)、场景描述(Scene Description)、上下文推理(Contextual Reasoning)、传感器推理(Sensor Reasoning)
  • 数据规模:约 6,000 个问题和答案
  • 问题分类:多视觉感知(Multi-vision Perception)和多视觉推理(Multi-vision Reasoning)

数据集获取

数据集可通过 Huggingface 下载: python from datasets import load_dataset test_dataset = load_dataset("topyun/MS-PR", split="train")

评估方法

提供了两种评估代码示例:

引用

@misc{chung2024visionlanguagemodelstrulyunderstanding, title={Are Vision-Language Models Truly Understanding Multi-vision Sensor?}, author={Sangyun Chung and Youngjoon Yu and Youngchae Chee and Se Yeon Kim and Byung-Kwan Lee and Yong Man Ro}, year={2024}, eprint={2412.20750}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2412.20750}, }

搜集汇总
数据集介绍
main_image_url
构建方式
Multi-vision Sensor Perception and Reasoning (MS-PR) benchmark 数据集的构建旨在评估视觉语言模型(VLMs)在传感器特定推理任务中的表现。该数据集通过整合热成像、深度感知和X射线三种传感器数据,并结合六类问题(存在性、计数、位置、场景描述、上下文推理和传感器推理),生成了约6000个问答对。数据集的构建过程中,特别关注了传感器信息的深度理解,并提出了Diverse Negative Attributes (DNA)优化方法,以弥补图像与传感器数据之间的核心信息差距,从而提升模型在多视觉传感器场景中的推理能力。
特点
MS-PR benchmark 数据集的特点在于其多传感器数据的多样性和复杂性。数据集涵盖了热成像、深度感知和X射线三种传感器,每类传感器数据均与六类问题相结合,形成了丰富的问答对。此外,数据集通过DNA优化方法,显著提升了视觉语言模型在多传感器场景中的推理能力。数据集的构建不仅关注感知任务,还深入探讨了推理任务,为模型提供了全面的评估框架。
使用方法
MS-PR benchmark 数据集的使用方法简便且灵活。用户可通过Huggingface平台直接下载数据集,并使用提供的Python代码进行模型评估。数据集支持多GPU并行计算,用户可根据硬件配置调整实验参数。此外,数据集提供了开放式模型和封闭式模型的评估示例代码,用户可根据需求选择适合的模型进行测试。评估过程中,系统通过检测回答中的特定关键词(如‘A’、‘B’、‘C’、‘D’、‘yes’、‘no’)来判断模型的准确性,用户可通过调整提示词进一步优化评估结果。
背景与挑战
背景概述
Multi-vision Sensor Perception and Reasoning (MS-PR) benchmark 是由Sangyun Chung等研究人员于2024年提出的一项基准数据集,旨在评估视觉语言模型(VLMs)在多视觉传感器任务中的推理能力。该数据集包含热成像、深度成像和X射线成像三种传感器类型,以及六种问题类型,涵盖了存在性、数量、位置、场景描述、上下文推理和传感器推理等多个方面。MS-PR的创建源于当前大规模视觉语言模型在处理多视觉传感器图像时,缺乏对传感器独特物理属性的深入理解,导致其在复杂问题上的推理能力受限。通过引入Diverse Negative Attributes (DNA)优化方法,MS-PR显著提升了VLMs在多视觉传感器场景中的推理表现,为相关领域的研究提供了重要的基准和工具。
当前挑战
MS-PR benchmark 在构建和应用过程中面临多重挑战。首先,视觉语言模型在处理多视觉传感器数据时,往往过度依赖RGB图像的先验知识,导致对热成像、深度成像和X射线成像等传感器数据的理解不足。其次,由于每种传感器的数据集获取难度较大,现有的指令微调数据集较为有限,限制了模型的泛化能力。此外,多视觉传感器数据的物理属性差异显著,如何有效对齐这些属性与感知信息,成为模型训练中的一大难题。MS-PR通过引入DNA优化方法,利用多样化的错误答案抑制RGB图像的过度依赖,从而在一定程度上缓解了这些问题,但仍需进一步探索更高效的模型训练和评估策略。
常用场景
经典使用场景
Multi-vision Sensor Perception and Reasoning (MS-PR) benchmark 数据集在视觉语言模型(VLMs)的研究中扮演着重要角色,特别是在多视觉传感器感知与推理任务中。该数据集通过提供热成像、深度感知和X射线三种传感器数据,结合六类问题(存在性、计数、位置、场景描述、上下文推理、传感器推理),为研究者提供了一个全面的评估平台。经典的使用场景包括对VLMs在多传感器环境下的推理能力进行测试和优化,尤其是在处理复杂问题时,模型如何结合不同传感器的物理特性进行深度理解。
衍生相关工作
MS-PR 数据集的发布推动了多传感器感知与推理领域的相关研究。基于该数据集,研究者们提出了多种优化方法,如DNA优化技术,显著提升了VLMs在多传感器任务中的表现。此外,该数据集还激发了多模态感知与推理模型的开发,例如结合热成像与深度感知的联合推理模型,以及基于X射线图像的上下文推理模型。这些衍生工作不仅拓展了多传感器数据的应用场景,也为多模态人工智能的发展提供了新的研究思路。
数据集最近研究
最新研究方向
在视觉语言模型(VLMs)领域,Multi-vision Sensor Perception and Reasoning (MS-PR) benchmark的推出标志着对多视觉传感器感知与推理能力的深入探索。该数据集聚焦于热成像、深度感知和X射线三种传感器,设计了六类问题,旨在评估模型在复杂传感器数据下的推理能力。通过引入Diverse Negative Attributes (DNA)优化方法,该研究有效解决了图像与传感器数据之间的信息鸿沟,显著提升了模型在多视觉传感器场景中的推理表现。这一进展不仅为VLMs在多模态感知任务中的性能提升提供了新的思路,也为未来智能系统在医疗、安防等领域的应用奠定了技术基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作