five

MMVM Benchmark|多模态视觉匹配数据集|视觉推理数据集

收藏
arXiv2025-01-09 更新2025-01-10 收录
多模态视觉匹配
视觉推理
下载链接:
https://github.com/zhouyiks/CoLVA
下载链接
链接失效反馈
资源简介:
MMVM Benchmark是由武汉大学、字节跳动Seed等机构共同构建的多模态视觉匹配基准数据集,旨在评估多模态大语言模型在视觉匹配任务中的表现。该数据集包含1510个手动标注的多图像问答对,数据来源于15个公开数据集和互联网视频平台,涵盖了室内、城市、荒野等多种场景。数据集通过自动标注管道生成,包含220K视觉匹配数据,并带有推理标注。MMVM Benchmark的应用领域主要集中在视觉匹配任务,旨在解决多模态大语言模型在视觉对应性理解上的不足,提升其在视觉推理和匹配任务中的表现。
提供机构:
武汉大学, 字节跳动Seed, 北京大学, 浙江大学, STJU
创建时间:
2025-01-09
AI搜集汇总
数据集介绍
main_image_url
构建方式
MMVM Benchmark的构建基于15个开源数据集和互联网视频,经过人工标注和筛选,最终形成了1510个多图像问答对。数据样本涵盖了室内、城市、卡牌游戏等多种场景,并通过自动标注管道生成了包含22万条视觉匹配数据的MMVM SFT数据集。数据集的构建过程包括从公开数据集中筛选最具挑战性的样本,并结合互联网视频平台的手动选择,确保数据的多样性和复杂性。
特点
MMVM Benchmark的特点在于其多模态视觉匹配任务的设计,涵盖了颜色、形状、姿态、大小、相对位置、物体方向与运动、绑定关系以及物体标记等八个方面的匹配能力评估。数据集不仅包含视觉提示,还通过文本提示来全面评估多模态大语言模型(MLLMs)的视觉匹配性能。此外,数据集中的每个样本都经过三名熟练标注者的交叉验证,确保了标注的准确性。
使用方法
MMVM Benchmark的使用方法主要包括通过多图像问答对的形式进行评估。模型需要根据问题和图像对从给定的选项中选择正确答案。数据集的设计使得模型不仅需要理解基本的视觉信息,如颜色、大小和位置,还需要通过复杂的推理能力来匹配物体。此外,数据集还提供了自动生成的匹配原因,帮助模型在训练过程中更好地理解视觉匹配的逻辑。
背景与挑战
背景概述
MMVM Benchmark(多模态视觉匹配基准)是由武汉大学、字节跳动种子、北京大学、浙江大学等机构的研究团队于2025年提出的一个多模态大语言模型(MLLMs)视觉匹配能力的评估基准。该基准旨在解决当前MLLMs在视觉匹配任务中的系统性不足,特别是在跨图像实例级对应关系上的表现。MMVM Benchmark基于15个开源数据集和互联网视频构建,包含1,510个手动标注的多图像问答对,涵盖了室内、城市、卡牌游戏等多种场景。该基准的提出填补了多模态模型在视觉匹配能力评估上的空白,并为相关领域的研究提供了重要的数据支持。
当前挑战
MMVM Benchmark面临的挑战主要体现在两个方面:首先,视觉匹配任务本身具有较高的复杂性,尤其是在跨图像场景中,模型需要准确识别并匹配具有相似外观、位置或运动特征的对象。当前MLLMs在处理此类任务时,往往难以捕捉细粒度的视觉特征,导致匹配精度较低。其次,数据集的构建过程中,手动标注的复杂性和多样性带来了巨大的挑战。尽管采用了自动标注流水线生成220K视觉匹配数据,但如何确保标注的准确性和一致性,尤其是在多图像、多对象场景中,仍然是一个亟待解决的问题。此外,模型在处理密集对象场景时容易产生幻觉,进一步增加了任务的难度。
常用场景
经典使用场景
MMVM Benchmark数据集主要用于评估多模态大语言模型(MLLMs)在视觉匹配任务中的表现。通过提供多对图像及其对应的问答对,该数据集能够测试模型在不同场景下识别和匹配视觉对象的能力。经典使用场景包括图像对中的对象匹配、视觉推理以及跨图像的视觉对应关系分析。这些任务要求模型不仅能够理解单个图像中的对象特征,还能在不同图像之间进行准确的视觉对应。
实际应用
在实际应用中,MMVM Benchmark数据集可用于提升多模态模型在视觉对应任务中的性能,特别是在需要跨图像匹配的场景中。例如,在视频监控、自动驾驶和医学影像分析等领域,模型需要准确识别和匹配不同图像中的相同对象。通过在该数据集上进行训练和评估,模型能够在这些实际应用中表现出更强的视觉对应能力,从而提高系统的整体性能和可靠性。
衍生相关工作
MMVM Benchmark的推出催生了一系列相关研究工作,特别是在多模态大语言模型的视觉对应任务改进方面。基于该数据集,研究者提出了CoLVA模型,通过对象级对比学习和指令增强策略显著提升了模型在视觉匹配任务中的表现。此外,该数据集还激发了更多关于跨图像视觉对应任务的研究,推动了多模态模型在视觉推理和对象匹配领域的进一步发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

poi

本项目收集国内POI兴趣点,当前版本数据来自于openstreetmap。

github 收录

VoxBox

VoxBox是一个大规模语音语料库,由多样化的开源数据集构建而成,用于训练文本到语音(TTS)系统。

github 收录

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

威廉王岛—全球变化数据大百科辞条

威廉王岛(King William Island)位于北美洲,北极圈内,属于加拿大北极群岛。它位于维多利亚岛和布西亚半岛之间,距离维多利亚岛85 km;北面距离威尔士亲王岛155 km;南面隔斯托里斯海峡和辛普森海峡与北美洲大陆(阿德莱德半岛)相望,最近处只有3.3 km。威廉王岛于1830年被指挥官詹姆斯.罗斯(James Ross)发现,以当时在位的英国君主威廉四世的名字命名。行政区划上,威廉王岛隶属于加拿大努纳武特(Nunavut)地区。它的地理位置为:69&deg54′22″N - 68&deg27′12″N,99&deg32′48″W - 95&deg09′25″W。威廉王岛总面积13259.59 km&sup2,海岸线总长1555.35 km。岛屿地势平坦,表面散布着无数的小湖。位于岛屿东南侧的约阿港(Gjoa Haven)是岛上最主要的居民点。在约阿港东北,有一机场。该数据集是基于Google Earth遥感影像全球多尺度海陆(岛)岸线数据集(2015),结合加拿大相关地图完成。数据集由24个数据文件组成,以.kmz和.shp数据格式存储,数据量2.98 MB(压缩成3个数据文件,数据量2.06 MB)。

国家对地观测科学数据中心 收录

PlantVillage

在这个数据集中,39 种不同类别的植物叶子和背景图像可用。包含 61,486 张图像的数据集。我们使用了六种不同的增强技术来增加数据集的大小。这些技术是图像翻转、伽玛校正、噪声注入、PCA 颜色增强、旋转和缩放。

OpenDataLab 收录