SoM Dataset

Name: SoM Dataset
Creator: Authors of the paper
License: 暂无描述

arXiv2025-09-30 收录

下载链接：

https://github.com/zzxslp/SoM-LLaVA

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了带有数字标签的图像，使得模型能够将视觉对象与标签关联起来，并以结构化的方式描述它们。此外，该数据集能够提升多模态大型语言模型（MLLMs）的视觉推理能力，并减少其产生的幻觉现象，同时允许通过文本标记有效地引用视觉对象。该数据集规模在1万至3万张带有标签的图像之间，其任务旨在为多模态大型语言模型（MLLMs）进行视觉定位与推理。

提供机构：

Authors of the paper

5,000+

优质数据集

54 个

任务类型

进入经典数据集