SMIR

Name: SMIR
Creator: 加州大学伯克利分校, 斯坦福大学, 加州理工学院
Published: 2025-01-07 18:21:21
License: 暂无描述

arXiv2025-01-07 更新2025-01-09 收录

下载链接：

https://github.com/togethercomputer/SMiR

下载链接

链接失效反馈

官方服务：

资源简介：

SMIR数据集由加州大学伯克利分校、斯坦福大学和加州理工学院的研究团队开发，旨在解决多图像推理任务中的数据集稀缺问题。该数据集包含160,000个训练样本，通过多模态嵌入技术提取高度相关的图像，并结合开源大语言模型生成高质量的指令数据。数据集生成过程包括图像和文本的多模态嵌入构建、聚类算法以及基于开源模型的指令生成。SMIR数据集的应用领域主要集中在多图像推理任务中，旨在提升视觉-语言模型在多图像场景下的推理能力，解决现有开源模型在多图像任务中表现不佳的问题。

The SMIR dataset was developed by research teams from the University of California, Berkeley, Stanford University, and the California Institute of Technology, with the goal of addressing the scarcity of datasets for multi-image reasoning tasks. It contains 160,000 training samples, where highly correlated images are extracted using multimodal embedding technologies, and high-quality instruction data is generated in combination with open-source large language models. The dataset generation process involves the construction of multimodal embeddings for both images and text, clustering algorithms, and instruction generation based on open-source models. The SMIR dataset is primarily applied to multi-image reasoning tasks, aiming to improve the reasoning abilities of vision-language models in multi-image scenarios and resolve the underperformance issue of existing open-source models on multi-image tasks.

提供机构：

加州大学伯克利分校, 斯坦福大学, 加州理工学院

创建时间：

2025-01-07

搜集汇总

数据集介绍

构建方式

SMIR数据集的构建采用了高效的多模态数据生成管道，通过结合视觉和文本信息的多模态嵌入，提取高度相关的图像。该管道利用开源的大型语言模型（LLMs）生成高质量的指令，并通过聚类采样和图迭代采样算法确保数据的多样性和质量。最终，生成了16万个合成训练样本，为多图像推理任务提供了成本效益高的解决方案。

特点

SMIR数据集的特点在于其高度相关的图像对和复杂的推理指令，这些指令通过多模态嵌入和开源LLMs生成，确保了数据的多样性和挑战性。数据集包含160K个样本，涵盖了多图像推理的多种复杂任务，如比较、排序、故事叙述等。此外，SMIR-BENCH评估基准提供了200个多样化的多图像推理任务，进一步增强了数据集的实用性和评估能力。

使用方法

SMIR数据集的使用方法包括通过微调开源视觉语言模型（VLMs）来提升其在多图像推理任务中的表现。用户可以利用SMIR-BENCH基准对模型进行评估，通过多轮自由回答任务来全面评估模型的推理能力和表达能力。数据集的多模态嵌入和复杂指令设计使其特别适用于需要深度视觉和文本理解的任务，如跨图像的关系分析和复杂推理。

背景与挑战

背景概述

SMIR数据集由Together AI、加州大学伯克利分校、斯坦福大学和加州理工学院的研究团队于2025年提出，旨在解决多图像推理任务中的关键挑战。随着视觉-语言模型（VLMs）在单图像理解任务中的显著进展，多图像推理任务的开源社区研究仍相对滞后。SMIR通过引入高效的多图像推理合成数据生成管道，生成了包含16万条训练样本的高质量数据集，并提出了SMIR-BENCH评估基准，涵盖了7种复杂的多图像推理任务。该数据集通过结合多模态嵌入和开源大语言模型（LLMs），显著提升了开源VLMs在多图像推理任务中的表现，推动了多模态理解领域的发展。

当前挑战

SMIR数据集面临的挑战主要体现在两个方面：首先，多图像推理任务本身具有较高的复杂性，要求模型能够理解多张图像之间的关联并进行深层次推理，而现有数据集往往缺乏高质量的关联图像对，导致模型难以进行有效的训练。其次，数据集的构建过程面临资源密集和成本高昂的问题，尤其是在生成高质量的多图像关联样本时，传统的人工标注方法耗时且难以扩展。尽管SMIR通过合成数据生成管道缓解了这一问题，但如何进一步提升数据生成的效率和质量，仍然是未来研究的重要方向。此外，多图像推理任务的评估也面临挑战，传统的多选评估方法难以捕捉模型的推理过程，而SMIR-BENCH通过自由回答形式提供了更全面的评估框架，但其扩展性和自动化程度仍需进一步优化。

常用场景

经典使用场景

SMIR数据集在视觉-语言模型（VLMs）的多图像推理任务中展现了其独特的价值。通过生成高度相关的多图像样本，SMIR数据集能够有效支持模型在复杂推理任务中的表现，如多图像比较、关系分析和序列推理。其经典使用场景包括在开放源代码的VLMs上进行微调，以提升模型在多图像任务中的推理能力。

解决学术问题

SMIR数据集解决了多图像推理任务中的两大核心问题：一是缺乏高质量的多图像数据集，二是缺乏有效的评估基准。通过其高效的数据生成管道，SMIR能够生成160K个高质量的多图像推理样本，显著降低了数据收集和标注的成本。此外，SMIR-BENCH评估基准的引入，为多图像推理任务提供了全面的评估框架，推动了该领域的研究进展。

衍生相关工作

SMIR数据集的推出催生了一系列相关研究工作。例如，基于SMIR数据集的多图像推理任务优化方法被广泛应用于开放源代码的VLMs中，如Mantis和MMDU-45K。这些工作进一步扩展了SMIR的应用范围，推动了多图像推理任务的研究进展。此外，SMIR-BENCH评估基准的引入，也为后续的多模态模型评估提供了新的思路和方法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集