SMIR|多图像推理数据集|多模态嵌入数据集

arXiv2025-01-07 更新2025-01-09 收录

多图像推理

多模态嵌入

下载链接：

https://github.com/togethercomputer/SMiR

下载链接

链接失效反馈

资源简介：

SMIR数据集由加州大学伯克利分校、斯坦福大学和加州理工学院的研究团队开发，旨在解决多图像推理任务中的数据集稀缺问题。该数据集包含160,000个训练样本，通过多模态嵌入技术提取高度相关的图像，并结合开源大语言模型生成高质量的指令数据。数据集生成过程包括图像和文本的多模态嵌入构建、聚类算法以及基于开源模型的指令生成。SMIR数据集的应用领域主要集中在多图像推理任务中，旨在提升视觉-语言模型在多图像场景下的推理能力，解决现有开源模型在多图像任务中表现不佳的问题。

提供机构：

加州大学伯克利分校, 斯坦福大学, 加州理工学院

创建时间：

2025-01-07

AI搜集汇总

数据集介绍

构建方式

SMIR数据集的构建采用了高效的多模态数据生成管道，通过结合视觉和文本信息的多模态嵌入，提取高度相关的图像。该管道利用开源的大型语言模型（LLMs）生成高质量的指令，并通过聚类采样和图迭代采样算法确保数据的多样性和质量。最终，生成了16万个合成训练样本，为多图像推理任务提供了成本效益高的解决方案。

特点

SMIR数据集的特点在于其高度相关的图像对和复杂的推理指令，这些指令通过多模态嵌入和开源LLMs生成，确保了数据的多样性和挑战性。数据集包含160K个样本，涵盖了多图像推理的多种复杂任务，如比较、排序、故事叙述等。此外，SMIR-BENCH评估基准提供了200个多样化的多图像推理任务，进一步增强了数据集的实用性和评估能力。

使用方法

SMIR数据集的使用方法包括通过微调开源视觉语言模型（VLMs）来提升其在多图像推理任务中的表现。用户可以利用SMIR-BENCH基准对模型进行评估，通过多轮自由回答任务来全面评估模型的推理能力和表达能力。数据集的多模态嵌入和复杂指令设计使其特别适用于需要深度视觉和文本理解的任务，如跨图像的关系分析和复杂推理。

背景与挑战

背景概述

SMIR数据集由Together AI、加州大学伯克利分校、斯坦福大学和加州理工学院的研究团队于2025年提出，旨在解决多图像推理任务中的关键挑战。随着视觉-语言模型（VLMs）在单图像理解任务中的显著进展，多图像推理任务的开源社区研究仍相对滞后。SMIR通过引入高效的多图像推理合成数据生成管道，生成了包含16万条训练样本的高质量数据集，并提出了SMIR-BENCH评估基准，涵盖了7种复杂的多图像推理任务。该数据集通过结合多模态嵌入和开源大语言模型（LLMs），显著提升了开源VLMs在多图像推理任务中的表现，推动了多模态理解领域的发展。

当前挑战

SMIR数据集面临的挑战主要体现在两个方面：首先，多图像推理任务本身具有较高的复杂性，要求模型能够理解多张图像之间的关联并进行深层次推理，而现有数据集往往缺乏高质量的关联图像对，导致模型难以进行有效的训练。其次，数据集的构建过程面临资源密集和成本高昂的问题，尤其是在生成高质量的多图像关联样本时，传统的人工标注方法耗时且难以扩展。尽管SMIR通过合成数据生成管道缓解了这一问题，但如何进一步提升数据生成的效率和质量，仍然是未来研究的重要方向。此外，多图像推理任务的评估也面临挑战，传统的多选评估方法难以捕捉模型的推理过程，而SMIR-BENCH通过自由回答形式提供了更全面的评估框架，但其扩展性和自动化程度仍需进一步优化。

常用场景

经典使用场景

SMIR数据集在视觉-语言模型（VLMs）的多图像推理任务中展现了其独特的价值。通过生成高度相关的多图像样本，SMIR数据集能够有效支持模型在复杂推理任务中的表现，如多图像比较、关系分析和序列推理。其经典使用场景包括在开放源代码的VLMs上进行微调，以提升模型在多图像任务中的推理能力。

解决学术问题

SMIR数据集解决了多图像推理任务中的两大核心问题：一是缺乏高质量的多图像数据集，二是缺乏有效的评估基准。通过其高效的数据生成管道，SMIR能够生成160K个高质量的多图像推理样本，显著降低了数据收集和标注的成本。此外，SMIR-BENCH评估基准的引入，为多图像推理任务提供了全面的评估框架，推动了该领域的研究进展。

衍生相关工作

SMIR数据集的推出催生了一系列相关研究工作。例如，基于SMIR数据集的多图像推理任务优化方法被广泛应用于开放源代码的VLMs中，如Mantis和MMDU-45K。这些工作进一步扩展了SMIR的应用范围，推动了多图像推理任务的研究进展。此外，SMIR-BENCH评估基准的引入，也为后续的多模态模型评估提供了新的思路和方法。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4099个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

日食计算器

此日食计算器能够查询公元前3000至后3000年范围内的日食信息，生成每次日食的覆盖区、中心区范围数据，展示日食带的地图；并可根据用户在地图上点击的坐标在线计算该地日食各阶段时间、食分等观测信息。

国家天文科学数据中心收录

flames-and-smoke-datasets

该仓库总结了多个公开的火焰和烟雾数据集，包括DFS、D-Fire dataset、FASDD、FLAME、BoWFire、VisiFire、fire-smoke-detect-yolov4、Forest Fire等数据集。每个数据集都有详细的描述，包括数据来源、图像数量、标注信息等。

github 收录

China Family Panel Studies (CFPS)

Please visit CFPS official data platform to download the newest data, WeChat official account of CFPS: ISSS_CFPS. The CFPS 2010 baseline survey conducted face-to-face interviews with the sampled households’ family members who live in the sample communities. It also interviewed those family members who were elsewhere in the same county. For those who were not present at home at the time of interview, basic information was collected from their family members at presence. All family members who had blood/marital/adoptive ties with the household were identified as permanent respondents. Prospective family members including new-borns and adopted children.

DataCite Commons 收录

Breast Cancer Dataset

该项目专注于清理和转换一个乳腺癌数据集，该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术（如分类、编码和二值化）来创建一个可以由数据科学团队用于未来分析的精炼数据集。

github 收录

Photovoltaic power plant data

包括经纬度、电源板模型、NWP等信息。

github 收录