five

SMIR|多图像推理数据集|多模态嵌入数据集

收藏
arXiv2025-01-07 更新2025-01-09 收录
多图像推理
多模态嵌入
下载链接:
https://github.com/togethercomputer/SMiR
下载链接
链接失效反馈
资源简介:
SMIR数据集由加州大学伯克利分校、斯坦福大学和加州理工学院的研究团队开发,旨在解决多图像推理任务中的数据集稀缺问题。该数据集包含160,000个训练样本,通过多模态嵌入技术提取高度相关的图像,并结合开源大语言模型生成高质量的指令数据。数据集生成过程包括图像和文本的多模态嵌入构建、聚类算法以及基于开源模型的指令生成。SMIR数据集的应用领域主要集中在多图像推理任务中,旨在提升视觉-语言模型在多图像场景下的推理能力,解决现有开源模型在多图像任务中表现不佳的问题。
提供机构:
加州大学伯克利分校, 斯坦福大学, 加州理工学院
创建时间:
2025-01-07
AI搜集汇总
数据集介绍
main_image_url
构建方式
SMIR数据集的构建采用了高效的多模态数据生成管道,通过结合视觉和文本信息的多模态嵌入,提取高度相关的图像。该管道利用开源的大型语言模型(LLMs)生成高质量的指令,并通过聚类采样和图迭代采样算法确保数据的多样性和质量。最终,生成了16万个合成训练样本,为多图像推理任务提供了成本效益高的解决方案。
特点
SMIR数据集的特点在于其高度相关的图像对和复杂的推理指令,这些指令通过多模态嵌入和开源LLMs生成,确保了数据的多样性和挑战性。数据集包含160K个样本,涵盖了多图像推理的多种复杂任务,如比较、排序、故事叙述等。此外,SMIR-BENCH评估基准提供了200个多样化的多图像推理任务,进一步增强了数据集的实用性和评估能力。
使用方法
SMIR数据集的使用方法包括通过微调开源视觉语言模型(VLMs)来提升其在多图像推理任务中的表现。用户可以利用SMIR-BENCH基准对模型进行评估,通过多轮自由回答任务来全面评估模型的推理能力和表达能力。数据集的多模态嵌入和复杂指令设计使其特别适用于需要深度视觉和文本理解的任务,如跨图像的关系分析和复杂推理。
背景与挑战
背景概述
SMIR数据集由Together AI、加州大学伯克利分校、斯坦福大学和加州理工学院的研究团队于2025年提出,旨在解决多图像推理任务中的关键挑战。随着视觉-语言模型(VLMs)在单图像理解任务中的显著进展,多图像推理任务的开源社区研究仍相对滞后。SMIR通过引入高效的多图像推理合成数据生成管道,生成了包含16万条训练样本的高质量数据集,并提出了SMIR-BENCH评估基准,涵盖了7种复杂的多图像推理任务。该数据集通过结合多模态嵌入和开源大语言模型(LLMs),显著提升了开源VLMs在多图像推理任务中的表现,推动了多模态理解领域的发展。
当前挑战
SMIR数据集面临的挑战主要体现在两个方面:首先,多图像推理任务本身具有较高的复杂性,要求模型能够理解多张图像之间的关联并进行深层次推理,而现有数据集往往缺乏高质量的关联图像对,导致模型难以进行有效的训练。其次,数据集的构建过程面临资源密集和成本高昂的问题,尤其是在生成高质量的多图像关联样本时,传统的人工标注方法耗时且难以扩展。尽管SMIR通过合成数据生成管道缓解了这一问题,但如何进一步提升数据生成的效率和质量,仍然是未来研究的重要方向。此外,多图像推理任务的评估也面临挑战,传统的多选评估方法难以捕捉模型的推理过程,而SMIR-BENCH通过自由回答形式提供了更全面的评估框架,但其扩展性和自动化程度仍需进一步优化。
常用场景
经典使用场景
SMIR数据集在视觉-语言模型(VLMs)的多图像推理任务中展现了其独特的价值。通过生成高度相关的多图像样本,SMIR数据集能够有效支持模型在复杂推理任务中的表现,如多图像比较、关系分析和序列推理。其经典使用场景包括在开放源代码的VLMs上进行微调,以提升模型在多图像任务中的推理能力。
解决学术问题
SMIR数据集解决了多图像推理任务中的两大核心问题:一是缺乏高质量的多图像数据集,二是缺乏有效的评估基准。通过其高效的数据生成管道,SMIR能够生成160K个高质量的多图像推理样本,显著降低了数据收集和标注的成本。此外,SMIR-BENCH评估基准的引入,为多图像推理任务提供了全面的评估框架,推动了该领域的研究进展。
衍生相关工作
SMIR数据集的推出催生了一系列相关研究工作。例如,基于SMIR数据集的多图像推理任务优化方法被广泛应用于开放源代码的VLMs中,如Mantis和MMDU-45K。这些工作进一步扩展了SMIR的应用范围,推动了多图像推理任务的研究进展。此外,SMIR-BENCH评估基准的引入,也为后续的多模态模型评估提供了新的思路和方法。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

PDT Dataset

PDT数据集是由山东计算机科学中心(国家超级计算济南中心)和齐鲁工业大学(山东省科学院)联合开发的无人机目标检测数据集,专门用于检测树木病虫害。该数据集包含高分辨率和低分辨率两种版本,共计5775张图像,涵盖了健康和受病虫害影响的松树图像。数据集的创建过程包括实地采集、数据预处理和人工标注,旨在为无人机在农业中的精准喷洒提供高精度的目标检测支持。PDT数据集的应用领域主要集中在农业无人机技术,旨在提高无人机在植物保护中的目标识别精度,解决传统检测模型在实际应用中的不足。

arXiv 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

CMNEE(Chinese Military News Event Extraction dataset)

CMNEE(Chinese Military News Event Extraction dataset)是国防科技大学、东南大学和清华大学联合构建的一个大规模的、基于文档标注的开源中文军事新闻事件抽取数据集。该数据集包含17,000份文档和29,223个事件,所有事件均基于预定义的军事领域模式人工标注,包括8种事件类型和11种论元角色。数据集构建遵循两阶段多轮次标注策略,首先通过权威网站获取军事新闻文本并预处理,然后依据触发词字典进行预标注,经领域专家审核后形成事件模式。随后,通过人工分批、迭代标注并持续修正,直至满足既定质量标准。CMNEE作为首个专注于军事领域文档级事件抽取的数据集,对推动相关研究具有显著意义。

github 收录

SUN397

SUN397的全称是场景理解,是一个大规模的场景理解数据集。数据集包含899类别和130,519图像。该数据集包含397采样良好的类别,可用于评估许多最先进的场景识别算法。

OpenDataLab 收录

AISHELL/AISHELL-1

Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。

hugging_face 收录