five

Visual_Search

收藏
Hugging Face2025-10-29 更新2025-10-30 收录
下载链接:
https://huggingface.co/datasets/ThinkMorph/Visual_Search
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个围绕四种代表性任务构建的增强型交错数据集,这些任务包括拼图组装、空间导航、视觉搜索和图表重聚焦,需要不同程度的视觉参与和跨模态交互。
创建时间:
2025-10-28
原始信息汇总

Visual Search 数据集概述

数据集基本信息

  • 数据集名称:Visual Search
  • 发布机构:ThinkMorph
  • 语言:英语
  • 任务类型:多模态、思维链
  • 数据规模:10K<n<100K

数据集结构

数据特征

  • pid:问题ID(字符串)
  • question:问题文本(字符串)
  • answer:正确答案(字符串)
  • problem_image_0:问题图像(图像)
  • resoning_thought_0:推理轨迹的第一个文本段(字符串)
  • reasoning_image_0:推理轨迹中的中间图像(图像)
  • resoning_thought_1:推理轨迹的第二个文本段(字符串)
  • task:问题任务类型(字符串)
  • full_text_only_thought:纯文本推理轨迹(字符串)

数据划分

  • 训练集:6,990个样本
  • 下载大小:1,251,236,592字节
  • 数据集大小:1,261,068,619.22字节

数据集用途

下载方式

python from datasets import load_dataset dataset = load_dataset("ThinkMorph/Visual_Search", split="train")

数据格式

  • 格式:jsonl
  • 包含完整的多模态推理轨迹

相关资源

  • 模型:ThinkMorph-7B
  • 代码库:https://github.com/ThinkMorph/ThinkMorph
  • 论文:arXiv
  • 网站:ThinkMorph Website

任务背景

该数据集是ThinkMorph项目训练数据的一部分,专注于需要不同程度视觉参与和跨模态交互的代表性任务,包括拼图组装、空间导航、视觉搜索和图表重聚焦。

搜集汇总
数据集介绍
main_image_url
构建方式
在视觉推理领域,Visual_Search数据集通过精心设计的任务流程构建而成。该数据集聚焦于需要视觉参与和跨模态交互的任务,采用问题-答案对的形式,每个样本均包含问题文本、答案以及相关的视觉素材。构建过程中,研究人员为每个问题配备了对应的图像,并融入了多步推理轨迹,包括文本推理描述和中间推理图像,从而形成丰富的多模态数据实例。
特点
Visual_Search数据集展现出鲜明的多模态特性,其样本结构融合了文本与图像信息,支持复杂的视觉搜索任务。该数据集包含问题图像、推理文本和中间图像等多个特征字段,实现了视觉与语言信息的交织表达。特别值得一提的是,数据集还提供了纯文本推理轨迹,便于对比研究多模态与单模态推理的差异,为深入探索视觉认知过程提供了有力支撑。
使用方法
研究人员可通过HuggingFace平台便捷地获取Visual_Search数据集,使用datasets库的load_dataset函数即可加载所需数据。数据集采用jsonl格式存储,每个样本包含完整的多模态信息字段。使用者可根据任务需求提取问题图像、推理轨迹等关键要素,适用于视觉问答、多模态推理等研究场景。具体实现细节可参考项目GitHub仓库提供的完整使用指南。
背景与挑战
背景概述
视觉搜索作为多模态推理的核心任务之一,由ThinkMorph研究团队于2024年构建,旨在探索视觉信息与文本推理的深度融合机制。该数据集聚焦于需要动态视觉参与和跨模态交互的复杂认知任务,通过融合问题图像、推理轨迹与中间视觉表征,为构建具备人类级视觉推理能力的人工智能系统提供了关键数据支撑。其创新性地采用思维链与图像序列交织的标注范式,显著推动了视觉语言模型在具身推理领域的发展进程。
当前挑战
视觉搜索任务需解决动态场景中目标定位与语义理解的协同挑战,包括跨模态语义对齐偏差、视觉线索的时序依赖性等核心难题。在数据构建过程中,面临多模态标注一致性维护、推理轨迹的视觉化呈现、以及文本与图像模态的细粒度对齐等技术瓶颈,同时需确保复杂视觉场景下推理逻辑的完备性与可解释性。
常用场景
经典使用场景
在视觉认知研究领域,Visual_Search数据集为多模态推理任务提供了重要支撑。该数据集通过融合图像与文本的链式思维轨迹,构建了视觉搜索任务的典型应用场景。研究者可利用其中包含的问题图像、推理过程和答案标注,深入探索人类视觉注意机制的计算建模,以及多模态信息在复杂认知任务中的协同处理机制。
解决学术问题
该数据集有效解决了多模态人工智能研究中的关键挑战,特别是视觉与语言模态的深度融合问题。通过提供包含推理图像和思维文本的完整数据链条,为研究跨模态表示学习、视觉问答系统的可解释性、以及复杂推理任务的端到端建模提供了重要实验基础。其独特的链式思维标注方式,为理解多模态模型的内部推理机制开辟了新途径。
衍生相关工作
基于Visual_Search数据集的研究催生了多模态推理领域的系列创新工作。ThinkMorph模型架构的提出,实现了视觉与语言信息的深度融合;链式思维在多模态任务中的应用范式,启发了后续的视觉推理模型设计;其提供的标准化评估基准,推动了跨模态表示学习、视觉问答、图像理解等多个子领域的方法创新和性能提升。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作