Search-VL-SFT-36K
收藏Hugging Face2026-05-09 更新2026-05-10 收录
下载链接:
https://huggingface.co/datasets/OpenSearch-VL/Search-VL-SFT-36K
下载链接
链接失效反馈官方服务:
资源简介:
OpenSearch-VL 是一个用于训练前沿多模态深度研究代理的全开放方案。该数据集包含两个主要部分:SearchVL-SFT-36k 用于监督微调,包含 36k 样本,平均每个轨迹有 6.3 次工具调用;SearchVL-RL-8k 用于强化学习,包含 8k 样本。数据集通过 Wikipedia 超链接图构建多跳视觉问答实例,采用模糊实体重写和源锚定视觉 grounding 来抑制单跳捷径解决方案。数据集支持多种工具,包括检索、图像增强、注意力解析和计算工具。适用于知识密集型多模态问答和网络搜索任务。
OpenSearch-VL is a fully open solution for training cutting-edge multimodal deep research agents. The dataset consists of two main parts: SearchVL-SFT-36k for supervised fine-tuning, containing 36k samples with an average of 6.3 tool calls per trajectory; and SearchVL-RL-8k for reinforcement learning, containing 8k samples. The dataset constructs multi-hop visual question answering instances through Wikipedia hyperlink graphs, employing fuzzy entity rewriting and source-anchored visual grounding to suppress single-hop shortcut solutions. The dataset supports various tools including retrieval, image enhancement, attention parsing, and computational tools. It is suitable for knowledge-intensive multimodal question answering and web search tasks.
创建时间:
2026-04-30
原始信息汇总
数据集概述:Search-VL-SFT-36K
基本信息
- 数据集名称:Search-VL-SFT-36K
- 语言:中文 (zh)、英文 (en)
- 规模:10,000 < n < 100,000 (约36,000个样本)
- 标签:Agent(智能体)
- 许可证:Apache 2.0
- 所属项目:OpenSearch-VL(一个用于训练前沿多模态深度研究智能体的完全开源方案)
数据集描述
Search-VL-SFT-36K 是 OpenSearch-VL 项目发布的监督式微调(SFT)数据集,用于对基础视觉语言模型(VLM)进行智能体冷启动训练。该数据集旨在训练模型具备闭环的智能体行为:包括检查图像、裁剪或增强感兴趣区域、执行网页和图像搜索、访问检索页面,最后基于收集到的证据生成答案。
数据构建流程
该数据集基于维基百科超链接图构建,通过以下步骤合成图像引导的多跳视觉问答(VQA)样本:
- 采样多跳实体路径:从英文维基百科超链接图中采样多跳实体路径。
- 转换为多跳VQA实例:沿路径提取规范问答对。
- 模糊实体重写:将每个中间实体重写为模糊描述,同时确保答案不变性和唯一性,以防止通过单次检索步骤就能解决快捷方式。
- 源锚定视觉定位:将问题锚定在源节点的代表性图像上(而非答案节点),从而消除单跳图像查找的捷径。
- 筛选与增强:通过分阶段的工具需求过滤和增强子集(包含随机退化及对应修复工具),最终合成多轮专家轨迹,并进行答案级和过程级的拒绝采样。
数据集组成
Search-VL-SFT-36K 包含7个工具使用数据集:
- FVQA
- Palace
- WebQA
- LiveVQA
- WikiArt
- Wiki-en(英文维基百科)
- Wiki-zh(中文维基百科)
数据格式
每个数据样本为 ShareGPT 格式,包含以下字段:
conversations:对话内容images:关联图像system:系统提示tools:工具调用定义
轨迹特征
- 平均工具调用轮次:每个轨迹平均包含 6.3次工具调用,模型在生成最终答案前需要多步推理与检索。
用途
该数据集用于对 Qwen3-VL 系列基础模型进行全参数微调(包括大语言模型、视觉塔和投影器),使用 DeepSpeed ZeRO-3 和 Ray 分布式训练框架,以冷启动方式训练多模态搜索智能体。
下载地址
- Hugging Face 页面:https://huggingface.co/datasets/OpenSearch-VL/Search-VL-SFT-36K
- Hugging Face 集合:https://huggingface.co/OpenSearch-VL
搜集汇总
数据集介绍

构建方式
Search-VL-SFT-36K数据集的构建基于维基百科超链接图谱,通过采样多跳实体路径并转化为多跳视觉问答实例。构建流程包括:沿路径提取规范问答对,将中间实体重写为模糊描述以消除单步检索捷径,并将问题锚定于源节点的代表性图像而非答案节点,从而避免图像查询的捷径。随后,通过分阶段的工具需求过滤和增强子集(引入随机退化与对应修复工具),最终利用答案级别与过程级别的拒绝采样合成多轮专家轨迹,形成涵盖七个领域工具使用的冷启动轨迹集。
特点
该数据集的核心特点在于其多轮工具调用设计,平均每条轨迹包含6.3次工具调用。数据集跨越七个不同领域,整合了视觉与检索工具环境,包括图像裁剪、布局分析、文本搜索、图像搜索、网页搜索、页面访问、透视校正、超分辨率、锐化和Python解释器,使智能体能够从模糊视觉输入中恢复并通过一致接口获取外部知识。这种设计有效抑制了单步检索捷径,确保了多跳推理的真实性,为监督微调和强化学习训练提供了高质量的冷启动数据。
使用方法
数据集主要用于视觉语言模型的监督微调阶段,作为OpenSearch-VL训练流程的冷启动数据。使用时,需从HuggingFace集合下载七个子集,按照指定目录结构放置,并通过dataset_info.json文件配置相对路径。训练采用全参数微调策略,对大型语言模型、视觉塔和投影仪进行优化,使用DeepSpeed ZeRO-3和Ray分布式框架。建议设置截断长度为32000,学习率为2e-5,批次大小为1,训练周期为8轮,并在多节点GPU集群上运行以获得最佳效果。
背景与挑战
背景概述
Search-VL-SFT-36K数据集由OpenSearch-VL团队于2025年创建,旨在解决多模态深度搜索智能体的冷启动问题。研究团队基于维基百科超链接图构建了多跳视觉问答数据,通过模糊实体重写与源锚定视觉定位技术,消除单步检索捷径,生成了包含36K条轨迹的监督微调数据集。该数据集覆盖FVQA、Palace等7个知识密集型领域,平均每条轨迹包含6.3次工具调用,为多模态搜索智能体的训练提供了高质量、可复现的基准。作为OpenSearch-VL开源项目的核心组件,该数据集推动了多模态智能体从封闭式推理向工具助理解答的范式转型,在SimpleVQA等7项基准测试中平均提升超过10个百分点,在30B/32B尺度下媲美头部商业系统的性能。
当前挑战
该数据集主要面临两项核心挑战:首先,在领域问题层面,传统视觉语言模型依赖单次前向推理回答问题,缺乏对图像进行裁剪、增强、检索等闭环操作的能力,难以应对需要多步信息获取的知识密集型视觉问答任务。其次,在数据构建过程中,如何确保生成的多跳问答实例无法通过单步图像查找捷径解决,是一个关键难题。研究团队通过模糊实体重写和源锚定视觉定位技术,迫使智能体必须依赖完整的工具调用链才能推导出正确答案,同时设计了分阶段工具需求过滤与拒绝采样策略,以保证轨迹质量。此外,跨7个异构数据源的一致性标注格式统一与工具环境共享,也构成了工程实现层面的重大挑战。
常用场景
经典使用场景
在多模态搜索智能体的研究领域中,Search-VL-SFT-36K数据集作为冷启动监督微调的核心资源,其经典使用场景集中于训练视觉语言模型掌握复杂的工具链调用能力。该数据集包含约36,000条多轮交互轨迹,每条轨迹平均涉及6.3次工具调用,涵盖图像裁剪、超分辨率增强、文本搜索、图像搜索、网页访问、布局解析等视觉与检索工具的协同使用。研究者利用该数据集对基础视觉语言模型进行全参数微调,使其从被动回答问题转变为主动搜集证据的智能体,能够在图像理解基础上自主规划检索路径、修正视觉缺陷并整合多源信息,最终生成基于事实依据的答案。
实际应用
在实际应用层面,基于Search-VL-SFT-36K训练的模型展现出强大的多模态信息检索与综合能力,广泛适用于需要深度调研的场景。例如,在学术研究中,智能体可自动检索图像中的建筑、艺术作品或科学图表,结合网络文本与图像搜索引擎验证细节信息;在电商领域,能够通过分析产品图片并搜索比对,提供多维度商品评价与溯源信息;在新闻核查中,可针对可疑图像进行逆向搜索与多源交叉验证,有效辅助事实核查工作。该数据集支撑的智能体还能处理模糊、低分辨率或透视畸变的图像输入,显著提升了现实场景中的鲁棒性与可用性。
衍生相关工作
Search-VL-SFT-36K作为OpenSearch-VL项目的数据基石,衍生并推动了多项开创性研究工作。在其监督微调基础上,研究者进一步提出了多轮致命感知GRPO强化学习算法,通过致命Token掩码与单侧优势钳制策略,有效缓解了长轨迹中工具级联失效带来的策略梯度污染问题,将平均性能再提升4.2个百分点。该数据集的构建理念与管道设计也被后续工作借鉴,用于视觉深度研究智能体的迭代优化,催生了基于异步智能体强化学习的训练框架,并促进了视觉工具环境标准化,为多模态搜索智能体的开放研究与复现树立了标杆。
以上内容由遇见数据集搜集并总结生成



