SearchVL-SFT-36k, SearchVL-RL-8k

github2026-05-07 更新2026-05-08 收录

下载链接：

https://github.com/shawn0728/OpenSearch-VL

下载链接

链接失效反馈

官方服务：

资源简介：

基于维基百科超链接图的筛选管道合成了基于图像的多跳VQA。使用模糊实体重写和源锚定视觉接地来抑制单一检索步骤即可解决的捷径解决方案。该管道产生了两个开放数据集：SearchVL-SFT-36k用于监督微调，SearchVL-RL-8k用于强化学习。

A filtered pipeline constructed upon Wikipedia hyperlink graphs is employed to synthesize image-based multi-hop VQA datasets. Fuzzy entity rewriting and source-anchored visual grounding are integrated into this pipeline to suppress shortcut solutions that can be resolved via a single retrieval step. It yields two open-access datasets: SearchVL-SFT-36k for supervised fine-tuning and SearchVL-RL-8k for reinforcement learning.

创建时间：

2026-05-03

原始信息汇总

根据您提供的README文件内容，以下是数据集的详情总结：

数据集概述

OpenSearch-VL 是一个用于训练前沿多模态深度搜索智能体的开源方案。该方案使用智能体强化学习，使智能体能够执行闭环操作：检查图像、裁剪或增强感兴趣区域、进行文本和图像搜索、访问检索到的页面，最后基于收集的证据生成答案。

核心组件

数据: 基于维基百科超链接图构建的多跳VQA数据集。
工具: 统一的视觉和检索工具环境，包括裁剪、布局解析、文本搜索、图像搜索、网页搜索、访问、透视校正、超分辨率、锐化和Python解释器。
算法: 多轮 fatal-aware GRPO 算法，显式处理长轮询中的级联工具故障。

数据集

该仓库提供两个开源数据集：

数据集	用途	来源
SearchVL-SFT-36k	监督微调	7个工具使用数据集（FVQA, Palace, WebQA, LiveVQA, WikiArt, Wiki-zh, Wiki-en），包含约36k条轨迹
SearchVL-RL-8k	强化学习	视觉深度研究QA数据，约8k条轨迹

数据生成方法: 从英文维基百科超链接图中采样多跳实体路径，将其转换为多跳VQA实例。使用模糊实体重写和源锚定视觉定位来抑制单步检索即可解决的捷径解。
轨迹平均长度: 每个轨迹平均包含 6.3次工具调用。

基准测试结果

在 7个多模态知识密集型基准（SimpleVQA, VDR, MMSearch, LiveVQA, BrowseComp-VL, FVQA, InfoSeek）上：

OpenSearch-VL-8B: 最强的开源8B智能体，平均提升 +3.9分。
OpenSearch-VL-30B-A3B: 超过Qwen3-VL智能体基线 +13.8分，在VDR（+13.3）、MMSearch（+24.5）、FVQA（+10.2）和InfoSeek（+16.2）上提升显著。
OpenSearch-VL-32B: 在大多数基准上超越Gemini-2.5-Pro和Claude-4-Sonnet的直接推理基线。
Fatal-aware GRPO消融: 完整方法达到 71.8分平均分，比普通GRPO提升 +4.2分。

模型

基于三种Qwen3-VL变体：8B、30B-A3B、32B
模型权重发布于：https://huggingface.co/OpenSearch-VL

工具环境

智能体配备异构工具集，在SFT、RL和推理中共享：

类别	工具	用途
检索	`text_search`, `image_search`, `web_search`, `visit`	获取外部文本/视觉证据并访问页面
图像增强	`sharpen`, `super_resolution`, `perspective_correct`	修复模糊、低分辨率或扭曲的输入
注意力与解析	`crop`, `layout_parsing`	定位感兴趣区域并解码细粒度内容
计算	`python_interpreter`	对检索到的证据进行数值/程序计算

搜集汇总

数据集介绍

构建方式

SearchVL-SFT-36k与SearchVL-RL-8k的构建依托于维基百科超链接图谱，通过采样多跳实体路径并转化为多跳视觉问答实例。在转化过程中，采用模糊实体重写和源锚定视觉基准确认策略，确保单跳图像检索无法直接解答，从而消除捷径解法。最终经过阶段性的工具需求筛选与增强子集生成，并配合答案级与过程级的拒绝采样策略，合成多轮专家轨迹，形成用于监督微调与强化学习的高质量数据集。

特点

该数据集具备鲜明的结构化与多模态特性。SearchVL-SFT-36k涵盖七个工具使用场景，平均每条轨迹包含6.3次工具调用，能够有效支撑智能体冷启动训练。SearchVL-RL-8k专为深度视觉搜索问答设计，支持多轮交互与复杂推理。两个数据集均融合了图像增强、检索与计算等多种工具接口，并通过致命感知GRPO算法在长序列训练中保留有效推理，抑制级联工具故障带来的梯度污染，显著提升模型在七项知识密集型多模态基准上的表现。

使用方法

使用SearchVL-SFT-36k进行监督微调时，用户需下载数据包并将其置于SFT/data目录下，数据集采用ShareGPT格式，包含对话、图像与工具调用信息。通过LLaMA-Factory结合DeepSpeed ZeRO-3与Ray分布式框架，可对基座视觉语言模型进行全参数微调。SearchVL-RL-8k则用于强化学习阶段，需将数据注册至rLLM的数据集中，依托AgentWorkflowEngine与verl后端执行异步滚动收集与策略优化，同时利用Megatron-LM实现大规模模型并行训练，最终启动RL训练脚本完成迭代。

背景与挑战

背景概述

OpenSearch-VL项目由研究团队于2025年发起，旨在破解多模态搜索智能体领域训练数据与流程封闭的困境。其核心资源SearchVL-SFT-36k与SearchVL-RL-8k数据集应运而生，分别服务于监督微调与强化学习阶段。该工作基于维基百科超链接图谱创新性地构建了多跳视觉问答轨迹，通过模糊实体重写与源头锚定视觉接地技术规避单步检索的捷径解，为前沿多模态搜索智能体的可复现训练提供了开放基石，在Seven项知识密集型基准测试中，将平均性能提升逾10个百分点，有力推动该领域从黑箱走向透明化。

当前挑战

当前领域面临的核心挑战在于构建既能抵抗多步级联工具故障又不抑制早期有效推理的训练信号。OpenSearch-VL数据集通过双阶段方案应对该困境：首先在SFT阶段，构建含平均6.3次工具调用的多域冷启动轨迹时，需克服真实搜索环境中的视觉退化（模糊、低分辨率、倾斜）与检索噪声，确保专家轨迹覆盖充足的工具组合；其次在RL阶段，长序列轨迹中极易出现致命级联失败，传统梯度更新将惩罚整个序列，而作品提出的致命感知GRPO通过掩码后续token与单侧优势钳制，在保留故障前有效推理的前提下引导策略优化，最终实现比基础GRPO提升4.2个百分点的显著增益。

常用场景

经典使用场景

在多模态搜索与知识推理的前沿探索中，OpenSearch-VL 框架推出的 SearchVL-SFT-36k 与 SearchVL-RL-8k 数据集，为训练具备深度研究能力的多模态智能体提供了关键的训练资源。该数据集最经典的使用场景在于，通过引入基于维基百科超链接图的多跳视觉问答（VQA）合成与模糊实体重写、源锚定视觉定位等技术，打破了传统视觉语言模型单轮直答的局限。研究者可利用 SearchVL-SFT-36k 进行冷启动监督微调（SFT），使模型初步掌握裁剪、查询、检索等七种工具调用能力，而 SearchVL-RL-8k 则进一步用于强化学习阶段，通过致命感知的GRPO算法优化多轮工具轨迹。这一组合使得智能体能够在复杂图像中自主定位关键区域、发起图文搜索、访问网页并综合证据给出答案，从而在七个知识密集型基准上显著提升性能。

实际应用

在实际应用层面，SearchVL-SFT-36k 与 SearchVL-RL-8k 所训练的多模态搜索智能体展现了广阔的应用前景。例如在专业领域的视觉问答任务中，无需人工介入，智能体即可自动对医学影像或工程图纸中的局部区域进行裁剪与增强，随后通过文本与图像搜索获取背景知识，并在访问多个权威网页后生成具有证据链支撑的答案。该技术可以无缝嵌入智能客服系统，为用户提供基于图像证据的精准响应；在电子商务场景中，帮助用户通过上传商品图片自动搜索规格参数、用户评价与比价信息；在科研辅助领域，能够基于图表或实验图像自动查阅文献并回答跨学科问题。此外，其统一的工具接口设计使得开发者可以快速扩展新的工具，适应特定行业如法律文档解析、地理图像分析等定制化需求，极大降低了构建多模态知识型智能体的工程门槛。

衍生相关工作

该数据集的发布催生了系列具有深远影响的衍生研究工作。首先，基于其开放的训练管道，研究者得以在Fatal-aware GRPO算法框架下深入探索多轮强化学习中奖励分配机制，推动了针对长轨迹信用分配问题的理论进展。其次，数据集所定义的工具环境（包括裁剪、布局解析、图文搜索等统一接口）被后续工作采纳为标准化评估协议，加速了多模态智能体工具编排策略的可复现对比。此外，相关工作围绕数据合成管道的改进展开，例如引入跨语言维基图谱扩大多跳推理覆盖范围，或通过对抗性过滤减少伪关联样本。在模型层面，该数据集的成功直接启发了一系列针对稀疏激活专家模型（MoE）的搜索微调优化方案，以及基于过程奖励模型的搜索质量评判器。最后，SearchVL-RL-8k 中视觉深度研究（Vision-DeepResearch-QA）子集已被广泛用于验证各类RL算法在多步工具使用环境中的泛化能力，成为该领域事实上的基准数据源。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集