Gen-Searcher-SFT-10k; Gen-Searcher-RL-6k
收藏arXiv2026-03-31 更新2026-04-01 收录
下载链接:
https://gen-searcher.vercel.app/
下载链接
链接失效反馈官方服务:
资源简介:
Gen-Searcher-SFT-10k和Gen-Searcher-RL-6k是由香港中文大学MMLab等机构构建的高质量搜索增强图像生成训练数据集,包含约16,000条样本。数据集通过精心设计的提示工程和深度网络搜索策略生成,涵盖20多个多样化领域,如动漫、艺术、物理等。数据创建过程涉及多轮代理搜索轨迹生成和基于Nano Banana Pro的图像合成,并经过Seed1.8模型评分和人工验证以确保质量。该数据集旨在解决知识密集型场景下的图像生成问题,为训练搜索增强型图像生成代理提供基础支持。
Gen-Searcher-SFT-10k and Gen-Searcher-RL-6k are high-quality search-augmented image generation training datasets constructed by MMLab of The Chinese University of Hong Kong and other institutions, containing approximately 16,000 samples in total. These datasets are generated via meticulously designed prompt engineering and deep web search strategies, covering more than 20 diverse domains such as animation, art, physics and other fields. The data creation process involves multi-round agent search trajectory generation and image synthesis based on Nano Banana Pro, and has been scored by the Seed1.8 model and manually verified to ensure quality. These datasets aim to address the image generation problem in knowledge-intensive scenarios, providing fundamental support for training search-augmented image generation AI agents.
提供机构:
香港中文大学·MMLab; 加州大学洛杉矶分校; 加州大学伯克利分校
创建时间:
2026-03-31
搜集汇总
数据集介绍

构建方式
在图像生成领域,面对知识密集型或需实时信息的现实场景,传统模型受限于内部冻结知识而表现不足。为突破这一局限,Gen-Searcher-SFT-10k与Gen-Searcher-RL-6k数据集的构建采用了精心设计的数据流水线。首先,通过提示工程指导Gemini 3 Pro生成涵盖约20个多样化类别的多跳搜索密集型文本提示,同时将现有深度研究数据集转化为面向图像生成的提示,以扩展知识场景覆盖。随后,利用Gemini 3 Pro结合搜索工具迭代生成智能体轨迹,执行多轮搜索、浏览和推理,收集充分信息后产出基于搜索的提示及相关参考图像。这些提示再输入Nano Banana Pro合成对应图像作为真实标注。为确保数据质量,进一步采用Seed1.8从多个维度对生成样本进行评分和过滤,最终构建出高质量的训练数据集。
特点
该数据集的核心特点在于其专注于搜索增强的图像生成任务,强调多跳深度搜索与推理能力。数据集中包含多样化的搜索密集型提示,覆盖了从科学知识到流行文化的广泛领域,如天文、生物、动漫、名人等,确保模型能够应对复杂且动态的现实世界查询。每个样本均配有智能体搜索轨迹、基于搜索的提示、参考图像及合成真实图像,形成了完整的训练监督链条。此外,数据集经过严格的质量过滤,包括基于模型的评分和规则过滤,以提升数据的可靠性与有效性,为训练搜索智能体提供了坚实的数据基础。
使用方法
在模型训练中,Gen-Searcher-SFT-10k与Gen-Searcher-RL-6k数据集被用于两阶段的训练流程。首先,利用Gen-Searcher-SFT-10k进行监督微调,使模型掌握多轮工具使用的基本能力,包括发起搜索查询、解析文本与视觉反馈、选择有用参考图像以及组合基于搜索的生成提示。随后,基于Gen-Searcher-RL-6k进行智能体强化学习,通过双奖励反馈机制进一步优化模型的搜索策略与工具调用轨迹。文本奖励评估收集信息是否充分正确,图像奖励则反映最终生成质量,两者结合为GRPO训练提供稳定且信息丰富的学习信号。训练过程中,图像生成器保持固定,仅优化智能体模型以产出高质量的搜索增强提示与参考图像。
背景与挑战
背景概述
Gen-Searcher-SFT-10k与Gen-Searcher-RL-6k数据集由香港中文大学多媒体实验室(MMLab)联合加州大学洛杉矶分校、加州大学伯克利分校的研究团队于2026年构建,旨在解决当前图像生成模型在知识密集型场景中的局限性。现有模型依赖冻结的内部知识,难以处理涉及实时信息、多跳推理的复杂提示,例如生成特定地标、名人或新发布产品的图像。该数据集通过精心设计的数据管道,结合Gemini 3 Pro与Nano Banana Pro等工具,生成了包含多样化搜索密集型提示及对应合成图像的高质量样本,为训练搜索增强的图像生成智能体提供了关键资源,推动了多模态深度搜索与图像生成交叉领域的发展。
当前挑战
该数据集致力于应对知识密集型图像生成的核心挑战,即模型如何有效整合外部实时信息与多跳推理能力以生成精准视觉内容。构建过程中面临多重困难:首先,缺乏现成的训练数据,需通过提示工程与现有研究数据集转换来创建搜索密集型提示;其次,确保数据质量需借助Seed1.8等多维度评分与规则过滤,以剔除噪声样本;此外,下游图像生成器(如Qwen-Image)的能力局限与高方差导致基于图像的奖励信号不稳定,需设计结合文本与图像的双重奖励机制以优化智能体训练。这些挑战凸显了在动态知识环境中构建可靠生成系统的复杂性。
常用场景
经典使用场景
在文本到图像生成领域,传统模型受限于冻结的内部知识库,难以处理需要实时或深度世界知识的复杂提示。Gen-Searcher-SFT-10k与Gen-Searcher-RL-6k数据集的核心应用场景,是训练一个能够执行多跳深度搜索的智能体,使其在生成图像前主动从互联网搜集文本知识与视觉参考。该数据集通过精心构建的搜索密集型提示,覆盖了从名人、动漫到物理、化学等约20个多样化类别,要求模型进行迭代式的网页搜索、浏览与推理,以聚合多源证据,最终生成基于搜索结果的、包含准确视觉特征的图像。这一过程模拟了人类在知识密集型任务中的信息搜集行为,为模型提供了从原始查询到最终生成图像的完整轨迹监督。
实际应用
在实际应用层面,基于该数据集训练的Gen-Searcher智能体能够显著增强现有图像生成系统在真实场景中的实用性。例如,在教育领域,可以生成精确描绘历史事件、科学原理或化学结构的教学图表;在新闻与内容创作中,能够根据最新事件描述生成包含正确人物、场景与细节的配图;在娱乐与设计行业,则可依据复杂的文化或游戏角色描述,生成高度忠实于原设定的视觉内容。该技术使得图像生成不再局限于模型的内隐知识,而是能够对接互联网的浩瀚信息源,确保生成内容的时效性与准确性,为需要高保真度与知识可靠性的专业应用场景提供了可行的解决方案。
衍生相关工作
Gen-Searcher数据集的发布催生了一系列围绕搜索增强生成与智能体学习的研究方向。其构建方法论启发了后续工作对多模态深度搜索轨迹合成与质量评估的进一步探索。数据集配套提出的KnowGen基准与K-Score评估指标,为社区提供了首个专注于评估知识密集型、搜索依赖型图像生成的标准化测试平台,推动了该细分领域的量化比较与研究进展。此外,其采用的监督微调与基于双奖励反馈的智能体强化学习两阶段训练范式,为训练能够执行长视野、多工具交互的视觉语言模型提供了可复现的蓝图。这些贡献共同奠定了搜索智能体在图像生成领域的研究基础,促进了开源生态在克服专有模型搜索能力垄断方面的努力。
以上内容由遇见数据集搜集并总结生成



