GenSearcher/Train-Data

Name: GenSearcher/Train-Data
Creator: GenSearcher
Published: 2026-05-01 07:03:34
License: 暂无描述

Hugging Face2026-05-01 更新2026-05-10 收录

下载链接：

https://hf-mirror.com/datasets/GenSearcher/Train-Data

下载链接

链接失效反馈

官方服务：

资源简介：

Gen-Searcher训练数据包含两个高质量数据集：Gen-Searcher-SFT-10k和Gen-Searcher-RL-6k，这些数据集旨在支持需要复杂现实世界知识的图像生成任务。数据集包含多样化的搜索密集型提示和相应的真实合成图像，用于不同的训练阶段。具体包括用于监督微调（SFT）的`sft_data.json`、用于强化学习（RL）的`rl_data.json`以及包含所有16k文本-图像对的`all_data.json`。这些数据支持Gen-Searcher项目，该项目是一个多模态深度研究代理，能够进行网络搜索、浏览证据、推理多源信息并在生成前搜索视觉参考，从而实现更准确和最新的图像合成。

The Gen-Searcher training data comprises two high-quality datasets: Gen-Searcher-SFT-10k and Gen-Searcher-RL-6k, designed to support image generation tasks requiring complex real-world knowledge. These datasets include diverse search-intensive prompts and corresponding ground-truth synthesis images for different training stages. Specifically, the data includes `sft_data.json` for Supervised Fine-Tuning (SFT), `rl_data.json` for Reinforcement Learning (RL) training using GRPO, and `all_data.json` containing all 16k text-image pairs with agentic trajectory. This data supports the Gen-Searcher project, a multimodal deep research agent capable of searching the web, browsing evidence, reasoning over multiple sources, and searching visual references before generation, enabling more accurate and up-to-date image synthesis.

提供机构：

GenSearcher

搜集汇总

数据集介绍

构建方式

该数据集面向文本到图像生成任务，专为训练Gen-Searcher多模态智能搜索代理而构建。数据来自用户研究中的复杂真实世界知识驱动型查询，经专家筛选与标注，形成两套高质量子集：Gen-Searcher-SFT-10k与Gen-Searcher-RL-6k。数据以JSON格式组织，包含sft_data.json用于监督微调冷启动、rl_data.json用于基于GRPO的强化学习训练，以及all_data.json整合全部16k文本-图像对及其对应的智能体推理轨迹。每份样本均包含多样化的搜索密集型提示与对应的真实合成图像，确保模型能够习得检索、推理与生成的多步协同能力。

特点

该数据集的核心特点在于其针对搜索增强型图像生成场景的专项设计。数据样本均以需要复杂现实世界知识的提示为驱动，涵盖动态知识与稀缺概念，显著区别于常规图文对数据集。其独特之处在于不仅提供文本与图像，更包含完整的智能体推理轨迹，模拟了搜索、浏览、跨源推理与视觉参考查找的全流程。这种结构化轨迹数据为训练具备主动检索与多步决策能力的生成模型提供了关键支持，使得模型在生成前能调用外部知识，产生更准确且具备时效性的图像。

使用方法

使用该数据集时，建议按两阶段训练流程进行。首先利用sft_data.json对模型进行监督微调，使其初步掌握搜索-推理-生成的协同范式。随后切换至rl_data.json，采用GRPO等强化学习算法进一步优化策略，强化模型在复杂场景下的泛化能力。研究者可直接加载JSON文件解析文本提示、图像路径与轨迹信息，配合Gen-Searcher开源代码库实现训练与评估。对于研究目的，也可直接使用all_data.json获取全量数据分析智能体行为的演化规律。

背景与挑战

背景概述

Gen-Searcher训练数据集（Train-Data）由Kaituo Feng、Manyuan Zhang等研究者于2026年发布，旨在解决文本到图像生成任务中对复杂真实世界知识的需求。该数据集隶属于Gen-Searcher项目，核心研究问题在于如何通过智能体搜索机制提升图像生成的准确性与时效性。Gen-Searcher作为首个多模态深度研究代理，能够通过网络搜索、证据浏览、多源推理及视觉参考检索，在生成前完成知识整合，从而突破传统文本到图像模型依赖静态知识的局限。该数据集包含Gen-Searcher-SFT-10k和Gen-Searcher-RL-6k两个高质量子集，分别用于监督微调冷启动和基于GRPO的强化学习训练，共16k对文本-图像及代理轨迹数据，为图像生成领域引入推理型智能体范式提供了关键训练资源。

当前挑战

该数据集主要挑战集中在两个层面：首先，领域问题层面，传统文本到图像生成模型难以处理需要动态、复杂现实知识的提示，例如特定事件、多实体交互或实时信息，而Gen-Searcher需设计有效的搜索-推理-生成协同机制，确保代理能从互联网中提取并融合多源证据以合成符合语义的图像；其次，构建过程中，数据收集与标注面临巨大难度，需为每对文本-图像精心策划多样化的搜索密集型提示，同时构建包含搜索轨迹、证据链与最终图像的完整训练样本，这要求同时保证提示的挑战性、搜索轨迹的真实性以及合成图像与文本的语义对齐，且16k规模的数据量需在有限预算下通过半自动工具与人工筛选完成，对资源分配与质量控制提出了严苛要求。

常用场景

经典使用场景

Train-Data数据集专为文本到图像生成任务中的智能体搜索与强化学习设计，其最经典的使用场景是训练Gen-Searcher——首个面向图像生成的多模态深度研究智能体。通过融合有监督微调（SFT）与基于GRPO的强化学习（RL）两阶段训练范式，该数据集使模型能够在生成图像前自主执行网络搜索、证据浏览、多源推理与视觉参考检索，从而超越传统文本到图像模型对静态知识库的依赖，实现具备动态知识整合能力的图像合成。

衍生相关工作

围绕该数据集，研究社区已衍生出多项具有启发性的工作方向。Gen-Searcher本身作为首个多模态深度研究智能体，其联合SFT与RL的训练框架可为后续研究者在检索增强生成（RAG）与视觉语言模型结合方面提供基准范式。此外，数据集中包含的智能体轨迹标签（agentic trajectory）为可解释图像生成、搜索策略优化以及多步推理视觉模型的研究开辟了新路径，有望催生更多面向复杂知识查询的高鲁棒性图像生成系统。

数据集最近研究