QwQ-32B

Name: QwQ-32B
Creator: 清华大学计算机系，蚂蚁集团，华盛顿大学
Published: 2025-08-11 21:36:57
License: 暂无描述

arXiv2025-08-11 更新2025-08-13 收录

下载链接：

https://huggingface.co/datasets/inclusionAI/ASearcher-train-data

下载链接

链接失效反馈

官方服务：

资源简介：

QwQ-32B数据集是由清华大学计算机系、蚂蚁集团和华盛顿大学的研究人员创建的，用于大规模RL训练的搜索智能体。该数据集包含134,000个高质量的问题-答案对，其中25,600个需要使用外部工具。数据集由种子问题生成，通过迭代模糊化查询和注入外部事实来增加复杂性。每个构建的问题都经过多阶段验证以确保质量和难度。

The QwQ-32B dataset was developed by researchers from the Department of Computer Science at Tsinghua University, Ant Group, and the University of Washington, and is designed for search agents used in large-scale reinforcement learning (RL) training. This dataset comprises 134,000 high-quality question-answer pairs, 25,600 of which require the utilization of external tools. The dataset is generated from seed questions, with its complexity enhanced through iterative query fuzzification and injection of external factual information. Each constructed question undergoes multi-stage validation to guarantee its quality and proper difficulty level.

提供机构：

清华大学计算机系，蚂蚁集团，华盛顿大学

创建时间：

2025-08-11

原始信息汇总

数据集概述

基本信息

数据集名称: inclusionAI/ASearcher-train-data
许可证: Apache-2.0

数据集配置

配置名称: default
数据文件:
- ASearcherBase35k: ASearcher-Base-35k.jsonl
- ASearcherLRM35k: ASearcher-LRM-35k.jsonl

相关资源

代码: https://github.com/inclusionAI/ASearcher
论文: https://arxiv.org/abs/2508.07976

搜集汇总

数据集介绍

构建方式

QwQ-32B数据集的构建采用了基于强化学习（RL）的大规模异步训练方法，结合了搜索工具和浏览器工具的使用。具体而言，该数据集通过一个基于提示的大型语言模型（LLM）代理，自主合成高质量且具有挑战性的问答对（QA），从而创建了一个大规模的QA数据集。代理通过迭代模糊查询和注入外部事实来增加问题的复杂性，并通过多阶段验证确保每个问题的质量和难度。此外，数据集还整合了来自开源数据集（如HotpotQA和2WikiMultiHopQA）的样本，并经过严格过滤以保留最具挑战性的问题。

特点

QwQ-32B数据集的特点在于其高度复杂性和不确定性，涵盖了需要多轮工具调用和多步推理的复杂查询。数据集中的问题经过精心设计，要求代理具备解决模糊查询、生成精确搜索、分析结果和进行深入探索的能力。此外，数据集还支持极端长程搜索，工具调用次数超过40轮，输出令牌数超过150k，从而能够训练代理掌握复杂的搜索策略。数据集的另一个显著特点是其高质量和多样性，通过合成代理生成的25.6k样本和开源数据集中的16k样本，确保了数据的广泛覆盖和挑战性。

使用方法

QwQ-32B数据集的使用方法主要包括以下几个步骤：首先，用户可以通过加载数据集并访问其问答对来训练或评估搜索代理。其次，代理可以利用数据集中的问题模拟真实世界的搜索任务，通过调用搜索工具和浏览器工具来获取外部知识并生成答案。在训练过程中，代理通过强化学习优化其搜索和推理能力，特别是在长程搜索和复杂问题解决方面。此外，数据集还支持对代理性能的评估，用户可以通过LLM-as-Judge或F1分数等指标来衡量代理的搜索和推理能力。数据集的开源性质还允许用户进一步扩展或定制其内容以满足特定需求。

背景与挑战

背景概述

QwQ-32B数据集由清华大学与蚂蚁研究团队于2025年提出，旨在解决大语言模型在复杂搜索任务中的长时程推理问题。该数据集通过异步强化学习框架ASearcher构建，突破了传统方法10轮交互的限制，支持长达128轮的工具调用，显著提升了模型在跨文档推理、不确定性处理等高级搜索智能任务上的表现。其核心创新在于融合了可扩展的QA合成代理与全异步RL训练系统，在xBench和GAIA基准测试中分别取得46.7%和20.8%的性能提升，推动了开源搜索智能体的研究边界。

当前挑战

QwQ-32B面临的挑战主要体现在两个方面：领域层面，需解决模糊查询解析、冲突信息验证等搜索智能的核心难题，例如处理网络中的矛盾答案（如奥运会奖牌数据差异）；构建层面，需克服长轨迹训练的效率瓶颈（单轨迹超40轮工具调用）、处理150K+输出令牌的方差问题，以及通过14K种子QA生成134K高质量样本的数据合成挑战。这些技术难点通过动态过滤机制和分层验证流程得以突破，但实时网页噪声处理与超长程推理的稳定性仍是持续优化方向。

常用场景

经典使用场景

QwQ-32B数据集在长视野搜索智能体训练中展现出卓越的性能，特别是在处理复杂、知识密集型任务时。该数据集通过异步强化学习（RL）训练，使得智能体能够进行超过40轮的工具调用和生成超过150k的输出令牌，这在现有的开源智能体中属于领先水平。QwQ-32B数据集在xBench和GAIA等基准测试中表现出色，分别实现了46.7%和20.8%的平均增益，展示了其在多轮搜索和复杂策略学习中的强大能力。

衍生相关工作

QwQ-32B数据集衍生了一系列相关研究工作，特别是在开源搜索智能体领域。例如，ASearcher项目基于该数据集开发了完全异步的RL训练系统，显著提升了训练效率和智能体的长视野搜索能力。此外，数据合成代理的引入为生成高质量、高不确定性的QA对提供了新方法，进一步推动了复杂搜索行为的研究。这些工作不仅提升了搜索智能体的性能，还为LLM智能体在其他复杂现实任务中的应用提供了重要参考。

数据集最近研究