five

QwQ-32B

收藏
arXiv2025-08-11 更新2025-08-13 收录
下载链接:
https://huggingface.co/datasets/inclusionAI/ASearcher-train-data
下载链接
链接失效反馈
官方服务:
资源简介:
QwQ-32B数据集是由清华大学计算机系、蚂蚁集团和华盛顿大学的研究人员创建的,用于大规模RL训练的搜索智能体。该数据集包含134,000个高质量的问题-答案对,其中25,600个需要使用外部工具。数据集由种子问题生成,通过迭代模糊化查询和注入外部事实来增加复杂性。每个构建的问题都经过多阶段验证以确保质量和难度。

The QwQ-32B dataset was developed by researchers from the Department of Computer Science at Tsinghua University, Ant Group, and the University of Washington, and is designed for search agents used in large-scale reinforcement learning (RL) training. This dataset comprises 134,000 high-quality question-answer pairs, 25,600 of which require the utilization of external tools. The dataset is generated from seed questions, with its complexity enhanced through iterative query fuzzification and injection of external factual information. Each constructed question undergoes multi-stage validation to guarantee its quality and proper difficulty level.
提供机构:
清华大学计算机系,蚂蚁集团,华盛顿大学
创建时间:
2025-08-11
原始信息汇总

数据集概述

基本信息

  • 数据集名称: inclusionAI/ASearcher-train-data
  • 许可证: Apache-2.0

数据集配置

  • 配置名称: default
  • 数据文件:
    • ASearcherBase35k: ASearcher-Base-35k.jsonl
    • ASearcherLRM35k: ASearcher-LRM-35k.jsonl

相关资源

  • 代码: https://github.com/inclusionAI/ASearcher
  • 论文: https://arxiv.org/abs/2508.07976
搜集汇总
数据集介绍
main_image_url
构建方式
QwQ-32B数据集的构建采用了基于强化学习(RL)的大规模异步训练方法,结合了搜索工具和浏览器工具的使用。具体而言,该数据集通过一个基于提示的大型语言模型(LLM)代理,自主合成高质量且具有挑战性的问答对(QA),从而创建了一个大规模的QA数据集。代理通过迭代模糊查询和注入外部事实来增加问题的复杂性,并通过多阶段验证确保每个问题的质量和难度。此外,数据集还整合了来自开源数据集(如HotpotQA和2WikiMultiHopQA)的样本,并经过严格过滤以保留最具挑战性的问题。
特点
QwQ-32B数据集的特点在于其高度复杂性和不确定性,涵盖了需要多轮工具调用和多步推理的复杂查询。数据集中的问题经过精心设计,要求代理具备解决模糊查询、生成精确搜索、分析结果和进行深入探索的能力。此外,数据集还支持极端长程搜索,工具调用次数超过40轮,输出令牌数超过150k,从而能够训练代理掌握复杂的搜索策略。数据集的另一个显著特点是其高质量和多样性,通过合成代理生成的25.6k样本和开源数据集中的16k样本,确保了数据的广泛覆盖和挑战性。
使用方法
QwQ-32B数据集的使用方法主要包括以下几个步骤:首先,用户可以通过加载数据集并访问其问答对来训练或评估搜索代理。其次,代理可以利用数据集中的问题模拟真实世界的搜索任务,通过调用搜索工具和浏览器工具来获取外部知识并生成答案。在训练过程中,代理通过强化学习优化其搜索和推理能力,特别是在长程搜索和复杂问题解决方面。此外,数据集还支持对代理性能的评估,用户可以通过LLM-as-Judge或F1分数等指标来衡量代理的搜索和推理能力。数据集的开源性质还允许用户进一步扩展或定制其内容以满足特定需求。
背景与挑战
背景概述
QwQ-32B数据集由清华大学与蚂蚁研究团队于2025年提出,旨在解决大语言模型在复杂搜索任务中的长时程推理问题。该数据集通过异步强化学习框架ASearcher构建,突破了传统方法10轮交互的限制,支持长达128轮的工具调用,显著提升了模型在跨文档推理、不确定性处理等高级搜索智能任务上的表现。其核心创新在于融合了可扩展的QA合成代理与全异步RL训练系统,在xBench和GAIA基准测试中分别取得46.7%和20.8%的性能提升,推动了开源搜索智能体的研究边界。
当前挑战
QwQ-32B面临的挑战主要体现在两个方面:领域层面,需解决模糊查询解析、冲突信息验证等搜索智能的核心难题,例如处理网络中的矛盾答案(如奥运会奖牌数据差异);构建层面,需克服长轨迹训练的效率瓶颈(单轨迹超40轮工具调用)、处理150K+输出令牌的方差问题,以及通过14K种子QA生成134K高质量样本的数据合成挑战。这些技术难点通过动态过滤机制和分层验证流程得以突破,但实时网页噪声处理与超长程推理的稳定性仍是持续优化方向。
常用场景
经典使用场景
QwQ-32B数据集在长视野搜索智能体训练中展现出卓越的性能,特别是在处理复杂、知识密集型任务时。该数据集通过异步强化学习(RL)训练,使得智能体能够进行超过40轮的工具调用和生成超过150k的输出令牌,这在现有的开源智能体中属于领先水平。QwQ-32B数据集在xBench和GAIA等基准测试中表现出色,分别实现了46.7%和20.8%的平均增益,展示了其在多轮搜索和复杂策略学习中的强大能力。
衍生相关工作
QwQ-32B数据集衍生了一系列相关研究工作,特别是在开源搜索智能体领域。例如,ASearcher项目基于该数据集开发了完全异步的RL训练系统,显著提升了训练效率和智能体的长视野搜索能力。此外,数据合成代理的引入为生成高质量、高不确定性的QA对提供了新方法,进一步推动了复杂搜索行为的研究。这些工作不仅提升了搜索智能体的性能,还为LLM智能体在其他复杂现实任务中的应用提供了重要参考。
数据集最近研究
最新研究方向
在大型语言模型(LLM)驱动的智能体领域,QwQ-32B数据集的最新研究聚焦于通过异步强化学习(RL)解锁长视野搜索能力。该研究突破了传统在线RL方法中搜索轮次限制(≤10轮)的瓶颈,提出了一种完全异步的RL训练框架,支持单轨迹长达128轮的工具调用和超过150k输出令牌的复杂策略学习。研究团队开发的ASearcher系统通过解耦轨迹执行与模型更新,实现了训练效率与长轨迹探索的平衡。同时,创新性地采用基于提示的LLM代理自动合成包含13.4万高质量问答对的数据集,其中25.6k样本需依赖外部工具解决。在GAIA和xBench等基准测试中,经过RL训练的QwQ-32B代理分别取得20.8%和46.7%的平均性能提升,展现出跨文档推理、不确定性感知等专家级搜索智能特征。这项研究为开源社区提供了首个支持大规模智能体RL训练的完整框架,推动了复杂现实任务中搜索智能的边界。
相关研究论文
  • 1
    Beyond Ten Turns: Unlocking Long-Horizon Agentic Search with Large-Scale Asynchronous RL清华大学计算机系,蚂蚁集团,华盛顿大学 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作