WebInstruct-verified

Name: WebInstruct-verified
Creator: 滑铁卢大学
Published: 2025-05-21 01:41:33
License: 暂无描述

arXiv2025-05-21 更新2025-05-22 收录

下载链接：

https://tiger-ai-lab.github.io/General-Reasoner/

下载链接

链接失效反馈

官方服务：

资源简介：

WebInstruct-verified是一个大规模、高质量的数据集，包含约230,000个具有可验证答案的推理问题，涵盖广泛的学科领域。该数据集是通过从网络资源中精心爬取和过滤高质量的推理问题而构建的，这些资源基于WebInstruct数据集。数据集的内容包括多种答案格式，如选择题、数值表达式、矩阵等，涵盖了数学、物理、化学、金融、经济、历史、生物学等多个学科。数据集的创建过程包括数据爬取、问题提取、答案验证和元数据标注等步骤。WebInstruct-verified旨在解决现有推理模型在非数学领域适用性和鲁棒性不足的问题，为提高大型语言模型在多领域推理能力提供基础。

WebInstruct-verified is a large-scale, high-quality dataset containing approximately 230,000 reasoning questions with verifiable answers, spanning a wide range of academic disciplines. This dataset is constructed by carefully crawling and filtering high-quality reasoning questions from web resources based on the original WebInstruct dataset. It covers diverse answer formats including multiple-choice questions, numerical expressions, matrices and more, across multiple fields such as mathematics, physics, chemistry, finance, economics, history and biology. The dataset creation process includes steps such as data crawling, question extraction, answer verification and metadata annotation. WebInstruct-verified aims to address the insufficient applicability and robustness of existing reasoning models in non-mathematical domains, providing a foundational resource to improve the multi-domain reasoning capabilities of large language models.

提供机构：

滑铁卢大学

创建时间：

2025-05-21

原始信息汇总

General-Reasoner 数据集概述

数据集基本信息

名称: General-Reasoner
开发者: Xueguang Ma, Qian Liu, Dongfu Jiang, Ge Zhang, Zejun Ma, Wenhu Chen
机构: 滑铁卢大学, Vector Institute, TikTok新加坡, M-A-P
联系邮箱: x93ma@uwaterloo.ca, wenhuchen@uwaterloo.ca
论文链接: arXiv:2505.14652

数据集内容

规模: 230K 高质量推理问题
领域覆盖: 数学、物理、化学、金融、社会科学、人文科学等
数据来源: 从WebInstruct中筛选，原始数据来自StackExchange和教育门户网站
数据特点:
- 问题具有可验证的答案
- 答案类型多样
- 经过严格的质量过滤

数据构建流程

初始筛选: 从约500万条网络爬取指令中提取问题-答案对
质量保证: 仅保留具有明确人类编写答案的问题
可验证性筛选: 使用Gemini-1.5-Pro识别可验证问题
元数据标注: 使用Gemini-2.0-Flash标注答案类型和难度
平衡处理: 对简单数学问题进行降采样
最终过滤:
- 移除所有8个候选答案均失败的问题
- 移除所有8个答案均正确的简单问题

验证器

名称: General-Verifier
类型: 生成式模型验证器
参数量: 1.5B
基础模型: Qwen2.5-Math-1.5B
特点:
- 支持思维链验证
- 支持上下文感知
- 能够处理多样化的答案格式

性能表现

基准测试:
- MMLU-Pro: 58.9% (Qwen2.5-7B-Base)
- GPQA: 56.1% (Qwen3-14B)
- TheoremQA: 54.4% (Qwen3-14B)
比较优势:
- 超越基础模型和监督模型
- 在数学相关任务中表现优异
- 在多样化领域展现强大推理能力

引用格式

bibtex @article{general-reasoner, title={{G}eneral-{R}easoner: Advancing {LLM} Reasoning Across All Domains}, author={Xueguang Ma and Qian Liu and Dongfu Jiang and Ge Zhang and Zejun Ma and Wenhu Chen}, year={2025}, journal={arXiv:2505.14652}, url={https://arxiv.org/abs/2505.14652}, }

搜集汇总

数据集介绍

构建方式

WebInstruct-verified数据集的构建采用了多阶段的严格筛选流程。研究团队首先从WebInstruct原始数据集中筛选出约500万条自然语言指令，通过回溯原始网页重新爬取精确的问答对。随后利用Gemini-1.5-Pro模型提取具有明确可验证短答案的单轮问题，形成约100万条中间数据集。最终通过Gemini-2.0-Flash生成的8个候选解决方案进行质量控制，排除无法解答或过于简单的问题，确保数据集的挑战性和可靠性。

使用方法

该数据集专为强化学习训练设计，可与Group Relative Policy Optimization (GRPO)等算法配合使用。研究人员建议采用模型基础的验证器（如论文提出的1.5B参数General-Verifier）而非传统规则验证，以处理多元学科中复杂的答案等价性判断。使用时需注意：对于验证失败的解决方案设置-0.5奖励，通过验证的答案给予1分基础奖励，并应用基于答案长度的惩罚机制（-0.05×长度差异）来优化生成质量。

背景与挑战

背景概述

WebInstruct-verified数据集由滑铁卢大学、Vector Institute及TikTok Singapore等机构的研究团队于2025年构建，旨在突破大语言模型（LLMs）在数学和编程领域之外的多学科推理能力瓶颈。该数据集基于WebInstruct框架，通过精心筛选网络爬取的230,000个跨学科问题（涵盖物理、化学、金融等12个领域），并创新性地采用生成式模型验证答案，解决了传统规则验证方法在语义多样性上的局限性。其提出的General-Reasoner训练范式在MMLU-Pro、GPQA等基准测试中实现10%的性能提升，显著推动了通用推理模型的发展。

当前挑战

该数据集面临的核心挑战体现在两方面：领域层面，需解决非结构化答案（如自由文本、LaTeX表达式）的语义等效判断问题，传统规则验证器在此类场景的准确率不足22%；构建层面，需克服网络数据固有的噪声干扰（如模糊问题占比达37%），通过Gemini-2.0生成八组候选解并进行双重过滤（剔除全错/全对样本），最终仅保留4.6%的高质量数据。此外，开发1.5B参数的General-Verifier模型时，需平衡验证精度（78.7%与Gemini-2.0一致性）与计算效率的矛盾，避免RL训练时的算力爆炸。

常用场景

经典使用场景

WebInstruct-verified数据集在大型语言模型（LLM）的推理能力训练中扮演了关键角色。该数据集通过精心筛选和验证的230K高质量推理问题，覆盖了数学、物理、化学、金融等多个学科领域，为模型提供了丰富的训练素材。其最经典的使用场景在于支持零强化学习（Zero RL）训练，使得基础模型无需经过中间监督微调阶段即可直接进行强化学习，显著提升了模型在跨领域推理任务中的表现。

解决学术问题

WebInstruct-verified数据集解决了当前LLM推理研究中数据稀缺和答案验证困难两大核心问题。传统研究多集中于数学和编程领域，因其数据易获取且答案易于验证，而该数据集通过模型驱动的验证器（General-Verifier）支持多样化的答案类型（如短字符串、LaTeX表达式等），从而扩展了RL训练的应用范围。这一突破为跨学科推理任务提供了可靠的数据基础，推动了LLM在复杂现实问题中的实际应用。

实际应用

在实际应用中，WebInstruct-verified数据集支持的General-Reasoner模型已展现出广泛的适用性。例如，在金融领域，模型可解析市场数据并生成投资策略；在工程领域，能辅助解决物理系统设计问题；在教育场景中，可为学生提供跨学科的习题解答与知识推理。其模型驱动的验证机制尤其适用于医疗诊断等需语义理解的领域，显著降低了传统规则验证的误判率。

数据集最近研究