WebR-Basic, WebR-Pro
收藏arXiv2025-04-22 更新2025-04-24 收录
下载链接:
https://github.com/YJiangcm/WebR
下载链接
链接失效反馈官方服务:
资源简介:
WebR数据集是由香港科技大学(广州)和华为诺亚方舟实验室提出的一种新型指令调优数据合成框架。该数据集通过最小化假设,直接从原始网页文档合成高质量指令调优数据。数据集包含100,000条指令-响应对,分为WebR-Basic和WebR-Pro两个版本,分别基于Llama3-70B-Instruct和GPT-4o-mini模型生成。
The WebR dataset is built upon a novel instruction-tuning data synthesis framework proposed by The Hong Kong University of Science and Technology (Guangzhou) and Huawei Noah's Ark Lab. This framework synthesizes high-quality instruction-tuning data directly from raw web documents with minimal a priori assumptions. The dataset comprises 100,000 instruction-response pairs, and is released in two versions: WebR-Basic and WebR-Pro, which are generated based on the Llama3-70B-Instruct and GPT-4o-mini models respectively.
提供机构:
香港科技大学(广州), 华为诺亚方舟实验室
创建时间:
2025-04-22
搜集汇总
数据集介绍

构建方式
WebR-Basic和WebR-Pro数据集的构建采用了创新的Web Reconstruction框架,通过双视角范式将原始网页内容转化为高质量的指令-响应对。具体而言,该方法将每个网页文档分别视为指令或响应,触发重构过程:在‘Web as Instruction’视角下,原始网页内容与合成的重写请求结合形成完整指令;在‘Web as Response’视角下,通过两阶段精炼过程(初始生成与信息整合)提升响应质量。数据源涵盖Common Crawl(70%)、OpenWebMath(15%)和GitHub(15%)三大领域,并采用角色驱动的指令合成策略,最终通过MinHash去重生成10万对样本。
特点
该数据集的核心特点体现在三个方面:质量方面,通过双视角重构和两阶段精炼机制确保输出符合人类偏好;多样性方面,融合通用、数学和编程领域内容,且嵌入多样性得分达0.93,超越多数人工标注数据集;效率方面,实验证明其训练数据规模与性能呈线性对数关系,仅需10k样本即可实现40.26%的性能提升。特别值得注意的是,WebR-Pro在AlpacaEval 2等基准测试中平均超越现有最佳基线16.65%,且在数学推理(MATH)和代码生成(HumanEval)任务中分别取得28.09和51.39的显著优势。
使用方法
使用该数据集时,建议采用分阶段策略:预处理阶段需加载角色模板和领域权重参数(通用:数学:代码=7:1.5:1.5);微调阶段推荐使用AdamW优化器(学习率2e-5,批量128)在Llama3或Qwen等基座模型上进行4轮训练,最大序列长度设置为4096(14B模型为2048)。对于领域适配任务,可通过调整源数据比例实现——例如将医疗文档占比提升至20%可使MedQA得分提高11.43个百分点。评估时建议组合AlpacaEval 2(指令遵循)、MATH(数学推理)和HumanEval(代码生成)等多维度基准,注意GPT-4-turbo应作为MT-Bench的评判模型。
背景与挑战
背景概述
WebR-Basic和WebR-Pro数据集由香港科技大学(广州)、香港科技大学和华为诺亚方舟实验室的研究团队于2025年提出,旨在解决大语言模型(LLMs)在指令跟随能力提升过程中面临的高质量指令-响应对数据稀缺问题。该研究团队通过创新的Web Reconstruction(WebR)框架,实现了从原始网页文档中全自动合成高质量的指令调优数据,无需依赖人工标注或强假设的网页结构。这一突破性工作显著提升了LLMs在指令跟随任务中的表现,并在AlpacaEval 2、Arena-Hard等四个基准测试中取得了最高16.65%的性能提升,为自然语言处理领域的指令调优数据合成提供了新的范式。
当前挑战
在构建WebR数据集过程中,研究团队面临两大核心挑战:一是领域问题挑战,即如何从噪声大、结构松散的原始网页内容中提取语义连贯的指令-响应对,这要求模型具备强大的上下文理解与重构能力;二是技术实现挑战,包括设计无需人工干预的双视角合成范式(Web as Instruction/Response)、解决网页文档中无关内容过滤问题,以及开发基于MinHash的去重算法以保证数据多样性。这些挑战的突破使得WebR能够处理更广泛的网页文档类型,相比传统基于问答对提取或回译的方法具有显著优势。
常用场景
经典使用场景
在自然语言处理领域,WebR-Basic和WebR-Pro数据集被广泛应用于指令微调(Instruction-Tuning)任务中。通过将原始网页内容重构为高质量的指令-响应对,这些数据集为大型语言模型(LLMs)提供了丰富的训练素材。其独特的双视角范式——‘网页作为指令’和‘网页作为响应’——使得模型能够从多样化的网页内容中学习复杂的语义理解和任务执行能力。
解决学术问题
WebR数据集有效解决了指令微调数据合成中的两大核心问题:一是摆脱了对人工标注种子数据的依赖,实现了完全自动化的高质量数据生成;二是突破了传统方法对网页结构强假设的限制,能够处理原始、嘈杂的网页内容。通过实验验证,基于WebR训练的模型在AlpacaEval 2、Arena-Hard等基准测试中平均提升16.65%,显著推动了开放域指令跟随能力的研究边界。
衍生相关工作
该数据集衍生出多条重要研究方向:基于WebR-Pro的混合数据策略(如与IT Mix合并)催生了新的性能标杆;其双视角重构机制启发了后续研究如DoG-Instruct的文本接地指令包装方法;而数据效率分析结论(线性性能增长)为资源受限场景下的模型训练提供了理论依据。这些工作共同构成了当前自动化指令数据合成领域的技术图谱。
以上内容由遇见数据集搜集并总结生成



