WebInstruct

Name: WebInstruct
Creator: 卡内基梅隆大学、滑铁卢大学
License: 暂无描述

github2024-05-31 收录

下载链接：

https://github.com/TIGER-AI-Lab/MAmmoTH2

下载链接

链接失效反馈

官方服务：

资源简介：

WebInstruct数据集由卡内基梅隆大学和滑铁卢大学联合构建，旨在通过从网络预训练语料库中提取指令数据，以增强大语言模型的推理能力。该数据集包含1000万个高质量的指令-响应对，覆盖数学、科学、工程等多个领域。WebInstruct的创建过程包含3个步骤，首先，通过爬取多个测验网站创建多样化的种子数据集，利用fastText模型从Common Crawl召回相关文档；其次，使用开源大模型如Mixtral提取候选的Q-A对；最后，通过Mixtral-8×7B和Qwen-72B对提取的Q-A对进行精细化处理，以确保数据的质量。该数据集的独特之处在于，它完全从网络挖掘而来，无需人工众包或GPT-4蒸馏，为构建更优质的指令微调数据集提供了新的范式。

The WebInstruct dataset, jointly developed by Carnegie Mellon University and the University of Waterloo, aims to enhance the reasoning capabilities of large language models by extracting instructional data from web-pretraining corpora. This dataset comprises 10 million high-quality instruction-response pairs, spanning various fields such as mathematics, science, and engineering. The creation process of WebInstruct involves three steps: first, a diverse seed dataset is established by scraping multiple quiz websites, with relevant documents retrieved from Common Crawl using the fastText model; second, open-source large models like Mixtral are employed to extract candidate Q-A pairs; finally, the extracted Q-A pairs undergo refinement through Mixtral-8×7B and Qwen-72B to ensure data quality. The uniqueness of this dataset lies in its complete derivation from web mining, eliminating the need for human crowdsourcing or GPT-4 distillation, thereby providing a novel paradigm for constructing superior instruction fine-tuning datasets.

提供机构：

卡内基梅隆大学、滑铁卢大学

创建时间：

2024-05-06

原始信息汇总

数据集概述

数据集名称

WebInstruct

数据集描述

该数据集是通过从Web corpus中提取的高质量指令数据，涵盖数学和科学等多个领域。
采用三步管道方法：从Common Crawl召回文档，提取Q-A对，并进行质量精炼。
最终产出1000万个指令-响应对，命名为WebInstruct。

数据集部分发布

部分数据集已发布于🤗 TIGER-Lab/WebInstructSub。

评估结果

详细评估结果请参考项目页面。

引用信息

若使用数据、模型或代码，请引用论文：

@article{yue2024mammoth2, title={MAmmoTH2: Scaling Instructions from the Web}, author={Yue, Xiang and Zheng, Tuney and Zhang, Ge and Chen, Wenhu}, journal={arXiv preprint arXiv:2405.03548}, year={2024} }

搜集汇总

数据集介绍

构建方式

WebInstruct数据集的构建基于从网络中发现高质量指令数据的理念。通过从Common Crawl中召回文档，提取问答对，并对其进行质量精炼，形成了一个包含1000万条指令-响应对的数据集。这一方法不仅覆盖了数学和科学等多个领域，还为现有数据集提供了一种可扩展的替代方案。

特点

WebInstruct数据集的特点在于其广泛的数据来源和高质量的内容。数据集涵盖了多个领域的指令数据，确保了数据的多样性和实用性。通过精炼过程，数据集中的问答对具有较高的准确性和相关性，适用于多种自然语言处理任务。

使用方法

WebInstruct数据集的使用方法包括通过Hugging Face平台访问和下载数据集。用户可以根据需求选择子集或完整数据集进行实验和研究。此外，数据集还可用于训练和评估各种自然语言处理模型，特别是在指令生成和问答系统中的应用。

背景与挑战

背景概述

WebInstruct数据集由TIGER-Lab团队于2024年提出，旨在通过从互联网中挖掘高质量的指令数据，推动自然语言处理领域的发展。该数据集的核心研究问题在于如何从海量的网络文本中提取出高质量的问答对，以支持大规模语言模型的训练。通过从Common Crawl中召回文档、提取问答对并进行质量优化，WebInstruct生成了1000万条指令-响应对，涵盖了数学、科学等多个领域。这一数据集为现有指令数据集的扩展提供了新的思路，并在NeurIPS 2024会议上发表，展示了其在提升模型性能方面的潜力。

当前挑战

WebInstruct数据集在构建过程中面临多重挑战。首先，从互联网中提取高质量的问答对需要克服数据噪声和冗余问题，确保数据的准确性和多样性。其次，尽管网络文本资源丰富，但其质量参差不齐，如何有效筛选和优化数据成为关键难题。此外，数据集的规模庞大，处理和分析这些数据需要高效的计算资源和算法支持。最后，如何确保数据集的泛化能力，使其能够广泛应用于不同领域的任务，也是研究者需要解决的重要问题。

常用场景

经典使用场景

WebInstruct数据集在自然语言处理领域中被广泛应用于指令数据的生成与优化。通过从Common Crawl中提取高质量的问答对，该数据集为训练大规模语言模型提供了丰富的指令数据资源。其经典使用场景包括但不限于数学、科学等领域的知识问答系统，以及多轮对话系统的训练与评估。

衍生相关工作

WebInstruct数据集衍生了一系列经典研究工作，包括MAmmoTH2系列模型的开发与优化。这些模型在多个基准测试中表现出色，进一步验证了WebInstruct数据的有效性。此外，该数据集还启发了其他研究者探索从网页数据中提取高质量指令的新方法，推动了自然语言处理领域的创新与发展。

数据集最近研究