WebInstruct|自然语言处理数据集|机器学习数据集

github2024-05-31 收录

自然语言处理

机器学习

下载链接：

https://github.com/TIGER-AI-Lab/MAmmoTH2

下载链接

链接失效反馈

资源简介：

WebInstruct数据集由卡内基梅隆大学和滑铁卢大学联合构建，旨在通过从网络预训练语料库中提取指令数据，以增强大语言模型的推理能力。该数据集包含1000万个高质量的指令-响应对，覆盖数学、科学、工程等多个领域。WebInstruct的创建过程包含3个步骤，首先，通过爬取多个测验网站创建多样化的种子数据集，利用fastText模型从Common Crawl召回相关文档；其次，使用开源大模型如Mixtral提取候选的Q-A对；最后，通过Mixtral-8×7B和Qwen-72B对提取的Q-A对进行精细化处理，以确保数据的质量。该数据集的独特之处在于，它完全从网络挖掘而来，无需人工众包或GPT-4蒸馏，为构建更优质的指令微调数据集提供了新的范式。

The WebInstruct dataset, jointly developed by Carnegie Mellon University and the University of Waterloo, aims to enhance the reasoning capabilities of large language models by extracting instructional data from web-pretraining corpora. This dataset comprises 10 million high-quality instruction-response pairs, spanning various fields such as mathematics, science, and engineering. The creation process of WebInstruct involves three steps: first, a diverse seed dataset is established by scraping multiple quiz websites, with relevant documents retrieved from Common Crawl using the fastText model; second, open-source large models like Mixtral are employed to extract candidate Q-A pairs; finally, the extracted Q-A pairs undergo refinement through Mixtral-8×7B and Qwen-72B to ensure data quality. The uniqueness of this dataset lies in its complete derivation from web mining, eliminating the need for human crowdsourcing or GPT-4 distillation, thereby providing a novel paradigm for constructing superior instruction fine-tuning datasets.

提供机构：

卡内基梅隆大学、滑铁卢大学

创建时间：

2024-05-06

原始信息汇总

数据集概述

数据集名称

WebInstruct

数据集描述

该数据集是通过从Web corpus中提取的高质量指令数据，涵盖数学和科学等多个领域。
采用三步管道方法：从Common Crawl召回文档，提取Q-A对，并进行质量精炼。
最终产出1000万个指令-响应对，命名为WebInstruct。

数据集部分发布

部分数据集已发布于🤗 TIGER-Lab/WebInstructSub。

评估结果

详细评估结果请参考项目页面。

引用信息

若使用数据、模型或代码，请引用论文：

@article{yue2024mammoth2, title={MAmmoTH2: Scaling Instructions from the Web}, author={Yue, Xiang and Zheng, Tuney and Zhang, Ge and Chen, Wenhu}, journal={arXiv preprint arXiv:2405.03548}, year={2024} }

AI搜集汇总

数据集介绍

构建方式

WebInstruct数据集的构建基于从网络中发现高质量指令数据的理念。通过从Common Crawl中召回文档，提取问答对，并对其进行质量精炼，形成了一个包含1000万条指令-响应对的数据集。这一方法不仅覆盖了数学和科学等多个领域，还为现有数据集提供了一种可扩展的替代方案。

特点

WebInstruct数据集的特点在于其广泛的数据来源和高质量的内容。数据集涵盖了多个领域的指令数据，确保了数据的多样性和实用性。通过精炼过程，数据集中的问答对具有较高的准确性和相关性，适用于多种自然语言处理任务。

使用方法

WebInstruct数据集的使用方法包括通过Hugging Face平台访问和下载数据集。用户可以根据需求选择子集或完整数据集进行实验和研究。此外，数据集还可用于训练和评估各种自然语言处理模型，特别是在指令生成和问答系统中的应用。

背景与挑战

背景概述

WebInstruct数据集由TIGER-Lab团队于2024年提出，旨在通过从互联网中挖掘高质量的指令数据，推动自然语言处理领域的发展。该数据集的核心研究问题在于如何从海量的网络文本中提取出高质量的问答对，以支持大规模语言模型的训练。通过从Common Crawl中召回文档、提取问答对并进行质量优化，WebInstruct生成了1000万条指令-响应对，涵盖了数学、科学等多个领域。这一数据集为现有指令数据集的扩展提供了新的思路，并在NeurIPS 2024会议上发表，展示了其在提升模型性能方面的潜力。

当前挑战

WebInstruct数据集在构建过程中面临多重挑战。首先，从互联网中提取高质量的问答对需要克服数据噪声和冗余问题，确保数据的准确性和多样性。其次，尽管网络文本资源丰富，但其质量参差不齐，如何有效筛选和优化数据成为关键难题。此外，数据集的规模庞大，处理和分析这些数据需要高效的计算资源和算法支持。最后，如何确保数据集的泛化能力，使其能够广泛应用于不同领域的任务，也是研究者需要解决的重要问题。

常用场景

经典使用场景

WebInstruct数据集在自然语言处理领域中被广泛应用于指令数据的生成与优化。通过从Common Crawl中提取高质量的问答对，该数据集为训练大规模语言模型提供了丰富的指令数据资源。其经典使用场景包括但不限于数学、科学等领域的知识问答系统，以及多轮对话系统的训练与评估。

衍生相关工作

WebInstruct数据集衍生了一系列经典研究工作，包括MAmmoTH2系列模型的开发与优化。这些模型在多个基准测试中表现出色，进一步验证了WebInstruct数据的有效性。此外，该数据集还启发了其他研究者探索从网页数据中提取高质量指令的新方法，推动了自然语言处理领域的创新与发展。

数据集最近研究

最新研究方向

在自然语言处理领域，WebInstruct数据集的推出标志着从互联网中挖掘高质量指令数据的新范式。该数据集通过从Common Crawl中提取问答对，并经过质量筛选，生成了1000万条指令-响应对，覆盖数学、科学等多个领域。这一方法不仅为现有数据集提供了可扩展的替代方案，还为大规模语言模型的训练提供了丰富的数据支持。WebInstruct的发布，推动了基于互联网数据的指令生成研究，尤其是在多领域知识融合和模型泛化能力提升方面，具有重要的学术价值和实际应用意义。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

ROBEL

ROBEL是一个开源的低成本机器人平台，专为现实世界的强化学习设计。该平台由谷歌研究院和加州大学伯克利分校共同开发，包含两个机器人：D'Claw，一个三指手机器人，用于促进精细操作任务的学习；D'Kitty，一个四足机器人，用于促进敏捷的腿式移动任务学习。这些模块化机器人易于维护且足够坚固，能够承受从零开始的硬件强化学习，目前已记录超过14000小时的训练时间。ROBEL提供了一系列连续控制基准任务，这些任务具有密集和稀疏的任务目标，并引入了硬件安全评分指标。数据集和相关材料可在www.roboticsbenchmarks.org访问，旨在解决强化学习在真实机器人上的应用问题，特别是在处理物理限制和环境交互方面的挑战。

arXiv 收录

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息，包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集，专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例，收集自自然雾霾环境和正常场景中人工添加的雾霾效果，以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型，确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测，旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

MIT Indoor Scenes

室内场景识别是高水平视觉中一个具有挑战性的开放性问题。大多数适用于室外场景的场景识别模型在室内领域的表现都较差。该数据库包含67个室内类别，共15620张图像。图像的数量因类别而异，但每个类别至少有100张图像。所有图像均为jpg格式。此处提供的图像仅用于研究目的。

阿里云天池收录

FAOSTAT Agricultural Data

FAOSTAT Agricultural Data 是由联合国粮食及农业组织（FAO）提供的全球农业数据集。该数据集涵盖了农业生产、贸易、价格、土地利用、水资源、气候变化、人口统计等多个方面的详细信息。数据包括了全球各个国家和地区的农业统计数据，旨在为政策制定者、研究人员和公众提供全面的农业信息。