How2Everything

github2026-02-11 更新2026-02-13 收录

下载链接：

https://github.com/lilakk/how2everything

下载链接

链接失效反馈

官方服务：

资源简介：

How2Everything是一个包含多个数据集的集合，用于评估和改进大型语言模型（LLMs）。How2Mine是一个多阶段管道，从网页文档中挖掘结构化程序（目标+资源+步骤），在约100万页面上运行后，生成了14个主题的351K个程序。How2Bench是一个7K示例的评估基准，涵盖了多个主题，并包含How2Score和How2Judge两个评估协议。How2Train是剩余的挖掘程序，用作强化学习的训练数据。

How2Everything is a collection of multiple datasets dedicated to evaluating and enhancing Large Language Models (LLMs). How2Mine is a multi-stage pipeline that mines structured programs (comprising objectives, resources, and steps) from web documents. After being applied to approximately 1 million web pages, it has produced 351,000 programs spanning 14 distinct topics. How2Bench is an evaluation benchmark containing 7,000 examples across diverse topics, and incorporates two evaluation protocols: How2Score and How2Judge. How2Train consists of the remaining mined program samples, which serve as training data for reinforcement learning tasks.

创建时间：

2026-02-08

原始信息汇总

How2Everything 数据集概述

数据集简介

How2Everything 是一个用于评估和改进大型语言模型生成“如何做”类程序性文本能力的资源集合。它通过从网络挖掘真实操作流程，构建评估基准，并利用该信号训练更好的模型，形成了一个完整的实践闭环。

核心组件

1. How2Mine

描述：一个多阶段流水线，用于从网络文档中挖掘结构化的操作流程（目标 + 资源 + 步骤）。
规模：在约 100 万网页上运行，产生了涵盖 14 个主题的 351,000 个流程。
访问地址：https://huggingface.co/datasets/how2everything/how2mine

2. How2Bench

描述：一个包含 7,000 个示例的评估基准，在各个主题间保持平衡。
子组件：
- How2Score：一个使用 LLM 作为评判员的协议，用于检查生成的流程是否包含任何会阻碍目标达成的关键性失败。
- How2Judge：一个开源的 80 亿参数评判模型（从 GPT-5 蒸馏而来），与人类标注者的一致性达到 80.5%，支持低成本、可复现的评估。
访问地址：https://huggingface.co/datasets/how2everything/how2bench

3. How2Train

描述：剩余的被挖掘流程用作强化学习训练数据。使用 How2Score 作为奖励信号，可在 12 个标准基准上不出现性能倒退的情况下，将三个模型在 How2Bench 上的性能提升超过 10 个百分点。
访问地址：https://huggingface.co/datasets/how2everything/how2train

其他发布成果

1. How2Judge 模型

描述：开源的 80 亿参数评判模型。
访问地址：https://huggingface.co/how2everything/how2judge

2. 附带标注数据集

WildChat labeled：由 OpenAI 查询类型分类器标注的 WildChat 数据。
- 访问地址：https://huggingface.co/datasets/how2everything/WildChat-4.8M
lmsys-chat labeled：由 OpenAI 查询类型分类器标注的 lmsys-chat 数据。
- 访问地址：https://huggingface.co/datasets/how2everything/lmsys-chat-1m

相关资源

论文：https://arxiv.org/pdf/2602.08808
博客文章：https://allenai.org/blog/how2everything
HuggingFace 集合：https://huggingface.co/collections/how2everything/how2everything
引用信息： bibtex @misc{chang2026how2everythingminingwebhowto, title={How2Everything: Mining the Web for How-To Procedures to Evaluate and Improve LLMs}, author={Yapei Chang and Kyle Lo and Mohit Iyyer and Luca Soldaini}, year={2026}, eprint={2602.08808}, archivePrefix={arXiv}, primaryClass={cs.LG}, url={https://arxiv.org/abs/2602.08808}, }

搜集汇总

数据集介绍

构建方式

在大型语言模型生成指令的可靠性评估领域，How2Everything数据集通过一套严谨的流程构建而成。其核心组件How2Mine采用多阶段流水线技术，从近百万份网络文档中自动挖掘结构化流程，最终提炼出涵盖14个主题的35.1万条高质量“目标-资源-步骤”三元组程序。这一自动化挖掘过程确保了数据来源的广泛性与真实性，为后续的评估与训练奠定了坚实基础。

使用方法

对于研究人员而言，该数据集提供了清晰的使用路径。用户可通过命令行工具分别执行数据挖掘、模型评估与训练数据准备等任务。评估阶段默认使用内建的How2Judge模型，通过检查生成流程中是否存在缺失步骤、顺序错误或矛盾指令等关键性失败来进行评分。训练数据则已预先去重，确保与测试集分离，可直接用于基于强化学习的模型微调，以提升模型在生成可靠操作流程方面的能力。

背景与挑战

背景概述

在大型语言模型（LLM）迅猛发展的时代，其生成各类指令的能力日益增强，覆盖从现实世界任务到智能体规划的广泛领域。然而，模型输出的流畅性往往掩盖了逻辑缺陷，如步骤缺失或矛盾，传统评估方法难以有效检测这些深层错误。How2Everything数据集由AllenAI等机构的研究人员于2026年创建，旨在通过从网络挖掘真实结构化流程（目标、资源、步骤），构建一个系统性基准，以评估和提升LLM在生成可执行操作指南方面的能力。该数据集包含35.1万条流程和7千条平衡评估样本，推动了指令生成领域向可靠性与实用性迈进。

当前挑战

How2Everything数据集致力于解决LLM生成可执行操作指南的核心挑战，即模型输出常包含关键性失败（如步骤遗漏、顺序错误），而表面流畅度指标无法有效识别。构建过程中，从海量网络文档中自动提取结构化流程面临多重困难：网页内容噪声大、格式异构，需设计多阶段管道（How2Mine）精准分离目标、资源与步骤；同时，创建高效评估协议（How2Score）需开发低成本、高一致性的评判模型（How2Judge），以替代昂贵的人工标注，确保评估的可扩展性与可复现性。

常用场景

经典使用场景

在自然语言处理领域，How2Everything数据集为大型语言模型在生成结构化操作指南方面的能力评估提供了关键基准。其核心应用场景在于系统性地评测模型输出步骤的完整性与逻辑一致性，通过How2Bench中的7K个平衡样本，研究者能够量化模型在烹饪、报税等14个主题中生成可行流程的可靠性。这一过程借助How2Judge自动评分协议，高效识别缺失步骤、顺序错误等关键失误，从而推动模型在生成实际可执行指令方面的迭代优化。

解决学术问题

该数据集有效应对了当前大语言模型研究中指令生成质量评估的瓶颈问题。传统基于流畅度的表面指标难以捕捉步骤遗漏、前提矛盾等深层缺陷，而人工验证又缺乏可扩展性。How2Everything通过从网页挖掘的35万条真实流程构建训练与评测闭环，不仅建立了可复现的自动化评估标准，更以How2Score作为奖励信号驱动强化学习，使模型在保持通用能力的同时，在流程生成任务上获得超过10个百分点的性能提升，为可信赖的AI助手开发奠定了方法论基础。

实际应用

在实际应用层面，How2Everything支撑了智能助手与自动化代理系统的可靠性增强。基于其挖掘的跨领域操作流程，企业可训练模型生成精准的客户指导方案、技术维护规程或教育培训步骤。例如，在客服机器人中集成经过该数据集优化的模型，能显著降低因错误指引导致的用户操作失败率。同时，其开源的How2Judge模型为行业提供了低成本的质量检测工具，使得在线平台能够大规模筛查自动生成内容的可行性，提升信息服务的安全性与实用性。

数据集最近研究