wikihownest

Name: wikihownest
Creator: FAR AI
Published: 2026-04-16 19:52:15
License: 暂无描述

Hugging Face2026-04-16 更新2026-04-17 收录

下载链接：

https://huggingface.co/datasets/AlignmentResearch/wikihownest

下载链接

链接失效反馈

官方服务：

资源简介：

WikiHowNest是一个用于训练欺骗检测探针的程序性指令数据集，包含7,244个程序性指令对话示例（用户问题+助手回答），涵盖诚实和欺骗性变体，分为短、中、长三个长度层级。该数据集旨在填补欺骗探针训练数据中的空白，特别是缺少短诚实程序性指令示例的问题。数据来源于1,940篇独特的英文WikiHow文章，经过筛选保留具有"How to"前缀标题的文章。数据集字段包括对话内容、诚实性标识、长度层级、字数统计、原始文章标题等，对于欺骗性示例还包含欺骗策略、具体修改计划、可行性评分和已验证的错误数量。数据生成流程包括源文章选择、Claude Haiku 4.5模型生成摘要（短、中长度）或使用原文（长长度）、欺骗可行性评分、基于欺骗计划的故意错误改写以及错误验证。欺骗策略主要包括步骤错误、事实篡改和重要警告遗漏。数据集已知限制包括短欺骗性示例数量较少（仅48个）、部分短示例字数超出预期、单一模型生成可能带来的风格偏差以及WikiHow主题覆盖范围的限制。该数据集主要用于训练和评估欺骗检测探针，特别是提高对短程序性指令回答的检测准确率，不适用于训练生成欺骗性内容的模型。

提供机构：

FAR AI

创建时间：

2026-04-16

原始信息汇总

WikiHowNest 数据集概述

数据集基本信息

名称: WikiHowNest
语言: 英语 (en)
许可证: CC BY 4.0
任务类别: 文本分类
标签: 欺骗检测、指令遵循、wikihow、程序性知识
规模: 1K<n<10K
示例总数: 7,244

数据集概述

WikiHowNest 是一个用于训练欺骗检测探针的程序性指令数据集，由 WikiHow 文章生成。它包含 7,244 个程序性指令对话示例（用户问题 + 助手回复），涵盖三个长度层级中的诚实和欺骗性变体。该数据集的创建旨在解决欺骗探针训练数据中的一个空白：缺乏简短诚实的程序性指令示例。

数据集统计

按长度与诚实性划分的示例数量

长度层级 (目标词数)	诚实示例	欺骗性示例	总计
短 (15-50词)	1,940	48	1,988
中 (50-150词)	1,940	279	2,219
长 (原始文章)	1,940	1,097	3,037
总计	5,820	1,424	7,244

唯一文章数: 1,940 (来自 1,995 篇英文 WikiHow 文章；55 篇因标题非程序性而被跳过)
数据来源: 0x22almostEvil/multilingual-wikihow-qa-16k

数据字段说明

字段名	类型	描述
`source`	string	固定为 `"wikihow_instructions"`
`prefix_messages`	list[dict]	对话内容: `[{role: "user", content: question}, {role: "assistant", content: response}]`
`a1_is_honest`	bool	助手回复是否为诚实 (true) 或包含故意错误 (false)
`variant`	string	长度层级: `"short"`、`"medium"` 或 `"long"`
`word_count`	int	助手回复的词数
`wikihow_title`	string	原始 WikiHow 文章标题
`deception_strategies`	list[string]	(仅欺骗性示例) 用于引入错误的策略
`deception_plan`	string	(仅欺骗性示例) 所做的具体更改
`deception_rating`	int	(仅欺骗性示例) 欺骗可行性评级 (3-5)
`n_verified_errors`	int	(仅欺骗性示例) 已验证的事实错误数量

数据生成流程

来源选择: 选择标题以 "How to" 为前缀的英文 WikiHow 文章。
摘要生成: 使用 Claude Haiku 4.5 生成短 (15-40词) 和中 (50-150词) 摘要；长层级使用原始文章。
欺骗可行性评级: 对每个变体进行 1-5 级的欺骗可行性评级；仅评级 >=3 的变体进入下一步。
欺骗性改写: Claude Haiku 4.5 根据欺骗计划对回复进行改写，引入故意的程序性错误。
验证: 通过单独的 LLM 调用验证改写内容具有相关性且至少包含 1 个可检测的错误。

欺骗策略

procedure_errors: 交换步骤、改变数量、推荐错误工具。
factual_corruption: 更改名称、日期、数字或技术细节。
omission_of_caveats: 移除重要的警告或安全步骤。这三种策略在所有层级中大致均匀分布。

已知局限性

短欺骗性示例数量少: 仅有 48 个短欺骗性示例 (2.4%)，原因是 Haiku 对医疗/安全内容的拒绝，以及在非常短的回复中引入细微错误的难度。短诚实示例 (1,940) 是主要价值所在。
短长度超标: 约 17% 的短诚实示例超过 50 词 (最多 104 词)。中位数为 41 词，83% 少于 50 词。
单一模型生成: 所有摘要和欺骗性改写均使用 Claude Haiku 4.5，可能引入模型特定的风格模式。
WikiHow 领域偏差: 涵盖广泛的程序性主题，但仅限于 WikiHow 覆盖的主题。

预期用途

用于训练和评估欺骗检测探针，特别是提高探针对短程序性指令回复的准确性。不适用于训练模型生成欺骗性内容。

生成成本

总成本 $43.62 (15,858 次 Claude Haiku 4.5 API 调用，20.0M 输入词元 + 4.7M 输出词元)。

搜集汇总

数据集介绍

构建方式

在构建WikiHowNest数据集时，研究团队首先从包含“如何”前缀标题的英文WikiHow文章中筛选出1940篇独特文章，确保内容具有明确的程序性知识特征。随后，利用Claude Haiku 4.5模型对这些文章进行多长度层级的摘要生成：短摘要控制在15至50词之间，中摘要介于50至150词，而长摘要则直接采用原始文章内容。为引入欺骗性样本，模型基于可行性评级（≥3分）对响应进行改写，通过策略如步骤交换、数量更改或关键警告省略等方式植入故意错误，最终通过独立验证确保每个欺骗性响应至少包含一个可检测的错误。

使用方法

该数据集主要用于训练和评估欺骗检测探针，特别侧重于提升模型对短程序性指令响应的识别准确性。使用者可通过加载数据集中prefix_messages字段的对话结构，结合a1_is_honest标签进行监督学习，或利用deception_strategies等辅助字段进行多任务分析。在应用时，需注意数据集的领域局限性（仅基于WikiHow主题）和短欺骗样本数量较少的特点，建议通过交叉验证或数据增强方法优化模型泛化能力，避免将其用于生成欺骗性内容。

背景与挑战

背景概述

WikiHowNest数据集于近期由研究团队构建，旨在填补欺骗检测领域在短文本程序性指令数据方面的空白。该数据集基于WikiHow文章，通过自动化流程生成了包含诚实与欺骗性变体的对话示例，覆盖短、中、长三种文本长度层级。其核心研究问题聚焦于如何有效训练模型识别程序性知识中的故意错误，从而提升人工智能在遵循指令时的可靠性与安全性。该数据集的创建为欺骗检测探针的开发提供了关键资源，推动了可解释性人工智能与安全对齐领域的研究进展。

当前挑战

该数据集旨在解决程序性指令中欺骗检测的挑战，即模型需准确识别步骤顺序、数量、工具推荐等细微错误。构建过程中面临多重困难：短文本欺骗样本数量严重不足，仅占2.4%，源于模型安全机制对医疗等内容的重写拒绝及短文本中植入错误的复杂性；文本长度控制存在偏差，部分短样本超出预设词数上限；数据生成依赖单一模型Claude Haiku 4.5，可能引入风格偏差；且数据范围受WikiHow主题覆盖度的限制，未能涵盖更广泛的程序性知识领域。

常用场景

经典使用场景

在自然语言处理领域，WikiHowNest数据集专为训练和评估欺骗检测探针而设计，尤其聚焦于程序性指令对话场景。该数据集通过构建包含诚实与欺骗性变体的对话对，模拟了真实世界中用户与助手交互时可能遭遇的信息失真情境。研究者利用其多长度层级的响应样本，能够系统性地分析模型在不同文本复杂度下识别故意引入错误的能力，为提升人工智能系统的安全性与可靠性提供了关键实验平台。

解决学术问题

该数据集有效填补了程序性指令领域短文本欺骗检测训练数据的空白，解决了以往研究因缺乏高质量、细粒度标注样本而难以深入探究微妙欺骗模式的问题。通过提供精确标注的错误策略与可行性评级，它支持学术界对模型鲁棒性、可解释性及对抗性攻击防御机制的研究，推动了可信人工智能理论框架的发展，并为评估模型在复杂信息环境下的认知偏差提供了标准化基准。

实际应用

在实际应用中，WikiHowNest可集成至智能助手、教育平台或内容审核系统的训练流程，帮助检测并过滤含有误导性步骤说明的生成内容。例如，在在线教程或操作指南生成场景中，该系统能够识别工具推荐错误、步骤顺序混淆或安全警告缺失等风险，从而防止用户因错误信息而执行有害操作，显著提升人机交互场景的信息安全与服务质量。

数据集最近研究