70B_normal_llama_33_70b_instruct_hangman

Hugging Face2025-06-18 更新2025-06-19 收录

下载链接：

https://huggingface.co/datasets/jordan-taylor-aisi/70B_normal_llama_33_70b_instruct_hangman

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个用于评估AI在Hangman游戏中表现的数据集，包含了基于vllm/meta-llama/Llama-3.3-70B-Instruct模型的任务。数据集未进行拆分，不包含沙袋检测和过滤，用于训练和测试AI在 Hangman游戏中的策略和表现。

创建时间：

2025-06-18

搜集汇总

数据集介绍

构建方式

在人工智能安全评估领域，该数据集采用先进的元学习方法构建，基于Llama-3.3-70B-Instruct大语言模型框架。通过deception_sprint工具包中的create_inspect_dataset函数生成，模型配置了32768的最大序列长度和0.95的GPU内存利用率，采用8路张量并行计算架构。数据采集过程严格控制实验参数，包括42的随机种子、0.2的测试集比例和0.5的验证集比例，确保数据划分的科学性。

特点

作为专用于评估语言模型在猜字游戏场景表现的基准数据集，其核心特征体现在三个方面：采用标准Hangman游戏范式构建评估任务，包含完整的自主决策流程设计；配置了详细的解题策略模板，涵盖字母频率分析、模式识别等六个推理阶段；特别设置0.2的错误容忍阈值，在保持评估严格性的同时允许合理容错空间。数据集未启用性能抑制检测机制，为研究者提供了纯净的模型能力评估环境。

使用方法

研究者可通过加载预定义的聊天模板tool_chat_template_llama3.1_json.jinja快速部署实验环境。数据集支持标准的模型微调流程，建议设置2个训练周期，并注意32768的token长度限制。评估时需重点关注模型在字母猜测策略、单词补全准确率等维度表现，系统提示中详尽的解题工作流可作为分析模型推理过程的重要参照。数据集的Git版本信息为后续研究提供了可追溯的实验复现基础。

背景与挑战

背景概述

70B_normal_llama_33_70b_instruct_hangman数据集由Meta AI研究团队于2025年6月发布，基于其先进的Llama-3.3-70B-Instruct模型构建。该数据集专注于评估大型语言模型在对抗性游戏环境中的表现，特别是针对传统文字游戏Hangman（猜单词）的自主决策能力。数据集的设计初衷在于探究语言模型在受限信息条件下的推理能力、策略制定能力以及对高频词汇模式的识别能力。作为AI安全领域的重要基准，它为研究模型的欺骗检测和策略性行为提供了标准化测试平台。

当前挑战

该数据集面临的核心挑战体现在两个维度：在领域问题层面，如何准确评估模型在信息不完全场景下的策略性决策能力，特别是平衡高频字母猜测与上下文推理之间的矛盾；在构建技术层面，需要克服大规模语言模型在长序列推理中的计算资源消耗问题，以及确保模型在32768令牌长度限制内保持稳定的游戏状态跟踪能力。此外，数据集的验证流程需解决工具调用解析器与自主决策模块的协同问题，以避免因工具调用延迟导致的策略断层现象。

常用场景

经典使用场景

在人工智能行为分析与安全评估领域，该数据集通过经典的Hangman游戏框架，为研究大型语言模型的策略性决策能力提供了标准化测试平台。其精心设计的任务流程能够有效捕捉模型在字母频率分析、模式识别和自适应猜测等认知环节的表现特征，尤其适用于评估模型在受限信息条件下的逻辑推理能力。

衍生相关工作

基于该数据集衍生的研究推动了多个重要方向的发展，包括《大语言模型策略性欺骗检测框架》等开创性工作。相关成果被拓展至更复杂的交互场景，如开发了用于检测模型在谈判任务中隐瞒偏好的新范式，并催生了AI行为透明度评估的系列标准工具包。

数据集最近研究