mnoukhov/manufactoria-has-train-qwen3-4b-instruct-pass32-codex

Name: mnoukhov/manufactoria-has-train-qwen3-4b-instruct-pass32-codex
Creator: mnoukhov
Published: 2026-04-10 19:54:03
License: 暂无描述

Hugging Face2026-04-10 更新2026-04-12 收录

下载链接：

https://hf-mirror.com/datasets/mnoukhov/manufactoria-has-train-qwen3-4b-instruct-pass32-codex

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: messages list: - name: content dtype: string - name: role dtype: string - name: ground_truth list: - name: check_output dtype: bool - name: description dtype: string - name: expected_accepted dtype: bool - name: expected_output dtype: string - name: input dtype: string - name: dataset dtype: string - name: difficulty list: int64 - name: id dtype: string - name: problem_family dtype: string - name: name dtype: string - name: completions list: string - name: pass_count dtype: int64 - name: pass_rate dtype: string - name: num_samples dtype: int64 - name: generator_model dtype: string - name: generator_chat_template dtype: string - name: generator_temperature dtype: float64 - name: generator_top_p dtype: float64 - name: generator_max_tokens dtype: int64 - name: generator_manufactoria_scoring_mode dtype: string - name: generator_pass_score_threshold dtype: float64 splits: - name: train num_bytes: 229316199 num_examples: 742 download_size: 95028667 dataset_size: 229316199 configs: - config_name: default data_files: - split: train path: data/train-* ---

提供机构：

mnoukhov

搜集汇总

数据集介绍

构建方式

该数据集基于Qwen3-4B-Instruct模型，采用自生成与筛选机制构建而成。具体而言，研究团队通过设定特定的采样参数（如温度为0.8、top-p为0.95、最大生成长度为2048个token），引导模型生成针对Manufactoria游戏问题的解答路径。随后，借助Codex评分模式对每个生成结果进行自动化验证，依据预设的通过阈值（pass_score_threshold为0.5）筛选出符合要求的解答，并记录其通过次数与通过率，最终汇集形成包含742条样本的训练集。每条样本均包含完整的对话消息、真实标签（包括预期输入输出与正确性标记）以及丰富的元信息，如问题家族、难度等级和生成配置等，确保了数据的可追溯性与结构化组织。

特点

数据集最显著的特点在于其多维度的质量评估体系与细粒度的标注结构。除基本的对话内容与真实标签外，每个样本还记录了模型生成的多个候选解答（completions）及其对应的通过计数与通过率，为评估模型在不同生成条件下的表现提供了定量依据。此外，数据集囊括了问题难度分布、所属问题家族等分层信息，使得研究者能够针对特定难度层级或问题类型进行细致的性能分析。生成参数的详细记录（如温度、top-p、评分模式）进一步增强了数据的可复现性，为后续的模型微调与对比实验奠定了坚实基础。

使用方法

该数据集适用于监督微调与评估场景，可直接加载至支持messages格式的对话模型训练框架中。使用时，研究者可依据'ground_truth'字段中的'expected_accepted'与'expected_output'信息计算模型输出的准确率，并结合'pass_rate'与'difficulty'字段进行分层分析。通过选择特定'problem_family'或难度区间，可构建针对性测试集以探究模型在特定问题类型上的鲁棒性。此外，数据集提供的多个'completions'版本支持对比不同生成策略下的模型行为，为解码参数优化提供实证参考。

背景与挑战

背景概述

在程序合成与代码生成领域，如何高效评估和提升大语言模型在复杂逻辑任务上的表现始终是一个核心挑战。Manufactoria 作为一类经典的图灵完备编程谜题，要求模型设计出能够处理无限循环与状态转换的控制流，其难度远超常规的代码补全或函数生成。该数据集由研究团队基于 Qwen3-4B-Instruct 模型生成，通过 pass@32 采样策略并结合 Codex 评分模式构建，创建时间集中于大语言模型推理能力评测的快速发展期。核心研究问题聚焦于探究指令微调模型在有限样本下能否泛化至需要精确状态管理的制造型谜题，以及 pass@k 指标在此类任务中的有效性。该数据集对代码生成领域的影响力在于它提供了一种结构化、可复现的基准，推动了对于模型规划与调试能力的量化分析。

当前挑战

该数据集所解决的领域问题在于传统代码生成基准多聚焦于 API 调用或简单算法，而 Manufactoria 谜题要求模型理解并实现涉及分支、循环及输入输出校验的完整程序，这对应着更高的认知负荷与状态空间推理挑战。构建过程中遇到的挑战包括如何从 Qwen3-4B-Instruct 的采样输出中筛选出语义正确且通过多轮测试的完成结果，以及如何设计 pass@32 的阈值以避免因随机性导致的评估偏差。此外，生成器的温度与 top-p 参数需要精细调校，以平衡探索多样性与生成有效性，而 scoring mode 的选择（如 Codex 评分标准）则直接影响数据集的可信度与后续微调效果。

常用场景

经典使用场景

在程序合成与自动推理领域，Manufactoria 作为一个经典的图灵完备编程游戏，常被用于评估智能体在有限状态空间内设计复杂控制逻辑的能力。该数据集聚焦于 Qwen3-4B-Instruct 模型在 32 次采样下的通过率表现，收集了包含消息序列、真实标签、难度等级及多轮补全结果在内的结构化信息。研究者通常利用此数据集探究小型语言模型在约束条件下解决制造类谜题的性能边界，尤其是分析通过率与问题复杂度之间的关联。通过对比不同采样策略与模型规模的表现，该数据集为理解指令微调模型在交互式编程任务中的泛化特性提供了基准测试框架。

衍生相关工作

围绕 Manufactoria 数据集已衍生出多项富有启发性的研究工作。一类工作聚焦于提升通过率的后处理策略，如引入重排序机制或基于验证反馈的迭代修正方法。另一类工作则深入分析模型在特定 problem_family 上的失败模式，进而提出针对性的数据增强或课程学习方案。此外，该数据集还催生了关于多轮交互中模型一致性保持的探索，研究者通过对比不同 generator_temperature 与 scoring_mode 下的输出差异，揭示了采样策略与逻辑严谨性之间的非线性关系。这些衍生的研究不仅深化了对语言模型编程能力的理解，也为构建更可靠的代码生成系统提供了方法论支撑。

数据集最近研究