stefanocarrera/autophagycode_D_he_train-mercury_Qwen3-4B_strategy_trust_t1_g1
收藏Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/stefanocarrera/autophagycode_D_he_train-mercury_Qwen3-4B_strategy_trust_t1_g1
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: task_id
dtype: string
- name: entry_point
dtype: string
- name: prompt
dtype: string
- name: completion
dtype: string
- name: top_5_progression
dtype: string
- name: test
dtype: string
splits:
- name: train
num_bytes: 4944980
num_examples: 164
download_size: 1027762
dataset_size: 4944980
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
提供机构:
stefanocarrera
搜集汇总
数据集介绍

构建方式
本数据集名为autophagycode_D_he_train-mercury_Qwen3-4B_strategy_trust_t1_g1,旨在为代码生成与推理任务提供高质量的训练样本。数据集基于自噬代码(AutophagyCode)框架构建,以“信任策略”(Trust Strategy)为核心,通过Qwen3-4B模型对初始数据进行筛选与增强,最终保留了164条经过严格验证的训练样例。每条数据包含任务标识(task_id)、函数入口(entry_point)、提示(prompt)、完成代码(completion)、top-k推演过程(top_k_progression)及测试用例(test)六个字段,确保样本的完整性与可复现性。数据集以单一训练集(train)形式发布,总大小约6.5 MB,适用于监督微调场景。
特点
该数据集最显著的特点在于其“信任驱动”的构建策略,强调模型输出的一致性与可信赖性。每个样本不仅包含标准的问题与答案,还保留了模型的推理链条(top_k_progression),使得训练过程能够关注到生成逻辑的中间步骤。此外,数据集的规模虽然小巧(仅164条),但每条均经过多轮检验,质量极高,避免了大规模数据集中常见的噪声问题。这种精炼的设计使得数据集特别适合用于评估和提升小样本场景下模型的代码推理能力,尤其是在需要高精度与低幻觉率的任务中表现突出。
使用方法
使用本数据集时,研究人员可直接加载HuggingFace上的‘train’分片,采用标准的监督学习模式进行微调。每条样本的‘prompt’字段可作为输入,‘completion’字段作为目标输出,同时可选择性利用‘top_k_progression’字段进行多步推理的辅助训练。建议在微调过程中结合代码执行环境验证生成结果,以充分利用‘test’字段中的测试用例进行自动化评估。由于数据集规模较小,适合作为高质量种子集,用于进一步生成或筛选更大规模的训练数据,或作为领域专用模型的核心微调资源。
背景与挑战
背景概述
该数据集由autophagycode团队于2024年创建,聚焦于代码生成任务中的信任与安全性评估。核心研究问题在于如何在大规模语言模型(如Qwen3-4B)生成的代码中,构建可量化的信任机制,以应对模型输出可能存在的逻辑错误或恶意注入风险。数据集包含164个训练样本,每个样本涵盖任务标识、函数入口、提示词、代码补全及测试用例等结构化信息,为细粒度评估模型在代码生成场景下的可靠性提供了基准。其影响力体现在填补了代码大模型信任评估领域的数据空白,推动生成式代码的安全性研究从定性分析转向定量验证。
当前挑战
该数据集主要面临三重挑战:首先,代码生成领域长期存在语义歧义与执行环境依赖问题,模型输出的代码可能通过语法检验但在运行时引发未定义行为,而现有测试用例难以覆盖全部边界条件;其次,数据集规模仅164个样本,稀疏性导致模型对罕见语法模式或攻击模板的泛化能力不足,可能引入评估偏差;最后,构建过程中需平衡人工标注成本与注释质量,例如对“top_k_progression”字段的标注需专家逐行审查模型推理路径,而恶意代码注入的注释标准尚未统一,易造成标注者一致性下降。
常用场景
经典使用场景
在代码智能与程序合成领域,该数据集专为训练和评估大语言模型在特定编程任务上的指令遵循与代码生成能力而设计。其典型应用场景聚焦于多轮编程推理与策略演化任务,模型需基于给定的`prompt`和`entry_point`生成正确的`completion`,并结合`top_k_progression`字段追踪解题路径的递进过程。数据集的164条训练样本虽规模精巧,但结构完备,每个样本均包含完整的问题定义、目标函数、解题策略演化记录及测试用例,为探索语言模型在受限策略空间中的信任校准与生成质量提供了标准化的微调基准。
实际应用
在实际应用中,该数据集可赋能教育编程辅助系统的开发,例如智能编程导师能够依据学生提交的代码及解题步骤,动态推荐最优思考路径并纠偏。此外,在自动化代码审查场景下,企业可将其微调后的模型用于检测代码库中的逻辑偏差与策略异常,提升代码合并与部署的安全性。另一典型落地是辅助低代码开发平台,通过理解用户意图的渐进表达(progression),自动生成符合业务逻辑的高质量代码片段,显著降低开发者的认知负荷与调试时间。
衍生相关工作
该数据集衍生出的代表性工作包括基于策略信任校准的代码生成模型(Strategy-Trust Alignment Model),其核心思想是通过对比学习让模型区分高置信度正确路径与低置信度错误路径。另一经典工作是渐进推理监督微调(Progressive Reasoning SFT),利用数据中的`top_k_progression`字段训练模型逐步优化解题策略,相关论文在程序合成基准测试中取得了显著提升。此外,还有研究者将其与因果推断结合,提出策略干预训练法(Strategy Intervention Training),旨在消除模型在编程任务中的虚假相关性依赖,这些工作共同推动了策略感知编程模型的发展。
以上内容由遇见数据集搜集并总结生成



