plstcharles-saifh/pyine-v1-traces
收藏Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/plstcharles-saifh/pyine-v1-traces
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含由PyINE框架从TACO数据集的解决方案中生成的937,187个Python代码执行跟踪。每一行代表一个执行跟踪:一个代码解决方案针对一个测试输入执行,捕获每一行执行时的完整变量状态序列。数据集按问题级别分配到PyINE分割(所有针对给定问题的跟踪共享相同的分割),使用分层随机分配。数据集结构包括训练、验证和测试分割,以及详细的列描述,涵盖身份、代码和执行结果、复杂性指标、问题级别数据和序列化数据。
This dataset contains 937,187 Python code execution traces generated by the PyINE framework from solutions in the TACO dataset. Each row is a single execution trace: one code solution executed against one test input, capturing the full sequence of variable states at every line of execution. Traces are assigned to PyINE splits at the problem level (all traces for a given problem share the same split), using stratified random assignment. The dataset structure includes train, valid, and test splits, with detailed column descriptions for identity, code and execution results, complexity metrics, problem-level data, and serialized data.
提供机构:
plstcharles-saifh
搜集汇总
数据集介绍

构建方式
PyINE-v1 Execution Traces(TACO)数据集由PyINE框架基于TACO竞赛编程数据集生成,累计包含937,187条Python代码执行轨迹。每条轨迹记录了一个代码方案针对单个测试用例的完整执行过程,涵盖每行代码执行时所有变量的状态变化。数据集以问题为单位,采用分层随机分配策略将轨迹划分为训练集(10,295个问题,748,263条轨迹)、验证集(1,351个问题,96,817条轨迹)和测试集(1,274个问题,92,107条轨迹),确保同一问题的所有轨迹归属于相同数据划分。
特点
该数据集的核心特点在于其精细的结构化设计,每条轨迹不仅包含源代码、输入输出参数、标准输出与错误信息,还提供了全面的复杂性指标(如圈复杂度、Halstead度量、可维护性指数)以及问题级别的元数据。尤为突出的是,`traced_steps_json`字段以JSON格式序列化记录了完整执行过程中每步的变量快照,`traced_steps_map_json`则建立了代码位置到步骤索引的映射,为程序理解、代码生成与执行行为分析研究提供了丰富且可追溯的数据基础。
使用方法
用户可通过HuggingFace Datasets库便捷加载该数据集,调用`datasets.load_dataset("plstcharles-saifh/pyine-v1-traces")`即可获取包含`train`、`valid`、`test`三个子集的DatasetDict对象。随后可按需选择指定子集,并通过索引访问单条轨迹,例如`trace = ds["train"][0]`,进而使用`trace["code_string"]`获取源代码,或通过`trace["valid_step_count"]`查看有效执行步数。该数据集与同源的PyINE-v1增强数据集配合使用,可服务于代码执行预测、变量状态推理等下游任务。
背景与挑战
背景概述
PyINE-v1 Execution Traces(TACO)数据集由研究团队基于PyINE框架于近期构建,旨在捕捉Python代码在测试输入下的完整执行轨迹。该数据集源于BAAI/TACO竞赛编程数据集,通过记录每行代码执行时变量状态的动态快照,为代码分析与生成任务提供细粒度的中间表示。其核心研究问题聚焦于如何利用执行轨迹数据增强语言模型对代码语义的理解能力,特别是在程序修复、测试生成和代码优化等下游任务中。凭借近百万条轨迹的规模,该数据集为可解释代码智能和神经符号系统研究奠定了重要基准,推动了从静态代码表征向动态行为建模的范式迁移。
当前挑战
数据集面临双重挑战:在领域问题层面,现有模型多依赖静态词法或语法特征,难以捕捉程序运行时变量状态与路径条件的动态关联,导致对长逻辑链或变量作用域跨越的代码推理能力薄弱;PyINE-v1通过提供逐行状态快照,为攻克此类动态语义建模难题提供了关键数据支撑。在构建过程中,挑战集中于规模化追踪的鲁棒性——需处理递归调用、异常抛出及第三方库副作用等边界情况,同时保证轨迹序列的完整性与元数据一致性。此外,基于分层抽样划分训练集时,需协调问题级与轨迹级分布,避免因稀疏测试场景引发的数据污染或类别失衡问题。
常用场景
经典使用场景
PyINE-v1 Traces数据集的核心应用在于为Python代码执行轨迹的细粒度建模提供大规模标注数据。在代码智能与程序分析交叉领域,该数据集凭借其细致入微的变量状态快照序列,支撑着多项前沿研究:从基于执行感知的代码语义理解到程序行为预测,从运行时异常诊断到代码片段的可解释性分析。研究者可利用其涵盖近百万条轨迹、横跨上万道编程题目的庞大规模,系统性地探索模型对代码动态执行过程的理解能力,而非局限于静态语法或语义分析。
实际应用
在实际应用层面,该数据集可直接服务于智能化编程辅助系统的研发。例如,基于其丰富的执行轨迹,可训练能够根据代码与输入预测中间变量状态的模型,进而赋能自动化调试工具:当程序输出与预期不符时,系统可回溯执行路径,定位异常变量首次出现的步骤。此外,该数据集还适用于代码自动修复场景,通过比对正常与异常轨迹的差异,引导模型生成精准的补丁代码。在教育测评领域,执行轨迹可作为学习者编程过程的可视化素材,帮助教师洞察学生的算法思维与错误模式,实现个性化诊断。
衍生相关工作
围绕该数据集,已衍生出一系列重要的研究工作。最直接的关联工作是由其数据生成引擎PyINE框架本身催生的执行感知模型训练范式,以及配套的代码增强数据集PyINE-v1 Augments,后者通过变换原始解答构造多样化轨迹用于鲁棒性训练。此外,该数据集已成为代码表示学习领域的新基准:研究者利用其轨迹信息设计面向执行过程的预训练目标,如预测下一步变量状态、重构被遮蔽的中间值等,由此产生了超越传统基于抽象语法树方法的代码向量表示。这些工作共同构建了一个以执行轨迹为中心的研究生态,深刻影响着代码理解的模型架构设计、训练策略及评估标准。
以上内容由遇见数据集搜集并总结生成



