WasmWeaver

Hugging Face2025-05-18 更新2025-05-19 收录

下载链接：

https://huggingface.co/datasets/Morxos/WasmWeaver

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是用于测试大型语言模型在WebAssembly上运行时推理的基准数据集。它包含三个子数据集：dataset_stack用于预测运行时栈；dataset_flags用于识别可到达的标志；dataset_result用于预测程序的最终返回值。每个子数据集都有相应的样本量，分别是10000和1000个样本。

创建时间：

2025-05-16

搜集汇总

数据集介绍

构建方式

在WebAssembly程序分析领域，WasmWeaver数据集通过自动化工具生成，涵盖三个核心配置：stack_effect、flag_reach和result_estimation。每个配置均基于统一的代码结构，利用程序执行轨迹中的标记点（如;;INSPECT和;;FLAG_N）提取运行时状态。具体而言，stack_effect配置包含一万个样本，记录指令执行时的堆栈值变化；flag_reach配置同样覆盖一万个样本，标注可达标志位状态；result_estimation配置则聚焦一千个样本，捕获程序终止时的返回值序列。

特点

该数据集以结构化特征见长，每个样本均包含代码字符串、类型化堆栈值列表、五位布尔标志状态及返回值序列。其多配置设计支持跨任务评估，例如stack_effect侧重动态堆栈追踪，flag_reach关注控制流可达性，result_estimation则针对程序输出预测。数据规模虽未超千级，但通过精确的运行时状态标注，为WebAssembly语义推理提供了高密度信息载体。

使用方法

研究者可通过加载对应配置的JSONL文件直接使用数据集，例如stack_effect配置对应dataset_stack/data.jsonl。每个样本的特定字段（如stack_values或flag_states）已根据任务目标完成填充，无需额外预处理。该数据集适用于问答类模型测试，可通过解析代码与标注状态的映射关系，验证模型对WebAssembly运行时行为的推理能力，所有样本均预设为评估分割集以便直接应用于实验。

背景与挑战

背景概述

在程序语言语义分析领域，WebAssembly（Wasm）作为一种新兴的二进制指令格式，其运行时行为验证始终是研究重点。WasmWeaver数据集由匿名研究团队于当代构建，专注于解决Wasm代码的运行时推理问题，通过自动化生成包含栈状态、标志位状态和返回值结构的样本数据，为大型语言模型在低级代码理解任务中的性能评估提供基准支持。该数据集通过三个具体配置任务系统性地覆盖了程序执行过程中的关键语义要素，对提升程序验证和编译器优化技术的可靠性具有显著推动作用。

当前挑战

该数据集致力于应对WebAssembly代码语义精确建模的挑战，其核心问题在于如何让机器学习模型理解非结构化二进制指令的运行时行为，包括动态栈操作、条件标志传播和返回值推导等复杂程序语义。在构建过程中，面临自动化生成真实语义标注的困难，需要确保数千个样本中栈状态变换与标志位可达性的逻辑一致性，同时维持程序片段与运行时元数据之间的严格对应关系，这些都对数据生成流程的可靠性和完整性提出了极高要求。

常用场景

经典使用场景

在WebAssembly程序分析领域，WasmWeaver数据集为大型语言模型提供了精准的运行时推理测试平台。该数据集通过三个核心配置模块——堆栈效应分析、标志位可达性检测和返回值预测，构建了完整的程序行为验证体系。研究人员能够利用这些结构化数据训练模型理解WASM字节码的执行逻辑，特别是通过;;INSPECT标记处的堆栈状态追踪和;;FLAG_N序列的标志位传播路径分析，有效模拟了虚拟机的运行时环境。

衍生相关工作

基于该数据集衍生的经典工作主要集中在神经程序分析方向。部分研究将堆栈预测任务转化为序列到序列学习问题，探索Transformer架构对程序状态的建模能力；另有工作结合符号执行与神经网络，构建混合式程序分析框架。在解释器优化方面，衍生出基于运行时预测的即时编译策略，以及面向WebAssembly的智能模糊测试技术，这些成果持续推动着程序语言与机器学习领域的交叉创新。

数据集最近研究