mistral0105/exebench_io_validated_full_cleaned

Name: mistral0105/exebench_io_validated_full_cleaned
Creator: mistral0105
Published: 2024-07-02 07:04:04
License: 暂无描述

Hugging Face2024-07-02 更新2024-07-06 收录

下载链接：

https://hf-mirror.com/datasets/mistral0105/exebench_io_validated_full_cleaned

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多个特征字段，如路径、函数定义、函数头、函数头类型、文件名、签名、汇编代码、合成依赖、真实依赖、合成输入输出对、真实输入输出对、合成执行包装器、真实执行包装器、参考、合成输入输出规范和真实输入输出规范。数据集被分为训练集，包含17121个样本，总大小为104418871字节。

This dataset includes multiple feature fields such as path, function definition, function header, function header types, file name, signature, assembly code, synthetic dependencies, real dependencies, synthetic input-output pairs, real input-output pairs, synthetic execution wrapper, real execution wrapper, reference, synthetic IO specification, and real IO specification. The dataset is divided into a training set containing 17,121 samples with a total size of 104,418,871 bytes.

提供机构：

mistral0105

原始信息汇总

数据集概述

数据集信息

特征

path: 数据类型为字符串。
func_def: 数据类型为字符串。
func_head: 数据类型为字符串。
func_head_types: 数据类型为字符串。
fname: 数据类型为字符串。
signature: 数据类型为字符串序列。
asm: 结构体，包含以下字段：
- code: 数据类型为字符串序列。
- target: 数据类型为字符串序列。
synth_deps: 数据类型为字符串。
real_deps: 数据类型为字符串。
synth_io_pairs: 结构体，包含以下字段：
- dummy_funcs: 数据类型为字符串序列。
- dummy_funcs_seed: 数据类型为int64序列。
- input: 列表，包含以下字段：
  - value: 数据类型为字符串序列。
  - var: 数据类型为字符串序列。
- output: 列表，包含以下字段：
  - value: 数据类型为字符串序列。
  - var: 数据类型为字符串序列。
real_io_pairs: 结构体，包含以下字段：
- dummy_funcs: 数据类型为null序列。
- dummy_funcs_seed: 数据类型为null序列。
- input: 列表，包含以下字段：
  - value: 数据类型为字符串序列。
  - var: 数据类型为字符串序列。
- output: 列表，包含以下字段：
  - value: 数据类型为字符串序列。
  - var: 数据类型为字符串序列。
synth_exe_wrapper: 数据类型为字符串。
real_exe_wrapper: 数据类型为字符串。
ref: 数据类型为字符串。
synth_iospec: 数据类型为字符串。
real_iospec: 数据类型为字符串。

数据集分割

train: 包含17121个样本，总字节数为104418871。

数据集大小

下载大小: 26506212字节。
数据集大小: 104418871字节。

配置

default: 包含以下数据文件：
- train: 路径为data/train-*。

搜集汇总

数据集介绍

构建方式

在程序分析与软件工程领域，数据集的质量直接影响模型对代码语义的理解能力。Exebench_io_validated_full_cleaned数据集通过系统化的方法构建，其核心在于结合合成与真实两种数据源。合成数据部分借助自动化工具生成函数定义及对应的输入输出对，确保覆盖多样的代码模式；真实数据则从实际代码库中提取，经过严格的验证流程以保证其正确性。整个构建过程强调数据的清洗与标准化，移除了冗余或错误的样本，最终形成结构清晰、标注一致的高质量语料库。

使用方法

对于致力于代码智能或程序合成的研究者而言，该数据集提供了灵活而强大的应用途径。使用者可依据研究目标，选择合成或真实数据分支进行模型训练与评估。在预处理阶段，可提取函数定义、汇编代码及输入输出对作为模型的输入特征，进而构建代码生成、语义理解或缺陷检测等任务。数据集中附带的依赖信息与执行封装器，使得研究者能够模拟真实运行环境，验证模型在动态执行场景下的性能表现，从而推动代码相关人工智能技术的实质性进展。

背景与挑战

背景概述

在程序分析与软件工程领域，自动生成代码与理解程序行为一直是核心研究议题。数据集mistral0105/exebench_io_validated_full_cleaned由Mistral AI团队于近期构建，旨在通过大规模、高质量的输入输出对验证，推动代码执行基准测试与函数合成技术的发展。该数据集聚焦于函数级代码的语义理解，整合了合成与真实环境下的执行轨迹，为机器学习模型提供了丰富的训练与评估资源，显著提升了代码智能生成与推理任务的准确性与泛化能力。

当前挑战

该数据集致力于解决代码执行预测与函数合成中的语义对齐挑战，即如何确保模型生成的代码在多样输入下产生预期输出。构建过程中，挑战主要体现在数据收集与验证环节：一方面，真实世界代码的输入输出对获取依赖于复杂的环境配置与执行沙箱，存在安全性与可复现性风险；另一方面，合成数据需模拟多样化的函数行为与依赖关系，避免过拟合与偏差，这对数据生成算法的鲁棒性与真实性提出了较高要求。

常用场景

经典使用场景

在程序分析与代码生成领域，Exebench数据集以其丰富的函数定义与输入输出对，为机器学习模型提供了精准的训练基础。该数据集常用于训练和评估代码生成模型，特别是针对函数级别代码补全与合成任务。通过结合汇编代码与高级语言函数，研究者能够构建出能够理解代码语义并生成可执行代码的智能系统，这在自动化编程辅助工具的开发中具有核心价值。

解决学术问题

Exebench数据集有效解决了代码生成研究中缺乏大规模、高质量可执行代码样本的难题。它通过提供真实的输入输出对与合成数据，支持模型学习函数行为与执行逻辑，从而提升代码生成的准确性与可靠性。该数据集推动了程序合成、代码语义理解及自动化测试等领域的研究，为探索代码与执行结果之间的映射关系提供了关键数据支撑。

实际应用

在实际软件开发中，Exebench数据集可应用于智能代码编辑器、自动化测试工具及程序错误检测系统。通过利用数据集中的函数签名与输入输出对，开发工具能够实时建议代码补全、生成测试用例或验证代码正确性，显著提升开发效率与代码质量。此外，该数据集还支持构建教育辅助工具，帮助学习者通过实例理解编程概念与执行过程。

数据集最近研究