five

mistral0105/exebench_io_validated_full_cleaned

收藏
Hugging Face2024-07-02 更新2024-07-06 收录
下载链接:
https://hf-mirror.com/datasets/mistral0105/exebench_io_validated_full_cleaned
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多个特征字段,如路径、函数定义、函数头、函数头类型、文件名、签名、汇编代码、合成依赖、真实依赖、合成输入输出对、真实输入输出对、合成执行包装器、真实执行包装器、参考、合成输入输出规范和真实输入输出规范。数据集被分为训练集,包含17121个样本,总大小为104418871字节。

This dataset includes multiple feature fields such as path, function definition, function header, function header types, file name, signature, assembly code, synthetic dependencies, real dependencies, synthetic input-output pairs, real input-output pairs, synthetic execution wrapper, real execution wrapper, reference, synthetic IO specification, and real IO specification. The dataset is divided into a training set containing 17,121 samples with a total size of 104,418,871 bytes.
提供机构:
mistral0105
原始信息汇总

数据集概述

数据集信息

特征

  • path: 数据类型为字符串。
  • func_def: 数据类型为字符串。
  • func_head: 数据类型为字符串。
  • func_head_types: 数据类型为字符串。
  • fname: 数据类型为字符串。
  • signature: 数据类型为字符串序列。
  • asm: 结构体,包含以下字段:
    • code: 数据类型为字符串序列。
    • target: 数据类型为字符串序列。
  • synth_deps: 数据类型为字符串。
  • real_deps: 数据类型为字符串。
  • synth_io_pairs: 结构体,包含以下字段:
    • dummy_funcs: 数据类型为字符串序列。
    • dummy_funcs_seed: 数据类型为int64序列。
    • input: 列表,包含以下字段:
      • value: 数据类型为字符串序列。
      • var: 数据类型为字符串序列。
    • output: 列表,包含以下字段:
      • value: 数据类型为字符串序列。
      • var: 数据类型为字符串序列。
  • real_io_pairs: 结构体,包含以下字段:
    • dummy_funcs: 数据类型为null序列。
    • dummy_funcs_seed: 数据类型为null序列。
    • input: 列表,包含以下字段:
      • value: 数据类型为字符串序列。
      • var: 数据类型为字符串序列。
    • output: 列表,包含以下字段:
      • value: 数据类型为字符串序列。
      • var: 数据类型为字符串序列。
  • synth_exe_wrapper: 数据类型为字符串。
  • real_exe_wrapper: 数据类型为字符串。
  • ref: 数据类型为字符串。
  • synth_iospec: 数据类型为字符串。
  • real_iospec: 数据类型为字符串。

数据集分割

  • train: 包含17121个样本,总字节数为104418871。

数据集大小

  • 下载大小: 26506212字节。
  • 数据集大小: 104418871字节。

配置

  • default: 包含以下数据文件:
    • train: 路径为data/train-*
搜集汇总
数据集介绍
main_image_url
构建方式
在程序分析与软件工程领域,数据集的质量直接影响模型对代码语义的理解能力。Exebench_io_validated_full_cleaned数据集通过系统化的方法构建,其核心在于结合合成与真实两种数据源。合成数据部分借助自动化工具生成函数定义及对应的输入输出对,确保覆盖多样的代码模式;真实数据则从实际代码库中提取,经过严格的验证流程以保证其正确性。整个构建过程强调数据的清洗与标准化,移除了冗余或错误的样本,最终形成结构清晰、标注一致的高质量语料库。
使用方法
对于致力于代码智能或程序合成的研究者而言,该数据集提供了灵活而强大的应用途径。使用者可依据研究目标,选择合成或真实数据分支进行模型训练与评估。在预处理阶段,可提取函数定义、汇编代码及输入输出对作为模型的输入特征,进而构建代码生成、语义理解或缺陷检测等任务。数据集中附带的依赖信息与执行封装器,使得研究者能够模拟真实运行环境,验证模型在动态执行场景下的性能表现,从而推动代码相关人工智能技术的实质性进展。
背景与挑战
背景概述
在程序分析与软件工程领域,自动生成代码与理解程序行为一直是核心研究议题。数据集mistral0105/exebench_io_validated_full_cleaned由Mistral AI团队于近期构建,旨在通过大规模、高质量的输入输出对验证,推动代码执行基准测试与函数合成技术的发展。该数据集聚焦于函数级代码的语义理解,整合了合成与真实环境下的执行轨迹,为机器学习模型提供了丰富的训练与评估资源,显著提升了代码智能生成与推理任务的准确性与泛化能力。
当前挑战
该数据集致力于解决代码执行预测与函数合成中的语义对齐挑战,即如何确保模型生成的代码在多样输入下产生预期输出。构建过程中,挑战主要体现在数据收集与验证环节:一方面,真实世界代码的输入输出对获取依赖于复杂的环境配置与执行沙箱,存在安全性与可复现性风险;另一方面,合成数据需模拟多样化的函数行为与依赖关系,避免过拟合与偏差,这对数据生成算法的鲁棒性与真实性提出了较高要求。
常用场景
经典使用场景
在程序分析与代码生成领域,Exebench数据集以其丰富的函数定义与输入输出对,为机器学习模型提供了精准的训练基础。该数据集常用于训练和评估代码生成模型,特别是针对函数级别代码补全与合成任务。通过结合汇编代码与高级语言函数,研究者能够构建出能够理解代码语义并生成可执行代码的智能系统,这在自动化编程辅助工具的开发中具有核心价值。
解决学术问题
Exebench数据集有效解决了代码生成研究中缺乏大规模、高质量可执行代码样本的难题。它通过提供真实的输入输出对与合成数据,支持模型学习函数行为与执行逻辑,从而提升代码生成的准确性与可靠性。该数据集推动了程序合成、代码语义理解及自动化测试等领域的研究,为探索代码与执行结果之间的映射关系提供了关键数据支撑。
实际应用
在实际软件开发中,Exebench数据集可应用于智能代码编辑器、自动化测试工具及程序错误检测系统。通过利用数据集中的函数签名与输入输出对,开发工具能够实时建议代码补全、生成测试用例或验证代码正确性,显著提升开发效率与代码质量。此外,该数据集还支持构建教育辅助工具,帮助学习者通过实例理解编程概念与执行过程。
数据集最近研究
最新研究方向
在程序分析与软件工程领域,Exebench数据集凭借其丰富的函数级输入输出对及汇编代码标注,为代码生成与逆向工程研究提供了关键支撑。当前前沿探索聚焦于利用该数据集训练大语言模型,以提升其在代码补全、漏洞检测及二进制程序理解方面的能力,尤其在结合合成与真实执行轨迹的对比学习中,模型能够更精准地推断程序行为。相关热点事件包括开源社区对自动化代码审计工具的需求激增,推动了基于数据驱动的程序语义理解技术的快速发展。这一进展不仅加速了智能编程助手的实用化进程,也为软件安全与维护带来了深远影响,标志着代码智能研究正从语法层面迈向语义深层解析的新阶段。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作