FuncPEval
收藏arXiv2025-04-30 更新2025-05-08 收录
下载链接:
https://rev.ng/
下载链接
链接失效反馈官方服务:
资源简介:
FuncPEval是一个针对Windows x86和x64 PE文件的新数据集,包含Chromium和Conti勒索软件的恶意和良性软件样本,以及1092820个函数的起始位置的真实数据。该数据集旨在评估和比较各种函数起始检测工具的性能,并研究填充对检测结果的影响。
提供机构:
德国威斯特法伦应用科学大学互联网安全研究所
创建时间:
2025-04-30
搜集汇总
数据集介绍

构建方式
FuncPEval数据集的构建基于Windows x86和x64 PE文件,涵盖了Chromium浏览器和Conti勒索软件样本,共包含1,092,820个函数起始点的真实标注数据。数据集的构建过程首先从Chromium和Conti的源代码编译生成PE文件,并通过Microsoft的DIA API从关联的PDB文件中提取函数起始地址作为真实标注。为了确保数据的多样性和代表性,数据集特别选择了不同优化级别和编译器生成的样本,同时排除了调试信息以减少干扰。
特点
FuncPEval数据集的主要特点在于其专注于Windows PE文件格式,填补了以往研究在PE文件分析上的空白。数据集不仅包含大量函数起始点的真实标注,还涵盖了恶意和良性软件样本,为函数检测研究提供了丰富的实验材料。此外,数据集在函数和序言(prologue)的多样性上表现出色,通过归一化处理减少了重复函数的影响,确保了评估的全面性和准确性。数据集还特别考虑了填充字节对函数检测的影响,为研究工具在真实场景中的鲁棒性提供了重要参考。
使用方法
FuncPEval数据集的使用方法主要包括对函数检测工具的评估和比较。研究者可以利用该数据集测试不同工具在PE文件上的函数起始点检测性能,包括基于启发式、静态分析和机器学习的方法。数据集提供了详细的真实标注,支持精度、召回率和F1分数等指标的量化评估。此外,数据集还支持对填充字节随机化影响的实验,帮助研究者分析工具在面对非标准填充时的表现。使用该数据集时,建议结合具体研究问题,如工具泛化能力或对抗性场景下的性能分析,以充分发挥其价值。
背景与挑战
背景概述
FuncPEval数据集由德国吉森应用技术大学互联网安全研究所的Raphael Springer等研究人员于2025年提出,专注于Windows PE文件中的函数检测问题。该数据集包含Chromium浏览器和Conti勒索软件的x86/x64 PE文件样本,提供了1,092,820个函数起点的真实标注数据,填补了此前研究主要关注Linux/ELF格式的空白。作为二进制代码分析领域的重要基础设施,FuncPEval通过系统评估8种主流函数检测工具(包括基于启发式和机器学习的方法),揭示了不同工具在PE文件分析中的性能差异,特别关注了编译器填充字节对检测效果的影响,为恶意软件分析和漏洞研究提供了新的基准。
当前挑战
FuncPEval面临的核心挑战体现在两个维度:在领域问题层面,PE文件特有的应用二进制接口(ABI)特性(如调用约定、编译器填充方案等)导致传统基于ELF开发的检测方法泛化困难,特别是机器学习模型容易因填充字节的随机化而性能骤降(F1-score下降30-70%);在构建过程层面,数据集创建需解决真实恶意样本调试符号获取困难、跨编译器版本兼容性,以及处理PE文件特有的内联数据和元数据等挑战。此外,工具评估中发现XDA等模型存在标签编码缺陷,需重新设计训练数据编码方案才能提升10%的F1-score,凸显了二进制分析领域标注规范化的必要性。
常用场景
经典使用场景
FuncPEval数据集在二进制代码分析领域具有重要应用,特别是在Windows PE文件的功能检测研究中。该数据集被广泛用于评估基于启发式和机器学习的功能检测工具的性能。研究人员利用FuncPEval数据集对多种工具进行测试,以验证其在真实恶意软件和良性软件样本中的功能检测能力。
衍生相关工作
FuncPEval数据集衍生了许多相关研究工作。基于该数据集,研究人员改进了现有的功能检测工具,如DeepDi和XDA,并提出了新的机器学习模型。此外,FuncPEval还启发了对填充字节在功能检测中作用的研究,推动了二进制分析领域的理论发展。该数据集也为后续的跨平台功能检测研究提供了重要参考。
数据集最近研究
最新研究方向
近年来,FuncPEval数据集在二进制代码分析领域引起了广泛关注,特别是在Windows PE文件格式的函数检测研究中。该数据集通过整合Chromium和Conti勒索软件样本,提供了超过100万函数的真实起始地址数据,为评估基于启发式和机器学习的函数检测工具提供了重要基准。最新研究聚焦于工具在跨编译器泛化能力、填充字节随机化对检测效果的影响,以及机器学习模型的可解释性。研究表明,IDA Pro在Chromium x64样本上取得了最高F1值(98.44%),而基于深度学习的DeepDi在保持97%准确率的同时展现出显著速度优势。值得注意的是,填充字节的随机化会导致RNN、XDA等工具的检测效能下降30-70个百分点,这揭示了当前机器学习方法可能存在的伪相关性问题。这些发现对恶意软件分析中反检测技术的设计具有重要启示,同时也推动了新型鲁棒性函数检测算法的开发。
相关研究论文
- 1Padding Matters -- Exploring Function Detection in PE Files德国威斯特法伦应用科学大学互联网安全研究所 · 2025年
以上内容由遇见数据集搜集并总结生成



