five

BLens 数据集

收藏
github2025-02-14 更新2025-03-01 收录
下载链接:
https://github.com/lmu-plai/blens
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含了用于交叉二进制和交叉项目设置的训练、验证和测试划分,以及预计算的DEXTER、CLAP和PalmTree嵌入。

This dataset contains training, validation, and test splits for cross-binary and cross-project settings, as well as pre-computed DEXTER, CLAP, and PalmTree embeddings.
创建时间:
2025-02-03
原始信息汇总

BLens 数据集概述

数据集基本信息

  • 名称:BLens: Contrastive Captioning of Binary Functions using Ensemble Embedding
  • 作者:Tristan Benoit, Yunru Wang, Moritz Dannehl, Johannes Kinder
  • 论文发表:34th USENIX Security Symposium (USENIX Security 2025)

数据集内容

  • 数据目录
    • data/:训练、验证和测试数据集,适用于跨二进制和跨项目设置
    • data/embedding/:预计算的DEXTER, CLAP, 和 PalmTree 嵌入
    • data/logs/:预计算的BLens, XFL, SymLM, AsmDepictor, HexT5 日志
    • data/embedding/varclrCache:预计算的 VarCLR 嵌入
    • data/tokenizer/:跨二进制和跨项目设置的分词器
  • 代码目录
    • code/evaluation/:用于评估BLens和其他方法的源代码
    • code/configs/:BLens超参数的配置文件
    • code/:用于训练新BLens模型和评估它们的源代码
  • 文档
    • INSTALL.md:安装环境说明
    • requirements.txt:环境所需包
    • README.md:使用说明
    • appendices/:实现和严格实验设置的细节

系统要求

  • 存储:至少20GB可用空间。每个BLens实验可产生多达50GB的模型权重。
  • 推荐硬件:30GB内存和具有80GB VRAM的GPU。

使用说明

  • 评估日志:使用evaluator.py脚本来重现实验结果。
  • 训练新模型:使用RunExp.py脚本来启动新模型的训练。
  • 推断函数名:使用带有不同选项的RunExp.py脚本来推断函数名。
  • 评估新模型:使用new_experiments_evaluator.py脚本来评估新模型。

许可

  • 版权:2024-2025 Tristan Benoit, Yunru Wang, Moritz Dannehl, Johannes Kinder
  • 许可证:GNU General Public License v3.0

bibtex @inproceedings{blens2025, title = {{BLens}: Contrastive Captioning of Binary Functions using Ensemble Embedding}, author = {Benoit, Tristan and Wang, Yunru and Dannehl, Moritz and Kinder, Johannes}, booktitle = {34th USENIX Security Symposium (USENIX Security 2025)}, year = {2025}, publisher = {USENIX Association} }

搜集汇总
数据集介绍
main_image_url
构建方式
BLens数据集的构建采取了对二进制功能进行对比性描述的方法,通过集成嵌入技术,结合DEXTER、CLAP和PalmTree等预计算嵌入,形成了训练、验证和测试的数据集划分,旨在为二进制功能描述的自动生成提供高质量的数据支持。
特点
该数据集的特点在于其创新性地使用了对比性描述技术,通过集成嵌入来提高描述的准确性和多样性。数据集包含了丰富的预计算嵌入和日志文件,支持跨二进制和跨项目的设置,为研究二进制功能描述提供了全面的数据资源。
使用方法
使用BLens数据集首先需要安装相应的环境,并根据INSTALL.md文件中的步骤进行配置。数据集的使用包括模型训练、评估和推断等环节,通过提供的脚本和配置文件,用户可以方便地进行模型训练和结果评估。具体的使用方法在README.md文件中有详细的说明。
背景与挑战
背景概述
BLens数据集是一项关于二进制函数对比性注释的研究成果,由Tristan Benoit、Yunru Wang、Moritz Dannehl和Johannes Kinder共同完成,并于2025年在第34届USENIX安全研讨会上发表。该数据集旨在解决二进制代码理解与功能描述的问题,通过集成嵌入技术提高注释的准确性和一致性。研究团队利用预先计算好的DEXTER、CLAP和PalmTree嵌入,以及VarCLR嵌入,对二进制函数进行功能描述,进而推动二进制分析领域的发展。
当前挑战
BLens数据集在构建过程中面临的主要挑战包括:1)如何精确捕捉并描述二进制函数的复杂性和多样性;2)跨项目和跨二进制设置中的嵌入表示的一致性和准确性;3)训练过程中计算资源的高需求,尤其是在模型权重存储和GPU显存方面。此外,该数据集在解决领域问题,如二进制代码的功能理解与自动化注释方面,也面临如何提高注释质量和适应不同场景的挑战。
常用场景
经典使用场景
BLens 数据集在二进制函数对比性字幕生成领域具有重要的应用价值。该数据集包含训练、验证和测试数据集,旨在为跨二进制和跨项目设置提供支持,通过预计算的DEXTER、CLAP和PalmTree嵌入,以及VarCLR嵌入,使得研究人员能够利用这些资源对二进制函数进行有效的字幕生成。
衍生相关工作
基于BLens 数据集,研究人员已经衍生出了一系列相关工作,如改进的二进制函数表示学习方法和基于嵌入的软件安全分析工具。这些工作进一步扩展了BLens 数据集的应用范围,为软件安全领域的研究提供了新的视角和方法。
数据集最近研究
最新研究方向
在计算机安全领域,二进制功能对比性注释的研究逐渐成为热点。BLens 数据集作为此类研究的最新成果,提出了一种基于集合嵌入的对比性注释方法。该方法在34th USENIX Security Symposium上发表,其创新点在于通过预计算的DEXTER、CLAP和PalmTree嵌入,以及VarCLR嵌入,实现了对二进制功能的高效注释。此研究不仅拓宽了二进制功能分析的技术路径,也为恶意代码检测与安全漏洞分析提供了新的视角,具有重要的理论与实践意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作