BLens 数据集

github2025-02-14 更新2025-03-01 收录

下载链接：

https://github.com/lmu-plai/blens

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了用于交叉二进制和交叉项目设置的训练、验证和测试划分，以及预计算的DEXTER、CLAP和PalmTree嵌入。

This dataset contains training, validation, and test splits for cross-binary and cross-project settings, as well as pre-computed DEXTER, CLAP, and PalmTree embeddings.

创建时间：

2025-02-03

原始信息汇总

BLens 数据集概述

数据集基本信息

名称：BLens: Contrastive Captioning of Binary Functions using Ensemble Embedding
作者：Tristan Benoit, Yunru Wang, Moritz Dannehl, Johannes Kinder
论文发表：34th USENIX Security Symposium (USENIX Security 2025)

数据集内容

数据目录：
- data/：训练、验证和测试数据集，适用于跨二进制和跨项目设置
- data/embedding/：预计算的DEXTER, CLAP, 和 PalmTree 嵌入
- data/logs/：预计算的BLens, XFL, SymLM, AsmDepictor, HexT5 日志
- data/embedding/varclrCache：预计算的 VarCLR 嵌入
- data/tokenizer/：跨二进制和跨项目设置的分词器
代码目录：
- code/evaluation/：用于评估BLens和其他方法的源代码
- code/configs/：BLens超参数的配置文件
- code/：用于训练新BLens模型和评估它们的源代码
文档：
- INSTALL.md：安装环境说明
- requirements.txt：环境所需包
- README.md：使用说明
- appendices/：实现和严格实验设置的细节

系统要求

存储：至少20GB可用空间。每个BLens实验可产生多达50GB的模型权重。
推荐硬件：30GB内存和具有80GB VRAM的GPU。

使用说明

评估日志：使用evaluator.py脚本来重现实验结果。
训练新模型：使用RunExp.py脚本来启动新模型的训练。
推断函数名：使用带有不同选项的RunExp.py脚本来推断函数名。
评估新模型：使用new_experiments_evaluator.py脚本来评估新模型。

许可

版权：2024-2025 Tristan Benoit, Yunru Wang, Moritz Dannehl, Johannes Kinder
许可证：GNU General Public License v3.0

bibtex @inproceedings{blens2025, title = {{BLens}: Contrastive Captioning of Binary Functions using Ensemble Embedding}, author = {Benoit, Tristan and Wang, Yunru and Dannehl, Moritz and Kinder, Johannes}, booktitle = {34th USENIX Security Symposium (USENIX Security 2025)}, year = {2025}, publisher = {USENIX Association} }

搜集汇总

数据集介绍

构建方式

BLens数据集的构建采取了对二进制功能进行对比性描述的方法，通过集成嵌入技术，结合DEXTER、CLAP和PalmTree等预计算嵌入，形成了训练、验证和测试的数据集划分，旨在为二进制功能描述的自动生成提供高质量的数据支持。

特点

该数据集的特点在于其创新性地使用了对比性描述技术，通过集成嵌入来提高描述的准确性和多样性。数据集包含了丰富的预计算嵌入和日志文件，支持跨二进制和跨项目的设置，为研究二进制功能描述提供了全面的数据资源。

使用方法

使用BLens数据集首先需要安装相应的环境，并根据INSTALL.md文件中的步骤进行配置。数据集的使用包括模型训练、评估和推断等环节，通过提供的脚本和配置文件，用户可以方便地进行模型训练和结果评估。具体的使用方法在README.md文件中有详细的说明。

背景与挑战

背景概述

BLens数据集是一项关于二进制函数对比性注释的研究成果，由Tristan Benoit、Yunru Wang、Moritz Dannehl和Johannes Kinder共同完成，并于2025年在第34届USENIX安全研讨会上发表。该数据集旨在解决二进制代码理解与功能描述的问题，通过集成嵌入技术提高注释的准确性和一致性。研究团队利用预先计算好的DEXTER、CLAP和PalmTree嵌入，以及VarCLR嵌入，对二进制函数进行功能描述，进而推动二进制分析领域的发展。

当前挑战

BLens数据集在构建过程中面临的主要挑战包括：1)如何精确捕捉并描述二进制函数的复杂性和多样性；2)跨项目和跨二进制设置中的嵌入表示的一致性和准确性；3)训练过程中计算资源的高需求，尤其是在模型权重存储和GPU显存方面。此外，该数据集在解决领域问题，如二进制代码的功能理解与自动化注释方面，也面临如何提高注释质量和适应不同场景的挑战。

常用场景

经典使用场景

BLens 数据集在二进制函数对比性字幕生成领域具有重要的应用价值。该数据集包含训练、验证和测试数据集，旨在为跨二进制和跨项目设置提供支持，通过预计算的DEXTER、CLAP和PalmTree嵌入，以及VarCLR嵌入，使得研究人员能够利用这些资源对二进制函数进行有效的字幕生成。

衍生相关工作

基于BLens 数据集，研究人员已经衍生出了一系列相关工作，如改进的二进制函数表示学习方法和基于嵌入的软件安全分析工具。这些工作进一步扩展了BLens 数据集的应用范围，为软件安全领域的研究提供了新的视角和方法。

数据集最近研究