binary-30k-tokenized
收藏Hugging Face2025-11-03 更新2025-11-04 收录
下载链接:
https://huggingface.co/datasets/mjbommar/binary-30k-tokenized
下载链接
链接失效反馈官方服务:
资源简介:
Binary-30K是一个全面的、多平台的二进制可执行文件数据集,旨在为二进制分析、恶意软件检测和程序理解方面的机器学习研究提供支持。该数据集包含约38,467条记录,代表约30,000个独特的二进制可执行文件,总计约33.41 GB。这些二进制文件是从包括Linux发行版、Windows操作系统、SOREL-20M恶意软件数据集和Malware Bazaar收集在内的各种来源收集的。数据集包括良性二进制文件和恶意二进制文件,恶意软件检测研究的类别平衡性很强。数据集中的每个二进制文件都经过了预处理的BPE分词、全面的元数据提取、熵分析、平台和操作系统检测以及二进制分析。该数据集跨越Linux、Windows、macOS和Android平台进行分层,它使跨平台恶意软件检测、架构识别、函数边界检测、编译器识别、二进制相似性分析、移动恶意软件分析和多平台二进制理解的研究成为可能。
Binary-30K is a comprehensive, multi-platform binary executable dataset developed to support machine learning research in binary analysis, malware detection, and program comprehension. This dataset contains approximately 38,467 records, representing roughly 30,000 unique binary executable files with a total size of about 33.41 GB. These binaries are collected from diverse sources including Linux distributions, Windows operating systems, the SOREL-20M malware dataset, and Malware Bazaar. The dataset comprises both benign and malicious binary files, featuring a strongly balanced category distribution for malware detection research. Each binary file in the dataset has been subjected to preprocessing steps including BPE tokenization, comprehensive metadata extraction, entropy analysis, platform and operating system detection, as well as general binary analysis. This dataset is stratified across Linux, Windows, macOS, and Android platforms, enabling research in cross-platform malware detection, architecture identification, function boundary detection, compiler recognition, binary similarity analysis, mobile malware analysis, and multi-platform binary comprehension.
创建时间:
2025-10-29
原始信息汇总
Binary-30K 数据集概述
数据集基本信息
- 数据集名称: Binary-30K: A Large-Scale Multi-Platform Binary Dataset
- 许可证: CC-BY-4.0
- 任务类别: 其他
- 数据规模: 10K<n<100K
- 总样本数: 38,467条记录(约30,000个唯一二进制可执行文件)
- 总数据量: 约33.41 GB
数据集特点
- 多平台覆盖: Linux、Windows、macOS、Android及其他格式
- 恶意软件代表性: 包含8,089个恶意软件样本(占数据集21.0%)
- 架构多样性: x86、x86-64、ARM、ARM64、MIPS等
- 预计算特征: 包含BPE分词和全面元数据提取
数据组成
平台分布
- Linux二进制文件: 47.2%
- Windows二进制文件: 44.5%
- macOS二进制文件: 1.5%
- Android二进制文件: 0.6%
- 其他/多样格式: 6.2%
数据来源
- 良性二进制文件: Linux发行版、Windows操作系统
- 恶意软件样本: SOREL-20M(367个样本)和Malware Bazaar(7,722个样本)
数据字段结构
文件标识(6个字段)
- sha256、md5、file_size、file_path、file_name、file_id
平台信息(4个字段)
- platform、os_family、distribution、os_version
二进制特征(6个字段)
- file_format、architecture、binary_type、is_stripped、is_packed、is_signed
结构分析(4个字段+节区)
- sections、num_sections、code_size、data_size
依赖关系(4个字段+导入/导出)
- imports、num_imports、exports、num_exports
复杂度指标(1个字段)
- entropy
预计算分词(4个字段)
- tokens、token_count、compression_ratio、unique_tokens
支持的研究任务
- 二进制恶意软件检测
- 架构识别
- 平台/操作系统检测
- 函数边界检测
- 编译器识别
- 二进制相似性搜索
数据预处理
- 使用LIEF库进行ELF/PE解析
- 通过
mjbommar/glaurung-binary-tokenizer-001进行BPE分词 - 熵分析和复杂度测量
- 平台和操作系统检测
重复数据说明
数据集包含约8,467个重复记录,主要由于:
- BusyBox二进制文件(约1,827条记录)
- 硬链接系统工具
技术规格
- 下载大小: 21,714,374,710字节
- 数据集大小: 98,797,069,376字节
- 训练集样本数: 37,242个
- 数据格式: Parquet文件
搜集汇总
数据集介绍

构建方式
在网络安全研究领域,Binary-30K数据集的构建采用了系统化采集与多源融合策略。该数据集从Linux发行版、Windows操作系统以及SOREL-20M和Malware Bazaar恶意软件库中提取约3.8万条可执行文件记录,通过SHA-256哈希去重确保样本唯一性。每个二进制文件均通过LIEF库进行结构化解析,自动提取文件格式、架构特征及节区信息,并采用预训练的BPE分词器对二进制序列进行标记化处理。数据集成过程中特别注重平台均衡性,涵盖Linux、Windows、macOS和Android四大平台,其中恶意软件样本占比21%,为跨平台检测研究提供坚实基础。
特点
该数据集的核心特征体现在多维度的结构化元数据体系。每个样本包含29个特征字段,涵盖文件标识、平台信息、二进制特性等七大类属性。技术层面提供预计算的标记序列与复杂度指标,包括熵值分析和压缩比率。其独特价值在于覆盖x86、ARM等多样化指令集架构,并包含MIPS、RISC-V等嵌入式架构样本。数据分布呈现现实世界的复杂性,存在因BusyBox多调用二进制导致的合理重复样本,这种特性为研究二进制去重算法提供了天然实验场。跨平台恶意样本的均衡分布使该数据集成为恶意软件检测研究的理想基准。
使用方法
研究人员可通过HuggingFace数据集库直接加载该数据集,利用其丰富的元数据字段构建多种分析任务。针对恶意软件检测,可结合标记序列与结构特征训练Transformer分类器;在架构识别任务中,能通过多分类模型验证跨平台泛化能力。数据集支持分层抽样策略,建议按平台字段进行70-15-15划分以保持数据分布一致性。对于函数边界检测等序列标注任务,可直接利用预分割的标记序列进行端到端训练。该设计使得研究者能快速开展二进制代码相似性分析、编译器溯源等前沿课题,而无需额外预处理步骤。
背景与挑战
背景概述
在网络安全研究领域,二进制分析作为恶意软件检测和程序理解的核心技术,长期面临数据稀缺的挑战。Binary-30K数据集由Michael Bommarito等人于2023年构建,旨在通过整合多平台可执行文件填补研究空白。该数据集汇集了来自Linux发行版、Windows操作系统及恶意软件库的3.8万条样本,涵盖ELF/PE等多种二进制格式,并预置了BPE分词与29类元数据特征。其跨平台特性与21%的恶意软件比例,为架构识别、函数边界检测等任务提供了标准化基准,显著推动了二进制机器学习研究的发展。
当前挑战
该数据集致力于解决跨平台恶意软件检测的领域挑战,包括不同指令集架构的语义对齐、混淆代码的特征提取,以及移动端与嵌入式设备的异构分析。在构建过程中,研究者需应对多源数据标准化难题:如何平衡BusyBox硬链接导致的样本重复,如何通过平台分层采样确保Linux/Windows/macOS的覆盖率,以及如何在隔离环境中安全处理恶意样本。此外,异质二进制文件的元数据提取、BPE分词器的适应性优化、以及兼顾数据规模与质量控制的平衡策略,均是构建过程中的关键挑战。
常用场景
经典使用场景
在网络安全研究领域,Binary-30K数据集为恶意软件检测提供了关键支撑。该数据集通过预计算的BPE标记化序列和丰富的元数据特征,使研究者能够构建跨平台恶意软件分类模型。其涵盖Linux、Windows、macOS和Android四大平台的二进制样本,特别包含21%的恶意软件样本,为监督学习提供了均衡的类别分布。基于Transformer的序列分类模型可充分利用标记化后的字节序列,结合文件结构特征实现端到端的恶意代码识别。
解决学术问题
该数据集有效解决了二进制分析领域长期存在的多平台泛化难题。传统方法受限于单一操作系统架构,而Binary-30K通过覆盖x86、ARM等多架构样本,支持跨平台恶意软件检测研究。其预计算的熵值、区段结构和导入导出表等29个元数据字段,为编译器识别、函数边界检测等任务提供了结构化特征。特别在移动安全方向,包含的Android APK样本填补了移动端恶意代码研究的空白。
衍生相关工作
基于该数据集衍生的经典工作包括跨架构二进制相似性分析系统,通过对比学习模型实现代码复用检测。在程序理解方向,研究者利用其标记化序列开发了面向剥离二进制文件的函数边界预测模型。安全研究社区还构建了多任务学习框架,同步实现平台识别、架构分类和恶意性判定。这些成果显著推进了二进制程序分析的自动化水平。
以上内容由遇见数据集搜集并总结生成



