five

LAMDA

收藏
Hugging Face2025-05-16 更新2025-05-17 收录
下载链接:
https://huggingface.co/datasets/IQSeC-Lab/LAMDA
下载链接
链接失效反馈
官方服务:
资源简介:
LAMDA是一个纵向的Android恶意软件数据集,用于概念漂移分析。它包含了从2013年到2025年的超过100万份APK样本数据,具有时间多样性,适用于概念漂移、时间泛化、家族分类和稳健的恶意软件检测研究。每个样本包含静态特征、元数据和二进制标签。

LAMDA is a longitudinal Android malware dataset intended for concept drift analysis. It contains over 1 million APK samples spanning from 2013 to 2025, featuring temporal diversity, and supports research on concept drift, temporal generalization, family classification, and robust malware detection. Each sample includes static features, metadata, and binary labels.
创建时间:
2025-05-05
原始信息汇总

LAMDA数据集概述

基本信息

  • 数据集名称: LAMDA: A Longitudinal Android Malware Dataset for Drift Analysis
  • 许可证: MIT
  • 数据规模: 1M<n<10M
  • 语言: 英语
  • 标签: android, malware, cybersecurity, concept-drift, longitudinal, security, classification, benchmark

数据集详情

  • 创建者: IQSeC Lab, The University of Texas at El Paso
  • 共享者: IQSeC Lab
  • 资金来源: [未提供]
  • 用途: 用于分析和评估机器学习模型中的概念漂移

数据集来源

  • 存储库: https://huggingface.co/datasets/IQSeC-Lab/LAMDA
  • 项目网站: https://iqsec-lab.github.io/LAMDA/
  • 论文: NeurIPS 2025 Submission (待发布)

数据集结构

配置

  • Baseline
    • 训练集: Baseline//_train.parquet
    • 测试集: Baseline//_test.parquet
  • var_thresh_0.01
    • 训练集: var_thresh_0.01//_train.parquet
    • 测试集: var_thresh_0.01//_test.parquet

数据格式

  • 文件格式: Parquet
  • 列说明:
    • label: 0 = 良性, 1 = 恶意软件
    • family: 恶意软件家族名称 (通过AVClass2)
    • vt_count: VirusTotal供应商检测计数
    • year_month: 时间戳 (YYYY-MM格式)
    • feat_0 ... feat_4560: 静态词袋特征 (int8)
    • hash: 样本SHA256哈希 (用作索引)

数据集创建

数据来源

  • 原始APK: 来自AndroZoo
  • 处理: 通过静态分析提取.data文件,合并VirusTotal计数和AVClass2家族分配

数据处理

  • 特征向量从.data文件中提取
  • 标记为恶意软件的条件: vt_detection ≥ 4
  • 通过AVClass2分配家族
  • 使用词袋模型向量化特征向量
  • 特征选择: VarianceThreshold=0.001 → 4,561个特征
  • 训练/测试分割: 80/20 (按年份分层)

使用场景

直接用途

  • 恶意软件分类
  • 家族预测
  • 概念漂移分析
  • 时间泛化基准
  • SHAP特征归因漂移分析
  • 持续学习评估

非适用场景

  • 动态行为分析
  • 设备上恶意软件检测

限制与建议

  • 限制:
    • 偏向高度检测的恶意软件 (基于AV的标记)
    • 无动态/运行时行为
    • 概念漂移是数据集驱动的,非模拟
  • 建议:
    • 训练前平衡类别
    • 使用持续或时间感知验证方案
    • SHAP解释应基于年份锚定

引用

bibtex @article{LAMDA2025, author = {Md Ahsanul Haque and Ismail Hossain and Md Mahmuduzzaman Kamol and Md Jahangir Alam and Suresh Kumar Amalapuram and Sajedul Talukder and Mohammad Saidur Rahman}, title = {LAMDA: A Longitudinal Android Malware Dataset for Analyzing Concept Drift}, journal = {NeurIPS}, year = {2025}, }

搜集汇总
数据集介绍
main_image_url
构建方式
LAMDA数据集作为Android恶意软件检测领域的重要基准,其构建过程体现了严谨的纵向研究设计。研究团队从AndroZoo平台获取约100万APK样本,通过静态分析提取.data文件特征,并整合VirusTotal检测结果与AVClass2家族分类数据。采用自动化标注流程,以4个以上杀毒引擎检测作为恶意软件判定阈值,经特征选择保留4,561个关键静态特征,最终按年份进行80/20的层状训练测试集划分,确保数据的时间维度完整性。
特点
该数据集最显著的特征在于其时间跨度与规模优势,涵盖2013至2025年(除2015年外)的百万级样本,是目前最具时间多样性的Android恶意软件数据集。每个样本包含静态词袋特征、病毒检测计数、家族分类标签及时间戳等多维度信息,特别适合研究机器学习模型在时序环境中的概念漂移现象。数据采用Parquet格式存储,通过特征映射文件实现原始特征的可追溯性,为恶意软件检测算法的长期性能评估提供可靠基准。
使用方法
研究者可通过HuggingFace平台直接加载Baseline或特定方差阈值配置的数据子集,按年份目录访问训练测试数据。典型应用场景包括恶意软件二元分类、家族预测、概念漂移分析等时序敏感任务。使用时应特别注意数据的时间分层特性,建议采用持续学习或时间感知的验证方案,并通过SHAP等可解释性方法进行年度锚定分析,以充分挖掘该数据集的纵向研究价值。
背景与挑战
背景概述
LAMDA数据集由德克萨斯大学埃尔帕索分校的IQSeC实验室于2025年创建,旨在为安卓恶意软件检测领域提供长期分析基准。该数据集涵盖了2013年至2025年(不包括2015年)超过100万个真实世界样本,通过静态分析和自动化标注流程构建,成为迄今为止时间跨度最大、样本最丰富的安卓恶意软件数据集。其核心研究问题聚焦于机器学习模型在面临概念漂移时的性能评估,为恶意软件分类、家族预测以及时间泛化研究提供了重要基础。数据集采用MIT许可证开放,已被应用于NeurIPS等顶级会议的研究工作,显著推动了移动安全领域的纵向研究进展。
当前挑战
LAMDA数据集面临的核心挑战体现在两个维度:在领域问题层面,安卓恶意软件的快速演化导致概念漂移现象显著,传统静态检测方法难以适应新型攻击手法的动态变化;恶意软件家族的多态性使得基于AVClass2的自动化标注存在误判风险。在构建过程中,数据集的挑战包括:从AndroZoo获取的原始APK需经过复杂的特征工程处理,涉及4561维稀疏特征的向量化转换;病毒检测阈值设定对标签质量的影响需谨慎权衡;跨年度样本分布不均衡可能引入时序偏差,要求特殊的验证方案设计。这些挑战为后续研究提供了重要的改进方向。
常用场景
经典使用场景
在网络安全领域,LAMDA数据集作为时间跨度最长的安卓恶意软件基准数据集,为机器学习模型在概念漂移分析中的性能评估提供了重要支持。研究者通过该数据集能够追踪恶意软件特征的动态演变过程,特别适用于开发具有时间适应性的恶意软件检测算法。数据集覆盖2013至2025年的样本分布,使得纵向对比研究成为可能。
解决学术问题
该数据集有效解决了恶意软件检测领域的关键学术挑战:概念漂移现象导致的模型性能衰减问题。通过提供时间标注的特征工程数据,研究者可量化分析特征重要性随时间的演变规律,进而开发具有时间鲁棒性的检测框架。数据集包含的恶意软件家族标注信息,也为家族演化研究提供了数据基础。
衍生相关工作
基于LAMDA数据集已催生多项重要研究,包括时间感知的持续学习框架TemporalCL、特征漂移解释工具SHAPture等开创性工作。在NeurIPS 2025发表的基准研究中,该数据集支撑了超过12种概念漂移缓解算法的对比实验,推动了动态安全检测方法论的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作