five

Cama benchmark dataset

收藏
arXiv2025-04-01 更新2025-04-08 收录
下载链接:
http://arxiv.org/abs/2504.00694v1
下载链接
链接失效反馈
官方服务:
资源简介:
Cama基准数据集是由伦敦大学学院和浙江大学构建的,包含118个代表性的Android恶意软件样本,涵盖6个类别和13个家族,共有超过750万个独特的函数。该数据集旨在为Android恶意软件分析任务提供评价Code LLMs效果的系统框架。
提供机构:
伦敦大学学院,浙江大学
创建时间:
2025-04-01
搜集汇总
数据集介绍
main_image_url
构建方式
Cama基准数据集的构建基于118个Android恶意软件样本,涵盖6个类别和13个家族,总计包含超过750万条反编译函数。通过Androguard工具对APK文件进行反编译,提取Java函数,并基于APK大小和提取方法数量进行类别去重,以确保函数的多样性和代表性。数据预处理阶段还包括对反编译代码的结构化处理,以适配后续的模型评估任务。
特点
Cama数据集的特点在于其专注于反编译Android代码的恶意行为分析,提供了丰富的函数级标注,包括函数摘要、精炼函数名和恶意性评分。该数据集支持两种关键的恶意软件分析任务:恶意函数识别和恶意软件目的摘要。此外,Cama引入了三个领域特定的评估指标——一致性、保真度和语义相关性,以系统评估代码大语言模型在恶意软件分析中的表现。
使用方法
使用Cama数据集时,研究人员可以通过其提供的结构化输出来评估代码大语言模型在Android恶意软件分析中的性能。具体方法包括利用函数摘要和精炼函数名进行恶意函数识别,以及通过聚合函数级摘要生成恶意软件目的描述。评估过程中,可采用一致性、保真度和语义相关性等指标,量化模型在生成结构化输出时的稳定性和有效性。此外,数据集还支持函数重命名实验,以研究模型自我修复能力对分析结果的影响。
背景与挑战
背景概述
Cama benchmark dataset由伦敦大学学院和浙江大学的研究团队于2025年提出,旨在系统评估代码大语言模型(Code LLMs)在Android恶意软件分析中的有效性。该数据集包含118个恶意软件样本,涵盖6个类别和13个家族,涉及超过750万条反编译函数。研究团队设计了包含函数摘要、优化函数名和恶意评分的结构化输出格式,并提出了一致性、保真度和语义相关性三个领域特定评估指标。这项工作填补了代码大语言模型在移动安全领域系统性评估的空白,为恶意功能识别和恶意目的总结等关键任务提供了标准化基准。
当前挑战
Cama数据集面临的挑战主要体现在两个方面:领域问题方面,反编译的Android代码存在函数数量庞大、函数名缺失或混淆等问题,导致代码大语言模型难以准确理解其语义;构建过程方面,缺乏细粒度的真实标签使得模型评估困难,且不同模型对反编译代码的适应能力差异显著。此外,函数重命名虽然能提升分析效果,但可能导致语义清晰度下降,这种权衡关系需要谨慎处理。数据集还反映出当前代码大语言模型在理解恶意行为方面的局限性,特别是在准确评估函数危害性方面仍有较大改进空间。
常用场景
经典使用场景
Cama基准数据集在Android恶意软件分析领域具有重要价值,其经典使用场景包括评估代码大语言模型(Code LLMs)在反编译代码理解、恶意功能识别和恶意软件目的摘要生成等任务中的表现。该数据集通过结构化输出(函数摘要、优化函数名和恶意性评分)为研究人员提供了一个系统化的评估框架,特别适用于比较不同模型在复杂反编译环境下的稳定性和有效性。
实际应用
在实际应用层面,Cama数据集可直接支持安全分析工作流程。其生成的恶意性评分可用于优先调查可疑函数,大幅提升分析效率;优化的函数名可帮助分析师快速理解代码意图;而聚合的函数摘要则能自动生成恶意软件行为报告。这些结构化输出既可用于人工分析,也能集成到自动化检测系统中,在移动安全、威胁情报等领域具有重要应用价值。
衍生相关工作
基于Cama数据集已衍生出多项重要研究工作。在模型架构方面,推动了针对反编译代码优化的Code LLMs改进;在评估方法上,启发了结合解释性AI技术的恶意性评分验证方案;在应用层面,催生了结合程序切片与LLM的细粒度分析工具。该数据集还促进了LAMD等扩展基准的建立,为Android恶意软件检测研究提供了持续发展的基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作