Cama benchmark dataset

Name: Cama benchmark dataset
Creator: 伦敦大学学院，浙江大学
Published: 2025-04-01 20:05:49
License: 暂无描述

arXiv2025-04-01 更新2025-04-08 收录

下载链接：

http://arxiv.org/abs/2504.00694v1

下载链接

链接失效反馈

官方服务：

资源简介：

Cama基准数据集是由伦敦大学学院和浙江大学构建的，包含118个代表性的Android恶意软件样本，涵盖6个类别和13个家族，共有超过750万个独特的函数。该数据集旨在为Android恶意软件分析任务提供评价Code LLMs效果的系统框架。

提供机构：

伦敦大学学院，浙江大学

创建时间：

2025-04-01

搜集汇总

数据集介绍

构建方式

Cama基准数据集的构建基于118个Android恶意软件样本，涵盖6个类别和13个家族，总计包含超过750万条反编译函数。通过Androguard工具对APK文件进行反编译，提取Java函数，并基于APK大小和提取方法数量进行类别去重，以确保函数的多样性和代表性。数据预处理阶段还包括对反编译代码的结构化处理，以适配后续的模型评估任务。

特点

Cama数据集的特点在于其专注于反编译Android代码的恶意行为分析，提供了丰富的函数级标注，包括函数摘要、精炼函数名和恶意性评分。该数据集支持两种关键的恶意软件分析任务：恶意函数识别和恶意软件目的摘要。此外，Cama引入了三个领域特定的评估指标——一致性、保真度和语义相关性，以系统评估代码大语言模型在恶意软件分析中的表现。

使用方法

使用Cama数据集时，研究人员可以通过其提供的结构化输出来评估代码大语言模型在Android恶意软件分析中的性能。具体方法包括利用函数摘要和精炼函数名进行恶意函数识别，以及通过聚合函数级摘要生成恶意软件目的描述。评估过程中，可采用一致性、保真度和语义相关性等指标，量化模型在生成结构化输出时的稳定性和有效性。此外，数据集还支持函数重命名实验，以研究模型自我修复能力对分析结果的影响。

背景与挑战

背景概述

Cama benchmark dataset由伦敦大学学院和浙江大学的研究团队于2025年提出，旨在系统评估代码大语言模型(Code LLMs)在Android恶意软件分析中的有效性。该数据集包含118个恶意软件样本，涵盖6个类别和13个家族，涉及超过750万条反编译函数。研究团队设计了包含函数摘要、优化函数名和恶意评分的结构化输出格式，并提出了一致性、保真度和语义相关性三个领域特定评估指标。这项工作填补了代码大语言模型在移动安全领域系统性评估的空白，为恶意功能识别和恶意目的总结等关键任务提供了标准化基准。

当前挑战

Cama数据集面临的挑战主要体现在两个方面：领域问题方面，反编译的Android代码存在函数数量庞大、函数名缺失或混淆等问题，导致代码大语言模型难以准确理解其语义；构建过程方面，缺乏细粒度的真实标签使得模型评估困难，且不同模型对反编译代码的适应能力差异显著。此外，函数重命名虽然能提升分析效果，但可能导致语义清晰度下降，这种权衡关系需要谨慎处理。数据集还反映出当前代码大语言模型在理解恶意行为方面的局限性，特别是在准确评估函数危害性方面仍有较大改进空间。

常用场景

经典使用场景

Cama基准数据集在Android恶意软件分析领域具有重要价值，其经典使用场景包括评估代码大语言模型（Code LLMs）在反编译代码理解、恶意功能识别和恶意软件目的摘要生成等任务中的表现。该数据集通过结构化输出（函数摘要、优化函数名和恶意性评分）为研究人员提供了一个系统化的评估框架，特别适用于比较不同模型在复杂反编译环境下的稳定性和有效性。

实际应用

在实际应用层面，Cama数据集可直接支持安全分析工作流程。其生成的恶意性评分可用于优先调查可疑函数，大幅提升分析效率；优化的函数名可帮助分析师快速理解代码意图；而聚合的函数摘要则能自动生成恶意软件行为报告。这些结构化输出既可用于人工分析，也能集成到自动化检测系统中，在移动安全、威胁情报等领域具有重要应用价值。

衍生相关工作

基于Cama数据集已衍生出多项重要研究工作。在模型架构方面，推动了针对反编译代码优化的Code LLMs改进；在评估方法上，启发了结合解释性AI技术的恶意性评分验证方案；在应用层面，催生了结合程序切片与LLM的细粒度分析工具。该数据集还促进了LAMD等扩展基准的建立，为Android恶意软件检测研究提供了持续发展的基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集