MonoLens

github2025-06-05 更新2025-06-06 收录

下载链接：

https://github.com/vul337/mono

下载链接

链接失效反馈

官方服务：

资源简介：

MonoLens是由我们的框架生成和分析的最终数据集。它包含原始CVE元数据、由我们的代理执行的根因分析以及其他相关信息。数据集还包括完整的分析结果和代理逐步执行的过程。

MonoLens is the final dataset generated and analyzed by our framework. It contains raw CVE metadata, root cause analysis performed by our AI Agent, and other relevant information. The dataset also includes complete analysis results and the step-by-step execution process of the AI Agent.

创建时间：

2025-06-04

原始信息汇总

mono数据集概述

数据集简介

数据集名称：mono (Multi-agent Operated Noise Outfilter)
关联论文：Mono: Is Your "Clean" Vulnerability Dataset Really Solvable? Exposing and Trapping Undecidable Patches and Beyond
主要功能：暴露和捕获不可判定补丁，评估漏洞数据集的"可解决性"

数据集结构

MonoLens目录

包含框架生成和分析的最终数据集

examples子目录

提供8个数据条目的CSV样本文件
包含每个条目的：
- 原始CVE元数据
- 代理执行的根因分析
- 其他相关信息
引用other_context文件夹中的完整分析结果

conf_0.9子目录

包含代理最终置信度分数>0.9的CVE子集
省略other_context子目录

all子目录

包含代理能够处理和分析的所有CVE结果
省略other_context子目录

whole-workflow-examples目录

展示mono框架对4个案例的完整分析流程
包含三个阶段：
1. 补丁预过滤和分类
2. 数据获取和预处理(使用Joern生成CPGs)
3. 迭代上下文分析(包括代理的CVE分析、收集的上下文信息等)

RQs目录

针对论文中研究问题的专用目录
每个RQ包含：
- 专用代码
- 相关数据
- 最终结果
- 详细说明的ReadMe.md文件

引用信息

bibtex @misc{gao2025monocleanvulnerabilitydataset, title={Mono: Is Your "Clean" Vulnerability Dataset Really Solvable? Exposing and Trapping Undecidable Patches and Beyond}, author={Zeyu Gao and Junlin Zhou and Bolun Zhang and Yi He and Chao Zhang and Yuxin Cui and Hao Wang}, year={2025}, eprint={2506.03651}, archivePrefix={arXiv}, primaryClass={cs.CR}, url={https://arxiv.org/abs/2506.03651}, }

搜集汇总

数据集介绍

构建方式

在软件安全研究领域，MonoLens数据集通过创新的多智能体协作框架构建而成。研究团队采用三阶段工作流程：首先进行安全补丁的预过滤与分类，随后利用Joern工具生成代码属性图进行数据预处理，最后通过迭代式上下文分析，由智能体深入挖掘漏洞根源。数据集中的每个条目均包含原始CVE元数据、智能体执行的根因分析以及完整的分析过程记录，确保了数据的全面性和可追溯性。

特点

MonoLens数据集以其独特的置信度分级机制脱颖而出，特别提供置信度高于0.9的精选子集。数据集不仅包含漏洞元数据，更创新性地整合了智能体分析的完整上下文信息，包括代码属性图、根因分析路径等结构化数据。这种多维度、多粒度的数据组织方式，为研究不可判定补丁等前沿问题提供了前所未有的实验材料。

使用方法

研究者可通过解析数据集中的CSV文件快速获取漏洞元数据与智能体分析结论。对于深度研究需求，配套的other_context文件夹提供完整的分析过程记录。数据集特别设计了whole-workflow-examples目录，包含四个典型案例的完整分析流程，可作为研究范本。针对不同置信度需求，用户可选择使用conf_0.9高置信度子集或all完整数据集进行实验。

背景与挑战

背景概述

MonoLens数据集由Zeyu Gao等研究人员于2025年提出，旨在解决漏洞数据集中存在的不可判定补丁问题。该数据集依托多智能体协同框架，通过系统化的漏洞根因分析流程，对传统漏洞数据集中的噪声数据进行过滤和验证。作为网络安全领域的前沿研究成果，MonoLens创新性地采用Code Property Graphs技术进行代码表征，为漏洞检测研究提供了更可靠的基准数据。其研究成果发表于计算机安全顶级会议，对提升漏洞分析的可解释性和可靠性具有重要价值。

当前挑战

MonoLens数据集面临的核心挑战体现在两个维度：在领域问题层面，传统漏洞数据集普遍存在补丁可解性验证不足的问题，导致模型评估结果失真；在构建过程层面，多智能体协同分析需要平衡精度与效率，代码属性图的生成涉及复杂的程序分析技术，且大规模漏洞数据的标注一致性难以保障。此外，漏洞根因分析的置信度阈值设定也需权衡误报与漏报风险。

常用场景

经典使用场景

在软件安全研究领域，MonoLens数据集为分析漏洞补丁的可解性提供了重要基准。该数据集通过多智能体框架对CVE漏洞进行根因分析，特别适用于评估漏洞数据集的纯净度与可解性。研究者可利用其标注的漏洞元数据与置信度评分，验证自动化漏洞修复工具的可靠性，或测试新型补丁生成算法在真实场景下的有效性。

衍生相关工作

基于MonoLens的范式，学术界衍生出多项重要研究。包括改进型多智能体漏洞分析框架VulHunter、基于可解性预测的补丁优先级排序系统PatchRanker等。其置信度评估机制更被迁移应用于恶意软件检测领域，催生了MalConfidence等跨领域创新成果。

数据集最近研究