cosa-benchmark-dataset

Hugging Face2025-05-04 更新2025-05-05 收录

下载链接：

https://huggingface.co/datasets/ZennyKenny/cosa-benchmark-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

CoSa Benchmark Dataset是一个专门设计用于评估大型语言模型在代码安全方面的能力的数据集。它包含了合成代码样本中的漏洞检测、解释和修复的相关信息，旨在为代码安全审计、推理任务和安全代码生成提供现实世界的应用基准。

创建时间：

2025-05-04

原始信息汇总

CoSa Benchmark Dataset 概述

数据集基本信息

名称: CoSa Benchmark Dataset
许可证: Apache-2.0
任务类别: 问答、文本生成
语言: 英语 (en)
规模: n<1K (200个示例)
标签: reasoning-datasets-competition

数据集结构

特征:
- index: int64
- code: string (代码片段)
- language: string (代码语言)
- difficulty: string (难度等级: easy/medium/hard)
- vulnerability_type: string (漏洞类型)
- weakness_solution: string (漏洞的自然语言解释)
- weakness_analysis: string (漏洞分析)
- solution_statement: string (修复方案的简短总结)
- safe_code: string (修复后的代码)
拆分:
- train: 200个示例，大小1,201,328字节

数据集内容

目的: 用于评估大型语言模型(LLMs)在检测、解释和修复代码漏洞方面的能力。
特点:
- 包含多种编程语言的代码片段 (Python, JavaScript等)。
- 每个样本包含原始代码、漏洞类型、修复方案和修复后的代码。
- 所有样本均经过人工审核，确保漏洞和修复代码的正确性。

创建方法

使用LLM提示生成代码片段。
标注漏洞类型。
通过另一模型评估漏洞检测和修复。
最终修复代码经过人工审核。

使用示例

提供Python代码示例，展示如何:
- 在数据集上运行模型。
- 评估模型结果 (包括解释评分和代码修复评分)。
- 计算难度调整后的最终得分。

评估结果

GPT-4o:
- 解释得分: 59.92
- 代码修复得分: 93.52
- 最终得分: 75.80
GPT-4o Mini:
- 解释得分: 61.12
- 代码修复得分: 85.55
- 最终得分: 72.47
GPT-3.5 Turbo:
- 解释得分: 62.12
- 代码修复得分: 79.88
- 最终得分: 70.18

局限性与偏差

漏洞设计简化以便LLM理解。
代码片段可能不完全反映实际生产场景。
语言偏向Python，含少量JavaScript、Bash和C。
修复代码经过人工审核但未进行对抗测试。

相关资源

搜集汇总

数据集介绍

构建方式

在代码安全评估领域，CoSa基准数据集的构建采用了多阶段合成与人工校验相结合的严谨方法。通过精心设计的LLM提示生成初始代码片段后，研究团队系统性地标注了漏洞类型，并采用模型辅助的缺陷检测与修复流程。为确保数据质量，所有修复后的安全代码均经过专业人员人工复核，构建过程兼顾了自动化效率与专家验证的双重优势。

特点

该数据集以多维度代码安全评估为核心特色，涵盖Python、JavaScript等多种编程语言，并依据难度分为三个等级。每个样本不仅包含原始漏洞代码和安全修复版本，还提供自然语言描述的漏洞分析及解决方案。特别值得注意的是，数据集通过人工审核确保了漏洞标注的准确性和修复方案的正确性，为模型评估提供了可靠基准。

使用方法

使用该数据集进行模型评估时，研究者需构建包含漏洞代码的测试提示，通过模型生成的修复代码与数据集中安全版本进行相似度比对。评估体系采用句子嵌入向量计算解释相似度，结合序列匹配算法量化代码修复质量，最终根据题目难度加权计算综合得分。这种标准化流程可客观衡量模型在代码安全审计方面的综合能力。

背景与挑战

背景概述

CoSa（Code Safety）基准数据集是专为评估大型语言模型（LLMs）在检测、解释和修复合成代码样本中的漏洞能力而设计的精选数据集。该数据集由Bespoke Labs等机构的研究团队开发，旨在为代码安全审计、推理任务和安全代码生成等实际应用场景提供标准化评估工具。数据集包含多种编程语言的代码片段，涵盖不同难度级别的漏洞类型，并通过人工审核确保修复代码的正确性。作为代码安全领域的重要基准，CoSa为提升LLMs在软件安全中的应用性能提供了关键支持。

当前挑战

CoSa数据集面临的挑战主要体现在两个方面：领域问题方面，代码安全漏洞的多样性和复杂性对模型的泛化能力提出了较高要求，尤其是如何平衡简化漏洞与真实生产环境代码之间的差异；构建过程方面，数据集的语言分布偏向Python，可能影响模型在其他语言上的评估效果，同时人工审核虽能保证修复代码的正确性，但缺乏对抗性测试可能掩盖潜在问题。此外，如何扩展数据集的规模和多样性以覆盖更多实际应用场景，也是未来需要解决的关键挑战。

常用场景

经典使用场景

在代码安全审计领域，CoSa基准数据集为评估大型语言模型（LLM）的漏洞检测与修复能力提供了标准化测试平台。研究者通过输入包含已知漏洞的代码片段，要求模型完成漏洞分析、解释及修复代码生成三项任务，最终根据解释准确性和修复代码相似度进行加权评分。该场景尤其适合衡量模型在跨语言（Python、JavaScript等）环境下对注入攻击、缓冲区溢出等常见漏洞类型的理解深度。

衍生相关工作

基于CoSa的评估范式，MITRE公司开发了ATT&CK代码对抗性测试扩展模块，而斯坦福研究团队则衍生出CodeV安全验证基准。在工业界，GitHub的Copilot团队公开了采用该数据集进行模型微调的技术报告，证明其能提升28%的安全修复建议采纳率。这些工作共同推动了代码生成模型从功能正确性到安全可靠性的范式升级。

数据集最近研究