five

msc-smart-contract-audition/audits-with-reasons

收藏
Hugging Face2024-06-28 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/msc-smart-contract-audition/audits-with-reasons
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集基于基础数据集进行扩展,使用了Unsloth的Llama3 8b instruct模型进行量化处理。数据集扩展了描述和推荐的详细程度,清理了代码格式并移除了可能混淆模型的外部URL注释,同时新增了`functionality`和`type`两个字段。非漏洞示例仅包含`code`、`functionality`和`type=no vulnerability`字段。数据集包含2472个训练样本和437个测试样本,总大小为11900842字节。

该数据集基于基础数据集进行扩展,使用了Unsloth的Llama3 8b instruct模型进行量化处理。数据集扩展了描述和推荐的详细程度,清理了代码格式并移除了可能混淆模型的外部URL注释,同时新增了`functionality`和`type`两个字段。非漏洞示例仅包含`code`、`functionality`和`type=no vulnerability`字段。数据集包含2472个训练样本和437个测试样本,总大小为11900842字节。
提供机构:
msc-smart-contract-audition
原始信息汇总

数据集信息

特征

  • code: 字符串类型
  • description: 字符串类型
  • recommendation: 字符串类型
  • type: 字符串类型
  • functionality: 字符串类型

数据分割

  • train:
    • 字节数: 10010243
    • 样本数: 2472
  • test:
    • 字节数: 1852577
    • 样本数: 437

数据大小

  • 下载大小: 4932711 字节
  • 数据集大小: 11862820 字节

配置

  • default:
    • 训练数据路径: data/train-*
    • 测试数据路径: data/test-*

许可证

  • MIT

任务类别

  • 文本生成
  • 文本分类

语言

  • 英语

标签

  • 金融

易读名称

  • Smart Contract Audits with Reasons and Recommendations

大小类别

  • 1K<n<10K

字段描述

字段 描述
1. code 包含漏洞的一个或多个代码块
2. description 漏洞的描述和解释,包括如何利用漏洞的证明概念(PoC)
3. recommendation 一个或多个推荐的漏洞缓解措施
4. type* 漏洞类型
5. functionality** 用简单英语解释代码的功能及其在合约中的通用目的
    • 类型不适合直接分类,因为类别不是有限集合。它们是由模型认为最准确的描述,需要预处理以限定特定数量的类别(例如,前端运行、重入、算法错误等)。

** - 这对于知识检索很有用,因为代码描述的嵌入比代码嵌入更容易分离(参见数据分析)。

数据分析

  • 第一个图显示了由Large-Cased Bert Model生成的代码描述(即功能)的嵌入的PCA。
  • 第二个图显示了原始代码本身的嵌入的PCA。

尽管这是一个信息损失很大的受限空间,但值得注意的是,模型更好地分离了两个选定的类别。

附加信息

  • 换行符已转义(即 \n
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作