msc-smart-contract-audition/audits-with-reasons
收藏Hugging Face2024-06-28 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/msc-smart-contract-audition/audits-with-reasons
下载链接
链接失效反馈官方服务:
资源简介:
该数据集基于基础数据集进行扩展,使用了Unsloth的Llama3 8b instruct模型进行量化处理。数据集扩展了描述和推荐的详细程度,清理了代码格式并移除了可能混淆模型的外部URL注释,同时新增了`functionality`和`type`两个字段。非漏洞示例仅包含`code`、`functionality`和`type=no vulnerability`字段。数据集包含2472个训练样本和437个测试样本,总大小为11900842字节。
该数据集基于基础数据集进行扩展,使用了Unsloth的Llama3 8b instruct模型进行量化处理。数据集扩展了描述和推荐的详细程度,清理了代码格式并移除了可能混淆模型的外部URL注释,同时新增了`functionality`和`type`两个字段。非漏洞示例仅包含`code`、`functionality`和`type=no vulnerability`字段。数据集包含2472个训练样本和437个测试样本,总大小为11900842字节。
提供机构:
msc-smart-contract-audition
原始信息汇总
数据集信息
特征
- code: 字符串类型
- description: 字符串类型
- recommendation: 字符串类型
- type: 字符串类型
- functionality: 字符串类型
数据分割
- train:
- 字节数: 10010243
- 样本数: 2472
- test:
- 字节数: 1852577
- 样本数: 437
数据大小
- 下载大小: 4932711 字节
- 数据集大小: 11862820 字节
配置
- default:
- 训练数据路径: data/train-*
- 测试数据路径: data/test-*
许可证
- MIT
任务类别
- 文本生成
- 文本分类
语言
- 英语
标签
- 金融
易读名称
- Smart Contract Audits with Reasons and Recommendations
大小类别
- 1K<n<10K
字段描述
| 字段 | 描述 |
|---|---|
1. code |
包含漏洞的一个或多个代码块 |
2. description |
漏洞的描述和解释,包括如何利用漏洞的证明概念(PoC) |
3. recommendation |
一个或多个推荐的漏洞缓解措施 |
4. type* |
漏洞类型 |
5. functionality** |
用简单英语解释代码的功能及其在合约中的通用目的 |
-
- 类型不适合直接分类,因为类别不是有限集合。它们是由模型认为最准确的描述,需要预处理以限定特定数量的类别(例如,前端运行、重入、算法错误等)。
** - 这对于知识检索很有用,因为代码描述的嵌入比代码嵌入更容易分离(参见数据分析)。
数据分析
- 第一个图显示了由Large-Cased Bert Model生成的代码描述(即功能)的嵌入的PCA。
- 第二个图显示了原始代码本身的嵌入的PCA。
尽管这是一个信息损失很大的受限空间,但值得注意的是,模型更好地分离了两个选定的类别。
附加信息
- 换行符已转义(即
\n)



