five

SCLineageSet|智能合约数据集|区块链数据集

收藏
arXiv2024-12-30 更新2025-01-01 收录
智能合约
区块链
下载链接:
https://anonymous.4open.science/r/sclineages-F8DB
下载链接
链接失效反馈
资源简介:
SCLineageSet是由卢森堡大学等机构创建的智能合约谱系数据集,旨在解决区块链技术中智能合约版本追踪的难题。该数据集包含1055个智能合约,分布在347个谱系中,通过代理合约技术确保版本之间的准确链接。数据集的构建过程依赖于Etherscan平台,专注于使用代理技术更新的合约,以减少错误分类的可能性。SCLineageSet为软件工程研究提供了宝贵资源,支持智能合约演化的广泛研究,特别是在智能合约版本追踪和漏洞生命周期分析等领域。
提供机构:
卢森堡大学, 乔治亚理工学院, 谢赫·安塔·迪奥普大学
创建时间:
2024-12-30
AI搜集汇总
数据集介绍
main_image_url
构建方式
SCLineageSet数据集的构建基于智能合约的代理模式,通过自动化基础设施SCLineage系统性地收集和分类智能合约的版本链。具体而言,SCLineage利用代理合约来追踪智能合约的更新,确保版本链的准确性。数据集通过Etherscan和Google BigQuery等平台获取智能合约的详细信息,并依据一系列严格的分类规则将合约归类到各自的版本链中。这些规则包括代理合约的唯一性、合约版本的线性顺序以及合约创建者的一致性,以确保数据集的可靠性和高置信度。
特点
SCLineageSet数据集的特点在于其广泛性和开放性。该数据集涵盖了1055个智能合约,分布在347个版本链中,为智能合约的演化研究提供了丰富的数据基础。数据集的开源特性使其能够被广泛用于复现研究和协作分析,进一步推动了智能合约分析领域的发展。此外,由于采用了保守的构建方法,SCLineageSet可作为验证未来版本链构建方法的基准数据集,确保了其在研究中的可靠性和权威性。
使用方法
SCLineageSet数据集的使用方法多样,主要应用于智能合约演化的实证研究。研究人员可以利用该数据集进行智能合约版本链的构建与验证,评估基于相似性的版本链构建方法的可靠性。此外,数据集还可用于分析智能合约中的漏洞生命周期,通过应用漏洞检测工具追踪不同版本中漏洞的出现与消失。SCLineageSet的开源特性使得研究人员能够轻松访问和扩展数据集,支持更广泛的智能合约分析研究。
背景与挑战
背景概述
SCLineageSet是由卢森堡大学、乔治亚理工学院和塞内加尔谢赫·安塔·迪奥普大学的研究团队于近年开发的一个开源数据集,旨在解决智能合约演化追踪中的核心问题。智能合约作为区块链技术的重要组成部分,广泛应用于金融、医疗和房地产等领域,但其不可变性使得合约更新后无法直接追踪版本间的关联。SCLineageSet通过引入SCLineage基础设施,利用代理合约(Proxy Contracts)准确识别和收集智能合约的谱系(Lineage),为智能合约的演化分析提供了可靠的数据支持。该数据集包含1,055个智能合约,分布在347个谱系中,为软件工程研究提供了丰富的实证数据。SCLineageSet的开放性和可扩展性使其成为智能合约分析领域的重要资源,推动了相关研究的深入发展。
当前挑战
SCLineageSet在构建和应用过程中面临多重挑战。首先,智能合约的不可变性使得版本间的关联难以追踪,传统的相似性度量方法(如基于LSH的算法)在构建谱系时存在精度和召回率低的问题,尤其是在处理非开源合约时表现尤为明显。其次,尽管代理合约为追踪合约更新提供了有效途径,但并非所有智能合约都采用代理模式进行更新,这导致数据集覆盖范围受限。此外,构建过程中需确保谱系的准确性和一致性,研究者采用了保守的设计策略,如假设同一谱系中的合约必须由同一创建者部署,这虽然提高了数据的可靠性,但也可能排除部分真实的谱系关系。最后,SCLineageSet的持续更新和维护需要依赖外部数据源(如Etherscan和BigQuery),这对数据集的时效性和完整性提出了更高的要求。
常用场景
经典使用场景
SCLineageSet数据集在智能合约演化分析中具有经典应用场景。通过追踪智能合约的版本更新,研究者可以深入分析合约代码的演变过程,识别代码重复、漏洞修复以及功能扩展等关键变化。该数据集特别适用于研究智能合约的版本控制、代码相似性分析以及合约升级策略的优化。例如,研究者可以利用SCLineageSet评估基于局部敏感哈希(LSH)的合约版本相似性计算方法,验证其在不同场景下的可靠性。
实际应用
SCLineageSet在实际应用中具有广泛的价值。在智能合约开发与维护过程中,开发者可以利用该数据集追踪合约的版本更新,识别潜在的代码漏洞,并优化合约的升级策略。此外,安全研究人员可以通过分析SCLineageSet中的合约版本链,研究漏洞的引入与修复过程,开发更高效的漏洞检测与修复工具。该数据集还为智能合约的自动化测试与验证提供了丰富的数据支持,有助于提升智能合约的可靠性与安全性。
衍生相关工作
SCLineageSet的发布推动了智能合约分析领域的多项经典工作。基于该数据集,研究者开发了多种智能合约版本相似性计算方法,进一步优化了合约版本链的构建技术。此外,SCLineageSet还被用于智能合约漏洞生命周期的研究,揭示了漏洞在合约演化过程中的引入与修复模式。该数据集还为智能合约的自动化修复工具提供了数据支持,推动了智能合约安全性与可靠性的提升。这些衍生工作不仅扩展了SCLineageSet的应用范围,也为智能合约分析领域的研究提供了新的方向。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国空气质量数据集(2014-2020年)

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心 收录

YOLO Drone Detection Dataset

为了促进无人机检测模型的开发和评估,我们引入了一个新颖且全面的数据集,专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集,包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象,以实现强大的检测和分类。

github 收录

Breast Cancer Dataset

该项目专注于清理和转换一个乳腺癌数据集,该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术(如分类、编码和二值化)来创建一个可以由数据科学团队用于未来分析的精炼数据集。

github 收录

WideIRSTD Dataset

WideIRSTD数据集包含七个公开数据集:SIRST-V2、IRSTD-1K、IRDST、NUDT-SIRST、NUDT-SIRST-Sea、NUDT-MIRSDT、Anti-UAV,以及由国防科技大学团队开发的数据集,包括模拟陆基和太空基数据,以及真实手动标注的太空基数据。数据集包含具有各种目标形状(如点目标、斑点目标、扩展目标)、波长(如近红外、短波红外和热红外)、图像分辨率(如256、512、1024、3200等)的图像,以及不同的成像系统(如陆基、空基和太空基成像系统)。

github 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。

arXiv 收录