SLNET
收藏arXiv2022-03-31 更新2024-06-21 收录
下载链接:
https://doi.org/10.5281/zenodo.5259648
下载链接
链接失效反馈官方服务:
资源简介:
SLNET是由德克萨斯大学阿灵顿分校计算机科学与工程系创建的一个大型数据集,专门收集第三方Simulink模型,总数达到9117个。该数据集通过自动化方式构建,包含精细的元数据,并且允许重新分发。SLNET的创建旨在支持Simulink模型的实证研究,特别是在汽车、航空航天和医疗保健等安全关键行业中的应用。数据集的创建过程涉及从GitHub和MATLAB Central等平台自动挖掘和分析模型,确保数据集的自我包含性和可重用性。SLNET的应用领域广泛,包括但不限于模型驱动工程、软件库和存储库研究,以及嵌入式和网络物理系统的开发。
SLNET is a large-scale dataset developed by the Department of Computer Science and Engineering, University of Texas at Arlington. It specifically focuses on collecting third-party Simulink models, with a total of 9,117 models in the dataset. Constructed through automated workflows, the dataset includes fine-grained metadata and supports redistribution. The creation of SLNET is intended to support empirical research on Simulink models, especially for applications in safety-critical industries such as automotive, aerospace, and healthcare. The dataset construction process involves automated mining and analysis of models from platforms including GitHub and MATLAB Central, to guarantee its self-containment and reusability. SLNET covers a broad range of application domains, including but not limited to model-driven engineering, software library and repository research, as well as the development of embedded and cyber-physical systems.
提供机构:
德克萨斯大学阿灵顿分校计算机科学与工程系
创建时间:
2022-03-31
搜集汇总
数据集介绍

构建方式
SLNET数据集的构建方式主要涉及从GitHub和MATLAB Central两个最流行的Simulink模型共享库中自动挖掘和分析Simulink模型。通过对这些模型的数据采集、清理(除了偶尔需要的人工审查新许可类型)、指标计算和打包,SLNET构建了一个完全自给自足且允许重新分配的数据集。为了细粒度地选择Simulink模型和项目,SLNET计算了多个项目级和模型级指标,并将它们暴露在SQL数据库中。此外,SLNET还识别和标记了作为测试工具的库和模型。
特点
SLNET数据集的特点在于其规模庞大,是迄今为止最大的第三方Simulink模型数据集,其规模是之前最大数据集的8倍。SLNET还包括细粒度的指标,并且是自给自足且可重新分配的。数据集在Zenodo上提供,并包含了其收集和分析工具,所有这些都以宽松的开源许可协议(CC BY和BSD 3条款)提供。
使用方法
SLNET数据集的使用方法主要是通过SQL查询来选择模型和项目。每个项目都有一个ZIP归档文件,其中包含其文件快照,以及一个SQLite数据库,其中包含来自源存储库的项目级信息(如许可类型)和提取的模型指标。用户可以通过SQL查询来选择他们感兴趣的模型和项目。SLNET数据集适合于多种研究项目,例如使用深度学习进行随机Simulink模型生成,或者在模型驱动工程中应用机器学习算法。SLNET还提供了一个与人类创作的模型进行评估的替代方案,这对于研究克隆检测、重构、模型切片和模型气味等工具非常有用。
背景与挑战
背景概述
SLNET数据集是一项重要的研究成果,由Sohil Lal Shrestha、Shafiul Azam Chowdhury和Christoph Csallner等人在2022年提出。该数据集旨在解决Simulink模型实证研究中的资源匮乏问题。Simulink作为一种广泛使用的基于模型的开发工具,在汽车、航空航天和医疗保健等安全关键型网络物理系统中发挥着重要作用。然而,由于缺乏大规模的第三方开源Simulink模型语料库,Simulink模型的实证研究受到了限制。SLNET的创建填补了这一空白,它提供了迄今为止最大的第三方开源Simulink模型语料库,并包含了细粒度的元数据。SLNET的构建完全自动化,自包含且允许重新分发,为研究人员提供了宝贵的资源。该数据集的创建对于推动Simulink模型及其建模实践的理解具有重要意义,因为它有助于工程师和研究人员生成、复制和验证关于Simulink模型、建模实践和操作模型的工具的实证结果。
当前挑战
尽管SLNET数据集提供了丰富的Simulink模型资源,但在其构建和使用过程中也面临一些挑战。首先,Simulink模型的实证研究面临着资源匮乏的问题,SLNET的创建正是为了解决这一问题。其次,构建大规模的Simulink模型语料库需要克服技术上的挑战,如数据采集、清洗、指标计算和打包等。SLNET通过自动化工具SLNET-Miner和SLNET-Metrics成功地解决了这些问题。此外,SLNET的构建过程中也需要考虑模型的多样性和代表性,以确保数据集能够真实反映Simulink模型的使用情况。最后,SLNET的使用也面临着一些挑战,如如何有效地选择和使用模型、如何处理模型中的克隆和重复内容等。这些挑战需要通过进一步的研究和技术创新来解决。
常用场景
经典使用场景
SLNET数据集是一个由第三方Simulink模型组成的免费可再分配语料库,其最经典的使用场景在于促进实证Simulink研究。该数据集为工程师和研究人员提供了大量非合成Simulink模型,使得他们能够更容易地产生、复制和验证关于Simulink模型、建模实践和相关工具的实证结果。
衍生相关工作
SLNET数据集衍生了多项相关研究工作。例如,使用SLNET中的Simulink模型训练深度学习模型,以随机生成Simulink模型并发现Simulink工具链中的错误。此外,SLNET还用于评估工具在模型克隆检测、重构、模型切片和模型异味等方面的性能。
数据集最近研究
最新研究方向
SLNET数据集的最新研究方向聚焦于模型驱动的软件开发领域,特别是针对MATLAB/Simulink这一广泛应用于模型设计工具的研究。该数据集提供了迄今为止最大的第三方Simulink模型集合,对于实证研究具有重大意义。SLNET的优势在于其规模、细粒度的元数据、自动构建、自包含性以及允许再分发,这为研究人员提供了丰富的资源,以便进行Simulink模型和建模实践的实证研究。此外,SLNET的开放性许可和包含的收集与分析工具,使得该数据集成为了机器学习和深度学习算法训练的重要数据来源。当前的研究方向包括利用SLNET进行模型生成、克隆检测、重构、模型切片和模型气味等方面的工具评估,以及通过模型和项目指标分析来理解建模实践,从而优化工具设计。SLNET的出现不仅促进了Simulink模型在各个领域的应用研究,也为模型驱动工程中的机器学习应用提供了新的可能性。
相关研究论文
- 1SLNET: A Redistributable Corpus of 3rd-party Simulink Models德克萨斯大学阿灵顿分校计算机科学与工程系 · 2022年
以上内容由遇见数据集搜集并总结生成



