five

SLNET|Simulink模型数据集|安全关键系统数据集

收藏
arXiv2022-03-31 更新2024-06-21 收录
Simulink模型
安全关键系统
下载链接:
https://doi.org/10.5281/zenodo.5259648
下载链接
链接失效反馈
资源简介:
SLNET是由德克萨斯大学阿灵顿分校计算机科学与工程系创建的一个大型数据集,专门收集第三方Simulink模型,总数达到9117个。该数据集通过自动化方式构建,包含精细的元数据,并且允许重新分发。SLNET的创建旨在支持Simulink模型的实证研究,特别是在汽车、航空航天和医疗保健等安全关键行业中的应用。数据集的创建过程涉及从GitHub和MATLAB Central等平台自动挖掘和分析模型,确保数据集的自我包含性和可重用性。SLNET的应用领域广泛,包括但不限于模型驱动工程、软件库和存储库研究,以及嵌入式和网络物理系统的开发。
提供机构:
德克萨斯大学阿灵顿分校计算机科学与工程系
创建时间:
2022-03-31
AI搜集汇总
数据集介绍
main_image_url
构建方式
SLNET数据集的构建方式主要涉及从GitHub和MATLAB Central两个最流行的Simulink模型共享库中自动挖掘和分析Simulink模型。通过对这些模型的数据采集、清理(除了偶尔需要的人工审查新许可类型)、指标计算和打包,SLNET构建了一个完全自给自足且允许重新分配的数据集。为了细粒度地选择Simulink模型和项目,SLNET计算了多个项目级和模型级指标,并将它们暴露在SQL数据库中。此外,SLNET还识别和标记了作为测试工具的库和模型。
特点
SLNET数据集的特点在于其规模庞大,是迄今为止最大的第三方Simulink模型数据集,其规模是之前最大数据集的8倍。SLNET还包括细粒度的指标,并且是自给自足且可重新分配的。数据集在Zenodo上提供,并包含了其收集和分析工具,所有这些都以宽松的开源许可协议(CC BY和BSD 3条款)提供。
使用方法
SLNET数据集的使用方法主要是通过SQL查询来选择模型和项目。每个项目都有一个ZIP归档文件,其中包含其文件快照,以及一个SQLite数据库,其中包含来自源存储库的项目级信息(如许可类型)和提取的模型指标。用户可以通过SQL查询来选择他们感兴趣的模型和项目。SLNET数据集适合于多种研究项目,例如使用深度学习进行随机Simulink模型生成,或者在模型驱动工程中应用机器学习算法。SLNET还提供了一个与人类创作的模型进行评估的替代方案,这对于研究克隆检测、重构、模型切片和模型气味等工具非常有用。
背景与挑战
背景概述
SLNET数据集是一项重要的研究成果,由Sohil Lal Shrestha、Shafiul Azam Chowdhury和Christoph Csallner等人在2022年提出。该数据集旨在解决Simulink模型实证研究中的资源匮乏问题。Simulink作为一种广泛使用的基于模型的开发工具,在汽车、航空航天和医疗保健等安全关键型网络物理系统中发挥着重要作用。然而,由于缺乏大规模的第三方开源Simulink模型语料库,Simulink模型的实证研究受到了限制。SLNET的创建填补了这一空白,它提供了迄今为止最大的第三方开源Simulink模型语料库,并包含了细粒度的元数据。SLNET的构建完全自动化,自包含且允许重新分发,为研究人员提供了宝贵的资源。该数据集的创建对于推动Simulink模型及其建模实践的理解具有重要意义,因为它有助于工程师和研究人员生成、复制和验证关于Simulink模型、建模实践和操作模型的工具的实证结果。
当前挑战
尽管SLNET数据集提供了丰富的Simulink模型资源,但在其构建和使用过程中也面临一些挑战。首先,Simulink模型的实证研究面临着资源匮乏的问题,SLNET的创建正是为了解决这一问题。其次,构建大规模的Simulink模型语料库需要克服技术上的挑战,如数据采集、清洗、指标计算和打包等。SLNET通过自动化工具SLNET-Miner和SLNET-Metrics成功地解决了这些问题。此外,SLNET的构建过程中也需要考虑模型的多样性和代表性,以确保数据集能够真实反映Simulink模型的使用情况。最后,SLNET的使用也面临着一些挑战,如如何有效地选择和使用模型、如何处理模型中的克隆和重复内容等。这些挑战需要通过进一步的研究和技术创新来解决。
常用场景
经典使用场景
SLNET数据集是一个由第三方Simulink模型组成的免费可再分配语料库,其最经典的使用场景在于促进实证Simulink研究。该数据集为工程师和研究人员提供了大量非合成Simulink模型,使得他们能够更容易地产生、复制和验证关于Simulink模型、建模实践和相关工具的实证结果。
衍生相关工作
SLNET数据集衍生了多项相关研究工作。例如,使用SLNET中的Simulink模型训练深度学习模型,以随机生成Simulink模型并发现Simulink工具链中的错误。此外,SLNET还用于评估工具在模型克隆检测、重构、模型切片和模型异味等方面的性能。
数据集最近研究
最新研究方向
SLNET数据集的最新研究方向聚焦于模型驱动的软件开发领域,特别是针对MATLAB/Simulink这一广泛应用于模型设计工具的研究。该数据集提供了迄今为止最大的第三方Simulink模型集合,对于实证研究具有重大意义。SLNET的优势在于其规模、细粒度的元数据、自动构建、自包含性以及允许再分发,这为研究人员提供了丰富的资源,以便进行Simulink模型和建模实践的实证研究。此外,SLNET的开放性许可和包含的收集与分析工具,使得该数据集成为了机器学习和深度学习算法训练的重要数据来源。当前的研究方向包括利用SLNET进行模型生成、克隆检测、重构、模型切片和模型气味等方面的工具评估,以及通过模型和项目指标分析来理解建模实践,从而优化工具设计。SLNET的出现不仅促进了Simulink模型在各个领域的应用研究,也为模型驱动工程中的机器学习应用提供了新的可能性。
相关研究论文
  • 1
    SLNET: A Redistributable Corpus of 3rd-party Simulink Models德克萨斯大学阿灵顿分校计算机科学与工程系 · 2022年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

LFW

人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

RAVDESS

情感语音和歌曲 (RAVDESS) 的Ryerson视听数据库包含7,356个文件 (总大小: 24.8 GB)。该数据库包含24位专业演员 (12位女性,12位男性),以中性的北美口音发声两个词汇匹配的陈述。言语包括平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表情,歌曲则包含平静、快乐、悲伤、愤怒和恐惧的情绪。每个表达都是在两个情绪强度水平 (正常,强烈) 下产生的,另外还有一个中性表达。所有条件都有三种模态格式: 纯音频 (16位,48kHz .wav),音频-视频 (720p H.264,AAC 48kHz,.mp4) 和仅视频 (无声音)。注意,Actor_18没有歌曲文件。

OpenDataLab 收录

Breast Ultrasound Images (BUSI)

小型(约500×500像素)超声图像,适用于良性和恶性病变的分类和分割任务。

github 收录

糖尿病预测数据集

糖尿病相关的医学研究或者健康数据

AI_Studio 收录

China Groundgroundwater Monitoring Network

该数据集包含中国地下水监测网络的数据,涵盖了全国范围内的地下水位、水质和相关环境参数的监测信息。数据包括但不限于监测站点位置、监测时间、水位深度、水质指标(如pH值、溶解氧、总硬度等)以及环境因素(如气温、降水量等)。

www.ngac.org.cn 收录