five

面向主流开源托管平台持续集成自动化构建配置文件数据集

收藏
国家基础学科公共科学数据中心2026-05-16 收录
下载链接:
https://nbsdc.cn/general/dataDetail?id=6a05f19ff175603f068dee8f&type=1
下载链接
链接失效反馈
官方服务:
资源简介:
本数据集聚焦于现代软件供应链中核心的持续集成与持续部署环节,旨在通过分析构建逻辑与配置,支撑供应链投毒防御、流水线安全审计及自动化运维研究。该资源基于GitHub、GitLab等开源托管平台的高热度项目产生,涵盖了GitHub Actions、Jenkinsfile、GitLab CI、Travis CI及CircleCI等主流流水线定义文件。在采集过程中,采用代码仓库定向扫描与AST(抽象语法树)语义提取相结合的技术,精准抓取原始脚本并自动执行敏感信息脱敏,剔除Secrets及Token等隐私数据。通过语义特征建模,将非结构化逻辑转化为包含流水线名称、触发事件、构建步骤、第三方插件引用及镜像信息等核心维度的结构化数据。在处理流程中,系统执行严格的格式校验与语法修复,并利用Zstandard算法实现海量小文件的高性能压缩封装。数据自2022年起持续积累,全过程在具备多核并行处理能力的专用分析服务器及SSD存储阵列上完成。该数据集为识别流水线潜在漏洞、分析组件构建过程及优化软件交付安全提供了精细化、结构化且具备语义深度的底层支撑。
提供机构:
中国科学院信息工程研究所
二维码
社区交流群
二维码
科研交流群
商业服务