five

AWS Misconfiguration Database

收藏
github2025-11-07 更新2025-11-08 收录
下载链接:
https://github.com/bluearchio/aws-misconfig-db
下载链接
链接失效反馈
官方服务:
资源简介:
一个全面的、社区驱动的AWS错误配置数据库,涵盖安全漏洞、成本优化机会、性能改进、可靠性增强、运维最佳实践和架构模式映射。该数据库采用标准化JSON格式设计,适用于训练和微调LLM用于AWS基础设施分析、构建自动化安全和合规扫描工具、创建成本优化建议、开发基础设施分析平台以及教育目的。

A comprehensive, community-driven AWS misconfiguration database encompassing security vulnerabilities, cost optimization opportunities, performance improvements, reliability enhancements, operational best practices, and architecture pattern mappings. Designed in a standardized JSON format, this database is intended for training and fine-tuning Large Language Models (LLMs) for AWS infrastructure analysis, building automated security and compliance scanning tools, generating cost optimization recommendations, developing infrastructure analysis platforms, and educational purposes.
创建时间:
2025-11-05
原始信息汇总

AWS Misconfiguration Database 数据集概述

数据集简介

AWS误配置数据库是一个全面的社区驱动数据库,涵盖AWS误配置情况,专为LLM友好设计,可轻松集成到安全工具、成本优化平台和基础设施分析系统中。

核心特性

覆盖范围

  • 安全漏洞和最佳实践
  • 成本优化机会
  • 性能改进
  • 可靠性增强
  • 运营最佳实践
  • 架构模式映射和实施指导

数据统计

  • 总误配置数: 288
  • 覆盖的AWS服务: 21+
  • 风险类别: 安全、成本、性能、运营、可靠性
  • 状态: 完成(23)、冻结(10)、开放(246)、待定(9)

数据结构

文件组织

├── data/ │ ├── by-service/ # 按AWS服务组织(ec2, s3, rds等) │ ├── by-category/ # 按风险类型组织(成本、安全等) │ └── all-misconfigs.json # 完整统一数据集 ├── schema/ │ └── misconfig-schema.json # JSON Schema定义 ├── scripts/ │ ├── validate.py # 根据模式验证条目 │ ├── generate.py # 生成聚合文件 │ └── import-csv.py # 从CSV格式导入 ├── examples/ │ ├── python/ # Python集成示例 │ ├── javascript/ # JavaScript集成示例 │ └── llm-prompts/ # LLM提示模板 └── docs/ ├── SCHEMA.md # 模式文档 ├── CONTRIBUTING.md # 贡献指南 └── SUMMARY.md # 数据库统计

数据格式

每个误配置条目包含以下字段:

  • id: 唯一标识符
  • status: 状态(done|ice|open|pending)
  • service_name: 服务名称
  • scenario: 场景描述
  • alert_criteria: 警报标准
  • recommendation_action: 建议操作
  • risk_detail: 风险详情
  • build_priority: 构建优先级
  • action_value: 操作价值
  • effort_level: 工作量级别
  • risk_value: 风险值
  • architectural_patterns: 架构模式
  • pattern_implementation_guidance: 模式实施指导
  • remediation_examples: 修复示例
  • compliance_mappings: 合规性映射

架构模式集成

新增功能(2025年11月)

  • 模式关系: 断路器、指数退避重试、缓存旁路、隔板、基于队列的负载均衡等
  • 实施指导: 使用Lambda、API Gateway、SQS、ElastiCache、DynamoDB等的AWS特定指导
  • 代码示例: Python、Terraform和AWS CLI的模式实施示例
  • 检测方法: 识别模式违规的CloudWatch指标和警报

使用场景

LLM训练与微调

  • 为AWS基础设施分析准备训练数据
  • 创建提示模板和响应格式

安全扫描工具

  • 自动化安全合规扫描
  • 资源检测和风险评估

成本优化建议

  • 识别成本相关误配置
  • 按工作量与价值优先级排序

架构模式分析

  • 查询特定模式相关问题
  • 获取模式实施指导
  • 访问修复代码示例

访问方式

数据加载

  • 完整数据集: https://raw.githubusercontent.com/[your-org]/aws-misconfig-db/main/data/all-misconfigs.json
  • 按服务加载: https://raw.githubusercontent.com/[your-org]/aws-misconfig-db/main/data/by-service/[service].json
  • 按类别加载: https://raw.githubusercontent.com/[your-org]/aws-misconfig-db/main/data/by-category/[category].json

开发与验证

先决条件

  • Python 3.8+
  • pip (Python依赖管理)

验证流程

bash

验证所有条目

python3 scripts/validate.py data/by-service/

严格模式验证

python3 scripts/validate.py --strict data/

许可证

MIT许可证

版本信息

  • 最后更新: 2025-11-06
  • 版本: 1.1.0 (架构模式集成)
  • 总条目数: 288
搜集汇总
数据集介绍
main_image_url
构建方式
在云计算安全领域,AWS误配置数据库采用社区驱动的协作模式构建,通过标准化JSON格式整合了来自AWS Trusted Advisor建议和行业最佳实践的288个误配置案例。该数据库严格遵循预定义的JSON Schema进行结构化组织,涵盖21种以上AWS服务的多维度风险分类,并通过自动化脚本持续验证数据完整性与格式一致性,确保信息准确可靠。
特点
该数据集最显著的特征在于其深度融合了云架构设计模式,将电路熔断、重试退避等经典模式与具体误配置场景建立映射关系。每个条目不仅包含风险描述和修复建议,还提供多语言代码示例、合规框架映射及实时检测方法,形成兼具理论深度与实践指导价值的知识体系。这种模式感知的数据结构使其能够直接支撑LLM训练与自动化工具开发。
使用方法
用户可通过GitHub原始数据接口直接获取JSON格式数据集,或按服务分类与风险类型进行模块化加载。集成时可直接调用Python/JavaScript示例代码实现数据过滤与模式匹配,例如通过架构模式名称检索相关误配置,或根据风险值对修复建议进行优先级排序。该设计使数据集能无缝嵌入安全扫描、成本优化等应用场景,并为教育研究提供结构化参考。
背景与挑战
背景概述
AWS错误配置数据库由BlueArchio机构于2025年创建,作为社区驱动的结构化知识库,旨在系统化记录亚马逊云服务中的配置缺陷。该数据集聚焦于云基础设施的安全漏洞、成本优化、性能瓶颈及可靠性风险等核心问题,通过标准化JSON格式整合288项跨21种服务的配置案例。其创新性在于引入架构模式映射机制,将具体配置问题与断路器、缓存旁路等经典云设计模式关联,为自动化安全扫描工具和大型语言模型训练提供了高质量语料,显著推动了云安全领域的实证研究发展。
当前挑战
在云安全领域,动态演进的云服务与复杂依赖关系导致配置错误持续衍生,传统规则库难以覆盖新兴服务场景。数据集构建面临多维度挑战:需持续追踪AWS服务更新以保持时效性,通过社区协作验证数百项配置案例的真实性与严重等级,同时建立精准的架构模式映射关系以增强可解释性。数据标准化过程中需平衡机器可读性与领域专业性,确保检测方法、修复代码等异构信息能无缝集成至安全分析流水线。
常用场景
经典使用场景
在云安全与架构优化领域,AWS错误配置数据库为研究人员提供了标准化的误配置模式分析框架。该数据集通过结构化JSON格式整合了288个涵盖安全漏洞、成本优化及性能问题的配置案例,支持对Lambda函数熔断器缺失、S3存储桶加密失效等典型场景进行系统性建模。其架构模式映射功能进一步深化了云服务可靠性分析,使研究者能够精准识别违反弹性设计模式的配置缺陷。
实际应用
在企业云治理实践中,该数据集已成为自动化安全扫描工具的核心知识库。金融行业通过集成其成本优化规则实现月度资源开支降低15%,而电商平台借助架构模式检测将系统可用性提升至99.95%。运维团队利用预置的CloudWatch检测规则,将平均故障定位时间从小时级压缩至分钟级,显著强化了云原生环境的持续合规能力。
衍生相关工作
基于该数据集衍生的经典工作包括智能配置修复系统CLOUDFIXER,其通过融合LLM与模式库实现自动化补救代码生成。安全研究团队开发的PATTERN-GUARD框架则开创了架构模式违规定量评估先河,相关成果已被ACM CCS会议收录。此外,AWS官方最佳实践指南已集成其熔断器模式检测方法,形成产学研协同演进的良性生态。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作