Open-MalSec
收藏数据集概述:Open-MalSec
数据集描述
Open-MalSec 是一个开源数据集,专为网络安全研究和应用而设计。该数据集涵盖了多个网络安全领域的标注数据,包括:
- 钓鱼攻击示意图
- 恶意软件分析报告
- 漏洞利用文档
- 漏洞披露
- 诈骗方法和欺诈情报
该数据集结合了真实世界的样本和合成示例,提供了广泛的威胁向量和攻击策略覆盖。每个数据实例都包含明确的标注,以支持机器学习应用,如分类、检测和行为分析。Open-MalSec 会定期更新,以应对新兴威胁和新型攻击方法,确保其在学术研究和工业应用中的持续相关性。
数据集来源
- 数据源:结合了公共威胁数据库、网络安全白皮书、真实事件报告和合成扩展。
- 未来更新:来自开源社区的贡献,辅以精选的威胁情报源。
数据集用途
Open-MalSec 旨在支持多种网络安全相关任务,包括但不限于:
直接用途
- 训练和微调:用于威胁检测、钓鱼分类、恶意软件行为分析和漏洞评估的模型训练。
- 取证分析:自动审查日志、可疑工件或受感染系统的痕迹。
- 研究与开发:用于网络威胁情报、警报分类和风险分析的新型AI方法的基准测试。
超出范围的使用
- 未经验证的生产部署:在未经严格验证或专家审查的情况下,将基于此数据集的未经测试的模型部署到关键系统中。
- 恶意利用:利用该数据集促进或增强非法的网络安全活动。
数据集结构
Open-MalSec 组织成一致的数据字段,适合微调大型语言模型和构建专门的网络安全工具。
数据字段
- Instruction:任务提示或指令(例如,“分析钓鱼指标”)。
- Input:上下文信息(例如,可疑URL、恶意软件片段、漏洞描述)。
- Output:预期响应(例如,分类结果、推荐操作)。
- Sentiment:上下文情感标签(例如,负面、中性、正面)。
- Score:情感或分类的数值置信度。
- Metadata:补充注释,如威胁类别、事件日期或唯一标识符。
数据实例
Open-MalSec 以 JSON Lines (JSONL) 格式提供,便于与各种机器学习框架集成。以下是代表性示例:
json { "Instruction": "Analyze the following statement for signs of phishing and provide recommendations:", "Input": "Dear User, your account has been locked due to suspicious activity. Click here to reset your password: http://phishing-site.com", "Output": "This is a phishing attempt. Recommendations: Do not click on the link and report the email to IT.", "Sentiment": "Negative", "Score": 0.95, "Metadata": {"threat_type": "phishing", "source": "email"} }
json { "Instruction": "Summarize the malware analysis report and highlight key indicators of compromise.", "Input": "The malware uses DLL sideloading techniques to evade detection...", "Output": "DLL sideloading is employed to bypass security. Indicators include modified DLL files in system directories.", "Sentiment": "Neutral", "Score": 0.88, "Metadata": {"threat_type": "malware", "platform": "Windows"} }
数据集创建
数据收集与处理
- 数据收集:从公共存储库、安全研究文章和事件摘要中精选数据。合成条目通过程序生成,以模拟真实世界的模式,同时确保对各种威胁类型的广泛覆盖。
- 处理:数据被标准化为上述 JSONL 模式。通过自动检查和专家审查验证标注的一致性和质量。
标注
- 标注过程:由具有网络安全专业知识的人类标注者,辅以自动检测工具,对每个示例进行标注和验证。标注指南包括标准化的威胁分类分类法和情感评分协议。
- 标注者:安全专业人员、研究人员和来自开源社区的经过审查的贡献者。
- 个人和敏感信息:尽可能对敏感标识符(如电子邮件、个人数据)进行匿名化或编辑,以维护隐私和数据保护标准。
偏见、风险和限制
- 技术限制:某些威胁向量或高级漏洞利用可能代表性不足。
- 数据偏见:依赖公开报告的事件可能会引入区域或行业偏见。合成示例旨在缓解这些不平衡,但不能保证完全覆盖。
- 滥用风险:该数据集可能被恶意行为者用于改进或测试非法工具。
建议
- 验证:始终使用最新的威胁验证模型性能,并在生产部署前进行特定领域的测试。
- 持续更新:贡献额外的威胁数据和修正,以增强数据集的完整性和准确性。
- 伦理和法律考虑:负责任地使用数据集,遵守相关的数据保护法规和伦理准则。
引用
如果您在研究中或生产系统中使用 Open-MalSec,请引用如下:
bibtex @dataset{tegridydev_open_malsec_2025, title = {Open-MalSec: Advanced Cybersecurity Dataset}, author = {TegridyDev}, year = {2025}, license = {MIT}, publisher = {Hugging Face Datasets} }
联系方式
如有疑问、贡献或支持,请通过 GitHub 上的数据集存储库或直接联系维护者:
- 维护者:TegridyDev
- 问题与拉取请求:Open-MalSec GitHub
我们欢迎社区反馈、额外标签和扩展的威胁样本,以保持 Open-MalSec 的全面性和相关性。




