Malicious Javascript Dataset

github2024-04-06 更新2024-05-31 收录

下载链接：

https://github.com/geeksonsecurity/js-malicious-dataset

下载链接

链接失效反馈

资源简介：

本仓库包含一系列伪排序的恶意JavaScript文件，这些文件是定期收集的。当前数据集（2017年1月）包含1156个HTML文件、1357个JS文件和33个跳过的文件。

This repository contains a series of pseudo-sorted malicious JavaScript files, which are collected on a regular basis. The current dataset (January 2017) includes 1156 HTML files, 1357 JS files, and 33 skipped files.

创建时间：

2017-02-01

原始信息汇总

Malicious Javascript Dataset 概述

数据集内容

文件类型: 包含1156个HTML文件和1357个JS文件。
特殊文件: 33个跳过的文件。

贡献指南

文件扩展名: 恶意JavaScript样本必须使用.html或.js扩展名。
非JavaScript样本: 使用ignore关键词在文件名中标识。
解码代码: 提交解码代码时，使用deobfuscated关键词在文件名中标识。
未知类型样本: 提交至misc文件夹。
时间信息: 如果知道样本出现日期，可在文件名中添加日期或创建以日期命名的文件夹（格式为YYYYMMDD）。
EK landing page: 在文件名中添加lp或landingpage关键词。
注入JavaScript: 添加injected关键词标识。

搜集汇总

数据集介绍

构建方式

该数据集通过收集和整理来自不同时间段的恶意JavaScript代码构建而成，涵盖了多种恶意脚本类型。数据集中的文件按照特定的命名规则进行分类和存储，以确保数据的可追溯性和一致性。贡献者在提交样本时需遵循一系列严格的命名和分类指南，例如使用`.html`或`.js`扩展名、添加`ignore`或`deobfuscated`等关键词，以及根据样本出现的时间或类型进行文件夹分类。这种系统化的构建方式不仅提高了数据的组织性，还为后续的分析和研究提供了便利。

使用方法

使用该数据集时，用户可以根据文件名中的关键词快速筛选出感兴趣的样本，例如通过`lp`或`landingpage`关键词定位EK登陆页面，或通过`injected`关键词查找注入脚本。对于去混淆后的代码，用户可以通过`deobfuscated`关键词获取更易读的代码版本。此外，数据集支持按时间分类，用户可以通过文件夹名称中的日期信息（格式为`YYYYMMDD`）追踪特定时间段的恶意代码演变。在使用过程中，用户需注意数据集中包含有害代码，确保在安全环境下进行操作，并遵守相关法律法规。

背景与挑战

背景概述

Malicious JavaScript Dataset 是一个专注于收集和分析恶意JavaScript代码的数据集，旨在帮助研究人员和安全专家更好地理解和防御网络攻击。该数据集由匿名维护者于2017年创建，包含了从不同时间点收集的恶意JavaScript代码样本，涵盖了1156个HTML文件和1357个JS文件。这些样本主要用于研究恶意代码的行为模式、传播机制以及其对网络安全的威胁。该数据集的创建为恶意代码检测、漏洞分析以及安全防护策略的制定提供了重要的数据支持，推动了网络安全领域的研究进展。

当前挑战

该数据集面临的主要挑战包括恶意代码的多样性和复杂性。恶意JavaScript代码通常经过混淆和加密处理，增加了分析和检测的难度。此外，恶意代码的快速演变和新型攻击手段的不断涌现，要求数据集持续更新以保持其时效性和有效性。在数据集的构建过程中，维护者还需确保样本的准确性和完整性，避免误报和漏报。同时，由于恶意代码的潜在危害性，数据集的共享和使用需严格遵守法律和道德规范，防止被滥用或用于非法目的。这些挑战要求研究者在数据处理、模型训练和安全防护方面具备高度的专业知识和技能。

常用场景

经典使用场景

在网络安全领域，恶意JavaScript代码的分析与检测是至关重要的。Malicious JavaScript Dataset提供了一个丰富的恶意代码样本库，研究人员可以利用这些样本进行恶意行为模式的分析、检测算法的开发与测试。通过深入研究这些样本，能够有效识别和防御网络攻击，提升系统的安全性。

解决学术问题

该数据集解决了恶意JavaScript代码检测中的样本稀缺问题，为研究人员提供了大量真实的恶意代码样本。这些样本不仅帮助研究者理解恶意代码的行为模式，还为开发高效的检测算法提供了实验基础。通过该数据集，学术界能够更深入地研究恶意代码的传播机制、攻击手段及其防御策略，推动了网络安全领域的技术进步。

实际应用

在实际应用中，Malicious JavaScript Dataset被广泛用于安全产品的开发与测试。例如，反病毒软件和入侵检测系统可以利用该数据集中的样本进行恶意代码检测能力的验证与优化。此外，企业安全团队也可以通过分析这些样本，制定更有效的防御策略，保护其网络系统免受恶意代码的侵害。

数据集最近研究