DIE-corpus
收藏github2024-04-25 更新2024-05-31 收录
下载链接:
https://github.com/sslab-gatech/DIE-corpus
下载链接
链接失效反馈官方服务:
资源简介:
本仓库包含由DIE使用的预处理语料库集合。这些JS文件是从ChakraCore、d8、jsc、spidermonkey和js-vuln-db等项目中收集的。为了解决运行时错误并获取类型信息,这些语料库集合已经过一次净化处理。
This repository contains a collection of preprocessed corpora utilized by DIE. These JS files have been gathered from projects such as ChakraCore, d8, jsc, spidermonkey, and js-vuln-db. To address runtime errors and acquire type information, these corpora collections have undergone a purification process.
创建时间:
2020-05-20
原始信息汇总
数据集概述
数据集来源
- 数据集包含的JS文件来源于以下项目:
- ChakraCore
- d8 (V8)
- jsc (WebKit)
- spidermonkey
- js-vuln-db
数据处理
- 数据集经过一次清洗,以解决运行时错误并获取类型信息。
- 清洗算法详情可参考相关论文。
使用说明
- 递归搜索.js文件进行变异/测试。
- 不测试以.js_结尾的JS文件,因存在兼容性问题。
特定链接配置
- 在ChakraCore下进行模糊测试时,链接
ch.js。 - 在jsc下进行模糊测试时,链接
jsc.js。 - 在v8下进行模糊测试时,链接
v8.js。 - 在firefox下进行模糊测试时,链接
ffx.js。 - 在模糊测试时,链接
lib.js。
搜集汇总
数据集介绍

构建方式
DIE-corpus数据集的构建基于多个知名JavaScript引擎的测试文件,包括ChakraCore、d8、jsc、spidermonkey和js-vuln-db。这些文件经过预处理,以解决运行时错误并获取类型信息。具体而言,数据集的构建过程中采用了特定的算法进行净化,确保了数据集的可用性和一致性。该算法在相关研究论文中有详细描述,进一步增强了数据集的科学性和可靠性。
特点
DIE-corpus数据集的显著特点在于其广泛涵盖了多个主流JavaScript引擎的测试文件,这使得该数据集在研究JavaScript引擎的行为和漏洞方面具有极高的代表性。此外,数据集经过净化处理,确保了在运行时不会出现错误,从而提高了数据集的实用性和稳定性。特别值得注意的是,数据集中排除了存在兼容性问题的文件,进一步优化了数据集的质量。
使用方法
DIE-corpus数据集主要用于JavaScript引擎的模糊测试和行为分析。使用时,可以根据不同的引擎选择相应的链接文件,如ch.js用于ChakraCore引擎的测试,jsc.js用于jsc引擎的测试等。此外,数据集支持递归搜索.js文件进行变异和测试,但需注意排除以'.js_'结尾的文件,因其存在兼容性问题。通过这些方法,用户可以有效地利用该数据集进行深入的JavaScript引擎研究。
背景与挑战
背景概述
DIE-corpus数据集由佐治亚理工学院系统软件与安全实验室(SSLab)创建,旨在支持动态信息流分析工具DIE的研究与开发。该数据集的核心研究问题聚焦于JavaScript引擎的动态行为分析,特别是运行时错误和类型信息的解析。通过从ChakraCore、d8、jsc、SpiderMonkey和js-vuln-db等多个知名JavaScript引擎的测试用例中收集并预处理数据,DIE-corpus为研究者提供了一个全面的基准集,以评估和改进动态信息流分析技术。该数据集的创建不仅推动了JavaScript引擎安全性的研究,还为相关领域的学者和开发者提供了宝贵的资源。
当前挑战
DIE-corpus数据集在构建过程中面临多项挑战。首先,从多个不同来源收集的JavaScript文件在格式和兼容性上存在显著差异,导致数据预处理和清洗过程复杂。其次,运行时错误的解析和类型信息的提取需要精确的算法支持,以确保数据集的准确性和实用性。此外,部分文件由于兼容性问题被排除在测试之外,这限制了数据集的完整性。最后,如何有效地利用这些数据进行动态信息流分析,仍需进一步的研究和方法创新。
常用场景
经典使用场景
DIE-corpus数据集在软件安全领域中被广泛用于模糊测试和漏洞检测。该数据集包含了从多个知名JavaScript引擎(如ChakraCore、V8、WebKit的jsc、SpiderMonkey等)中提取的预处理JavaScript文件,这些文件经过特殊处理以解决运行时错误并获取类型信息。研究人员和安全专家利用这些文件进行深度分析,以识别和修复潜在的安全漏洞,从而提升软件的健壮性和安全性。
衍生相关工作
DIE-corpus数据集的发布催生了一系列相关的经典工作。例如,基于该数据集的模糊测试算法和漏洞检测模型得到了广泛研究和改进,推动了模糊测试技术的前沿发展。同时,该数据集也为其他研究者提供了基础数据,支持了多篇关于JavaScript引擎安全性和漏洞分析的高质量论文的发表,进一步丰富了软件安全领域的研究成果。
数据集最近研究
最新研究方向
在软件安全领域,DIE-corpus数据集因其对JavaScript引擎的深入分析而备受关注。该数据集整合了来自ChakraCore、d8、jsc、SpiderMonkey等多个知名JavaScript引擎的测试文件,并通过预处理解决了运行时错误和类型信息获取的问题。这一研究方向不仅推动了模糊测试技术的发展,还为识别和修复JavaScript引擎中的漏洞提供了重要支持。随着网络安全威胁的不断演变,DIE-corpus的深入研究对于提升软件安全性具有深远的意义,尤其是在自动化漏洞检测和防御机制的优化方面。
以上内容由遇见数据集搜集并总结生成



