five

Kaveny/sql-injection|网络安全数据集|机器学习数据集

收藏
hugging_face2024-12-13 更新2024-12-14 收录
网络安全
机器学习
下载链接:
https://hf-mirror.com/datasets/Kaveny/sql-injection
下载链接
链接失效反馈
资源简介:
该数据集是一个专门用于训练SQL注入的微调数据集,包含近800条手动SQL注入数据,并且未来会持续更新。所有数据都用于训练目的,训练后的大模型也适合研究用途。

This dataset is a fine-tuning dataset specifically used for training SQL injection. It contains nearly 800 manual SQL injection data and will be continuously updated in the future. All data is used for training purposes, and the trained large model is also suitable for research purposes.
提供机构:
Kaveny
AI搜集汇总
数据集介绍
main_image_url
构建方式
针对SQL注入这一网络安全领域的重要问题,本数据集通过收集和整理含有SQL注入行为的实际案例,构建了一个用于微调模型推理能力的训练集。数据集涵盖了一定规模的恶意输入样本,旨在通过这些样本帮助模型学习并掌握识别SQL注入攻击的复杂模式。
特点
本数据集具有以下几个显著特点:一是包含了丰富的SQL注入攻击样例,覆盖了多种攻击类型和方法;二是数据集经过严格的清洗和标注,确保了样本的质量和一致性;三是采用Apache 2.0许可证,便于研究与应用的推广和共享。
使用方法
使用本数据集时,用户首先需要了解数据集的构成和样本的标注规则。然后,用户可以根据自身的模型训练需求,选择合适的样本进行模型的训练和微调。此外,数据集的GitHub仓库提供了额外的数据获取和贡献途径,用户可以通过此途径获取更多数据或参与数据集的完善。
背景与挑战
背景概述
在网络安全领域,SQL注入攻击作为一种常见的代码注入手段,长期以来对数据库安全构成严重威胁。Kaveny/sql-injection数据集应运而生,该数据集创建于近年,由网络安全研究人员精心构建,旨在提升模型在SQL注入检测与预防方面的性能。该数据集不仅为安全领域的研究提供了实证基础,而且对于机器学习模型训练及安全教育具有重要的实践价值。
当前挑战
数据集在构建过程中所面临的挑战主要包括:如何精确地模拟真实的SQL注入攻击案例,保证数据的多样性和代表性;如何在确保数据安全的前提下,为研究人员提供足够的训练样本;以及如何遵循Apache 2.0许可证的规定,确保数据集的合法合规使用。此外,数据集在解决SQL注入领域问题时,还需应对如何提高模型识别准确性、减少误报和漏报等技术挑战。
常用场景
经典使用场景
在网络安全领域,SQL注入推理能力微调数据集(Kaveny/sql-injection)的应用尤为关键。该数据集通过精心设计的案例,为机器学习模型提供了微调其SQL注入检测与预防能力的可能,使其在识别恶意SQL查询方面更具精确性和高效性。
解决学术问题
该数据集解决了安全领域中的学术研究问题,如如何有效提高模型对SQL注入攻击的识别率和防范能力。它为研究人员提供了实验所需的真实世界案例,从而推动了对SQL注入攻击模式的理解,以及防御技术的创新。
衍生相关工作
基于该数据集,学术界和工业界衍生出了一系列相关的工作,包括但不限于SQL注入攻击的自动检测工具的开发、新型防御策略的研究,以及更高效的安全模型的构建,进一步提升了网络安全的防护水平。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录

TaRF

TaRF 是由密歇根大学、耶鲁大学和加州大学伯克利分校联合创建的视触融合场景数据集,旨在将视觉与触觉信号对齐至共享的三维空间。该数据集包含 19.3k 对齐的视觉与触觉样本,覆盖 13 个普通场景,如办公室、走廊和户外环境。数据采集通过结合神经辐射场(NeRF)和触觉传感器完成,利用多视图几何方法校准视觉与触觉信号,实现空间对齐。TaRF 的创建过程包括场景的多视角视觉重建和同步采集触觉信号,最终通过扩散模型生成未直接采样的触觉信号。该数据集可用于触觉信号估计、触觉定位和材料属性理解等任务,为机器人交互和虚拟世界构建提供重要支持。

github 收录

DroneVehicle 大规模无人机航拍车辆检测数据集

这个数据集是天津大学的研究团队在进行无人机航拍图像的车辆检测和计数研究过程中收集和标注的。研究团队于 2020 年发布,相关论文成果为「Drone-based RGB-Infrared Cross-Modality Vehicle Detection via Uncertainty-Aware Learning」。

超神经 收录

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录

Materials Project 在线材料数据库

Materials Project 是一个由伯克利加州大学和劳伦斯伯克利国家实验室于 2011 年共同发起的大型开放式在线材料数据库。这个项目的目标是利用高通量第一性原理计算,为超过百万种无机材料提供全面的性能数据、结构信息和计算模拟结果,以此加速新材料的发现和创新过程。数据库中的数据不仅包括晶体结构和能量特性,还涵盖了电子结构和热力学性质等详尽信息,为研究人员提供了丰富的材料数据资源。相关论文成果为「Commentary: The Materials Project: A materials genome approach to accelerating materials innovation」。

超神经 收录