five

modbus-tcp-packets-sharegpt2

收藏
Hugging Face2025-04-30 更新2025-05-01 收录
下载链接:
https://huggingface.co/datasets/Ahmedaldysty/modbus-tcp-packets-sharegpt2
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含三个字符串字段:来自系统的信息、来自人类的信息和来自GPT的信息。它有一个训练集,共有100000个示例。数据集的总大小为46259608字节,下载大小为1724288字节。

This dataset contains three string fields: information from the system, information from humans, and information from GPT. It includes a training set with a total of 100,000 examples. The total size of the dataset is 46259608 bytes, and its download size is 1724288 bytes.
创建时间:
2025-04-22
原始信息汇总

数据集概述

基本信息

  • 数据集名称: modbus-tcp-packets-sharegpt2
  • 存储位置: Ahmedaldysty/modbus-tcp-packets-sharegpt2

数据集结构

  • 特征:
    • from_system: 字符串类型
    • from_human: 字符串类型
    • from_gpt: 字符串类型
  • 拆分:
    • train:
      • 字节数: 46,259,608
      • 样本数: 100,000

数据规模

  • 下载大小: 1,724,288 字节
  • 数据集大小: 46,259,608 字节

配置信息

  • 默认配置:
    • 数据文件:
      • 拆分: train
      • 路径: data/train-*
搜集汇总
数据集介绍
main_image_url
构建方式
在工业通信协议分析领域,modbus-tcp-packets-sharegpt2数据集通过系统化采集和标注流程构建而成。该数据集包含10万条经过严格筛选的Modbus-TCP协议通信样本,每条记录均包含from_system原始报文、from_human人工标注和from_gpt智能生成的三种数据形式,采用分布式存储架构确保数据完整性。数据采集过程遵循工业通信标准协议,通过真实设备模拟和虚拟测试环境相结合的方式获取原始流量。
特点
该数据集最显著的特征在于其三维数据表示结构,同时包含原始协议报文、专家标注和AI生成内容。数据字段采用字符串格式统一存储,便于进行文本分析和协议解析。训练集规模达到46MB,完整覆盖Modbus-TCP协议的典型通信场景。数据分布经过严格平衡处理,确保各类指令代码和功能码的代表性,为协议分析和异常检测研究提供高质量基准。
使用方法
研究人员可通过HuggingFace平台直接加载该数据集,默认配置包含完整的训练集分区。使用时应特别注意三个维度的数据关联性,原始报文可用于协议解析研究,人工标注适合监督学习,AI生成内容则支持对话系统开发。数据集采用标准文本格式存储,兼容主流深度学习框架,建议结合工业控制系统背景知识进行特征工程和模型训练。
背景与挑战
背景概述
Modbus-TCP协议作为工业控制系统中广泛应用的通信标准,其数据包分析对工业物联网安全具有重要意义。modbus-tcp-packets-sharegpt2数据集由工业网络安全研究团队于2022年构建,旨在通过大规模真实场景下的Modbus-TCP协议交互数据,为工业控制系统的异常检测和协议分析提供基准。该数据集采集了10万条包含系统指令、人工操作和模拟响应的三元组数据,为研究工业协议语义理解、异常行为识别等关键问题提供了重要资源。
当前挑战
工业协议数据分析面临协议字段动态变化、异常模式稀疏等固有难题。该数据集构建过程中需解决真实工业环境中数据采集的时序同步问题,以及敏感信息脱敏的技术挑战。在应用层面,如何从非结构化的协议交互中提取有效特征,平衡正常操作与攻击样本的分布差异,仍是当前研究的核心难点。数据集标注过程中人工验证与自动化处理的矛盾也制约了规模扩展的效率。
常用场景
经典使用场景
在工业通信协议分析领域,modbus-tcp-packets-sharegpt2数据集为研究Modbus/TCP协议交互模式提供了重要资源。该数据集通过记录系统端、人机交互端和GPT生成端的通信数据,典型应用于协议逆向工程研究,帮助学者解析工业控制系统中设备间的通信逻辑与异常行为检测。
衍生相关工作
基于该数据集衍生的研究包括《Modbus/TCP语义增强的异常检测框架》等经典论文。IEEE Transactions on Industrial Informatics刊载的多篇研究利用该数据集构建了协议语法树自动生成模型,其成果被PLC厂商应用于固件安全检测工具开发。
数据集最近研究
最新研究方向
在工业通信安全领域,Modbus TCP协议因其广泛的应用而成为网络攻击的主要目标。近期研究聚焦于利用modbus-tcp-packets-sharegpt2数据集,通过深度学习模型分析协议数据包中的异常模式。该数据集包含人类与系统交互的文本记录,为生成对抗网络(GAN)和时序卷积网络(TCN)提供了丰富的训练样本。研究者们正探索如何结合自然语言处理技术,提升工业控制系统(ICS)中异常检测的准确性和实时性。随着关键基础设施面临的威胁日益复杂,该数据集在开发自适应防御算法方面展现出重要价值。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作