five

lacg030175/CIC-IoT-2023-neto-subsample

收藏
Hugging Face2026-04-28 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/lacg030175/CIC-IoT-2023-neto-subsample
下载链接
链接失效反馈
官方服务:
资源简介:
CIC-IoT-2023 — Neto-Subsample (1.3M, 46-feature canonical) 是一个分层抽样子样本数据集,约包含1,429,753行数据,具有46个特征。该数据集是从Neto 46.7M数据集中抽取的,保留了原始数据的46个特征模式,是`lacg030175/CIC-IoT-2023`(1.3M bencorn-derived, 39 features)的替代版本,适用于需要标准特征集的新实验。数据集中包含良性流量和多种攻击子类的样本,每种子类的样本数最多为50,000行。NaN/Inf值被保留(未进行dropna处理),建议与`ThermometerEncoder(invalid_encoding="single_bit")`配对使用。数据集分为两个配置:`random_3way`(80%训练,10%测试,10%验证,按二进制标签分层,种子=42)和`random`(80%训练,20%测试,测试集为`random_3way`中的测试和验证集的并集)。数据来源为`lacg030175/CIC-IoT-2023-neto-full`(46.7M标准版),最初来自Kaggle上的`akashdogra/ciciot23csv`,源自CIC官方169文件分发(Neto et al., 2023)。类别分布为:DDoS(38.62%)、DoS(13.99%)、Benign(13.99%)、Recon(13.26%)、Mirai(10.49%)、Spoofing(6.99%)、Web-based(1.74%)、BruteForce(0.91%)。

CIC-IoT-2023 — Neto子采样集(130万样本、46特征标准版本)是一款分层抽样的子样本数据集,总计约1,429,753条数据记录,包含46个特征维度。该数据集源自Neto 4670万原始数据集,完整保留了原始数据的46个特征模式,是`lacg030175/CIC-IoT-2023`(130万样本、基准衍生版本、39个特征)的替代版本,适用于需采用标准化特征集的各类新型实验。数据集涵盖良性流量与多种攻击子类样本,单攻击子类的样本量最高可达50,000条。数据集中保留了NaN(非数值)与Inf(无穷大)值,未执行dropna数据清洗操作,建议搭配`ThermometerEncoder(invalid_encoding="single_bit")`(温度计编码器,将invalid_encoding参数设为“单比特编码”)使用。数据集提供两种配置方案:`random_3way`(80%训练集、10%测试集、10%验证集,按二进制标签分层抽样,随机种子=42)与`random`(80%训练集、20%测试集,测试集为`random_3way`配置下测试集与验证集的并集)。该数据集的上游数据源为`lacg030175/CIC-IoT-2023-neto-full`(4670万标准版),其最初源自Kaggle平台发布的`akashdogra/ciciot23csv`数据集,最终追溯至CIC官方169号文件分发包(Neto et al., 2023)。数据集类别分布如下:分布式拒绝服务攻击(DDoS,38.62%)、拒绝服务攻击(DoS,13.99%)、良性流量(13.99%)、侦察攻击(Recon,13.26%)、米拉伊僵尸网络攻击(Mirai,10.49%)、欺骗攻击(Spoofing,6.99%)、Web攻击(Web-based,1.74%)、暴力破解攻击(BruteForce,0.91%)。
提供机构:
lacg030175
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作