NSL-KDD|网络安全数据集|入侵检测数据集
收藏数据集概述
数据集名称
NSL-KDD数据集
数据集目的
NSL-KDD数据集旨在解决KDD99数据集的一些固有问题,并作为网络入侵检测系统的有效基准数据集,以帮助研究人员比较不同的入侵检测方法。
数据集特点
- 不包含冗余记录,避免分类器偏向频繁记录。
- 测试集中无重复记录,确保学习器性能评估公正。
- 记录选择与原始KDD数据集中的记录百分比成反比,使不同机器学习方法的分类率变化范围更广,更有效地评估学习技术。
- 训练和测试集的记录数量适中,便于完整实验,确保不同研究工作的评估结果一致且可比较。
数据文件
- KDDTrain+.ARFF:NSL-KDD训练集,二元标签,ARFF格式。
- KDDTrain+.TXT:NSL-KDD训练集,包含攻击类型标签和难度级别,CSV格式。
- KDDTrain+_20Percent.ARFF:KDDTrain+.arff文件的20%子集。
- KDDTrain+_20Percent.TXT:KDDTrain+.txt文件的20%子集。
- KDDTest+.ARFF:NSL-KDD测试集,二元标签,ARFF格式。
- KDDTest+.TXT:NSL-KDD测试集,包含攻击类型标签和难度级别,CSV格式。
- KDDTest-21.ARFF:KDDTest+.arff文件的子集,不包括难度级别为21的记录。
- KDDTest-21.TXT:KDDTest+.txt文件的子集,不包括难度级别为21的记录。
参考文献
- [1] M. Tavallaee, E. Bagheri, W. Lu, and A. Ghorbani, “A Detailed Analysis of the KDD CUP 99 Data Set,” Submitted to Second IEEE Symposium on Computational Intelligence for Security and Defense Applications (CISDA), 2009.
- [2] J. McHugh, “Testing intrusion detection systems: a critique of the 1998 and 1999 darpa intrusion detection system evaluations as performed by lincoln laboratory,” ACM Transactions on Information and System Security, vol. 3, no. 4, pp. 262–294, 2000.

rag-datasets/rag-mini-bioasq
该数据集主要用于问答和句子相似性任务,涉及生物医学领域。数据集包含两个配置:text-corpus和question-answer-passages,分别对应不同的数据文件路径。数据集来源于BioASQ任务11b的训练数据集,并通过`generate.py`脚本生成了子集。
hugging_face 收录
LibriSpeech
LibriSpeech 是一个大约 1000 小时的 16kHz 英语朗读语音语料库,由 Vassil Panayotov 在 Daniel Povey 的协助下编写。数据来自 LibriVox 项目的已读有声读物,并经过仔细分割和对齐。
OpenDataLab 收录
人民日报语料库
该数据集包含2023年5月至2024年4月期间人民日报的全部文章,以JSON格式保存,每篇文章包含URL、标题和内容。
github 收录
EmoBench-M
EmoBench-M是由深圳大学计算机科学与软件工程学院等机构创建的一个新型基准数据集,旨在评估大型多模态语言模型在情感智能方面的能力。该数据集基于心理学的情感理论,包含13个评估场景,涵盖了基础情感识别、对话情感理解和复杂社会情感分析三个维度。数据集采用视频、音频和文本等多模态数据,为评估大型多模态语言模型在真实世界交互中的情感智能提供了全面的基准。
arXiv 收录
China Health and Nutrition Survey (CHNS)
China Health and Nutrition Survey(CHNS)是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目,旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响,以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体,采用多阶段随机抽样方法,收集了家庭、个体以及社区层面的详细数据,包括饮食、健康、经济和社会因素等信息。自2011年起,CHNS不断扩展,新增多个城市和省份,并持续完善纵向数据链接,为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。
www.cpc.unc.edu 收录