ealvaradob/phishing-dataset|网络钓鱼检测数据集|自然语言处理数据集
收藏Phishing Dataset
数据集详情
数据结构
所有数据集都经过预处理,消除了空值、重复数据,并进行了类别平衡处理。数据集包含两列:text
和 label
。text
字段可能包含以下样本:
- URL
- SMS 消息
- 电子邮件消息
- HTML 代码
所有记录都被标记为 1(钓鱼) 或 0(良性)。
源数据
数据集来自以下四个来源:
- 邮件数据集:包含超过 18,000 封来自 Enron Corporation 员工的电子邮件,用于检测钓鱼邮件。
- SMS 消息数据集:包含 5,971 条文本消息,包括 489 条垃圾短信、638 条钓鱼短信和 4,844 条正常短信。
- URL 数据集:包含超过 800,000 个 URL,其中 52% 是合法域名,47% 是钓鱼域名。
- 网站数据集:包含 80,000 个实例,其中 50,000 个是合法网站,30,000 个是钓鱼网站,每个实例包含 URL 和 HTML 页面。
合并数据集
合并数据集包含所有上述数据源,分为两种:
- 完整合并数据集:包含 800,000+ 个 URL。
- 简化合并数据集:减少了 95% 的 URL 样本,以保持数据平衡。
处理简化合并数据集
该数据集主要用于与 BERT 语言模型结合使用,未进行传统的 NLP 预处理。
使用方法
可以通过以下代码加载数据集: python from datasets import load_dataset
dataset = load_dataset("ealvaradob/phishing-dataset", "<desired_dataset>", trust_remote_code=True)
例如,加载简化合并数据集: python dataset = load_dataset("ealvaradob/phishing-dataset", "combined_reduced", trust_remote_code=True)

中国气象数据
本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。
github 收录
MOOCs Dataset
该数据集包含了大规模开放在线课程(MOOCs)的相关数据,包括课程信息、用户行为、学习进度等。数据主要用于研究在线教育的行为模式和学习效果。
www.kaggle.com 收录
中国交通事故深度调查(CIDAS)数据集
交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、
北方大数据交易中心 收录
LIDC-IDRI
LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。
OpenDataLab 收录
CE-CSL
CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。
arXiv 收录