antispam

github2025-04-10 更新2025-04-15 收录

下载链接：

https://github.com/knobbyskate/antispam

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集反映了作者或其保护下的网络每天收到的垃圾邮件。它包括无法通过其他方式阻止的特定域名、已知提供垃圾邮件服务的实体、通过Google Forms或Microsoft Azure绕过Microsoft Exchange过滤器的垃圾邮件发送者，以及发送钓鱼和恶意软件活动的实体。数据集存储在[insights](./source/insights)文件夹中，分为不同类型：hosts、spammers、spammers/unblockable和phishers。

This dataset captures the daily spam emails received by the author or the network under their protection. It includes specific domains that cannot be blocked through other means, entities known to provide spam services, spammers that bypass Microsoft Exchange filters via Google Forms or Microsoft Azure, and entities engaged in phishing and malware activities. The dataset is stored in the [insights](./source/insights) folder and is categorized into distinct types: hosts, spammers, spammers/unblockable, and phishers.

创建时间：

2025-04-10

原始信息汇总

antispam 数据集概述

数据集简介

目的：解决LLM垃圾邮件和钓鱼问题
内容来源：作者及其保护网络日常收到的垃圾邮件
特别收录：包含因利益冲突拒绝遵守滥用报告政策的服务提供商

数据集结构

主目录：source/insights
- hosts：无法通过其他方式阻止的特定域名
- spammers：提供垃圾邮件服务的已知组织（通常以AI定向营销为名）
  - unblockable：通过Google Forms诈骗或Microsoft Azure等渠道绕过过滤的垃圾邮件发送者
- phishers：发送钓鱼和恶意软件活动的已知组织

技术实现

底层抽象：使用最长前缀哈希集合映射（longest-prefix hashset maps）
独立库：golpm

使用方式

基础命令

bash antispam view path/to/mail.eml # 查看邮件并检查垃圾邮件指标 antispam classify path/to/mail.eml # 判断是否为垃圾邮件（是则返回退出码1） antispam mark --json path/to/mail.eml # 标记为垃圾邮件并输出可提交的spammer数据

邮件管理工具

位置：toolchain/
- build.go：生成Linux/amd64二进制文件
- cleanup.go：按条件清理邮件文件
- discover.go：发现潜在垃圾邮件提供商的相邻ASN
- learn.go：分类并显示邮件判定结果
- postfix.go：生成Postfix兼容的阻止列表文件

集成配置

Postfix：详见guides/POSTFIX.md，使用外部postmap阻止列表
Dovecot：详见guides/DOVECOT.md，使用sieve脚本过滤邮件

贡献指南

文件命名：需保持统一命名规范
数据格式：每个垃圾邮件组织使用独立JSON文件，包含structs.Spammer数组
示例参考：Amazon示例

许可证

AGPL-3

搜集汇总

数据集介绍

构建方式

在网络安全领域，`antispam`数据集的构建采用了动态更新的机制，通过持续收集日常接收的垃圾邮件和网络钓鱼攻击样本。数据集以结构化方式存储在特定目录下，分为`hosts`、`spammers`和`phishers`等类别，每个类别针对不同类型的威胁源进行细分。为提高处理效率，数据集采用最长前缀哈希映射技术进行优化，显著提升了大规模数据匹配的速度。

使用方法

数据集设计为与邮件服务器深度集成，支持通过Postfix和Dovecot等主流邮件系统实时过滤恶意邮件。用户可通过命令行工具进行多种操作，包括邮件内容检查、垃圾邮件分类以及新威胁标记。数据集还提供自动化构建工具链，基于Go语言实现，支持生成二进制文件和调试符号，便于在不同环境中部署使用。对于批量处理需求，配套脚本支持按发件人、域名等多种条件快速清理邮件样本库。

背景与挑战

背景概述

在数字化时代，垃圾邮件和网络钓鱼问题日益严重，对个人隐私和网络安全构成巨大威胁。antispam数据集由cookiengineer开发，旨在解决大型语言模型（LLM）生成的垃圾邮件和钓鱼攻击问题。该数据集通过收集日常接收的垃圾邮件和钓鱼邮件，结合已知的垃圾邮件服务提供商信息，构建了一个全面的反垃圾邮件资源库。数据集包含多个类别，如特定域名、垃圾邮件服务提供商以及难以拦截的垃圾邮件来源，为网络安全领域提供了重要的研究基础。

当前挑战

antispam数据集面临的挑战主要包括两个方面：领域问题的复杂性和数据构建的技术难度。在领域问题方面，垃圾邮件和钓鱼攻击手段不断演变，尤其是利用Google Forms和Microsoft Azure等平台绕过传统过滤机制的新型攻击方式，增加了检测和拦截的难度。在数据构建过程中，如何高效处理和分析大量邮件数据，同时确保数据分类的准确性和及时性，是另一个重要挑战。此外，数据集的维护需要持续更新，以应对不断变化的垃圾邮件和钓鱼攻击策略。

常用场景

经典使用场景

在网络安全领域，antispam数据集被广泛应用于电子邮件系统的垃圾邮件过滤和网络钓鱼攻击检测。该数据集通过收集和分析日常接收的垃圾邮件样本，构建了一个包含恶意域名、垃圾邮件服务提供商和网络钓鱼活动的详细数据库。研究人员和开发人员可以利用这一数据集训练机器学习模型，以识别和拦截潜在的垃圾邮件和网络钓鱼攻击。

解决学术问题

antispam数据集解决了网络安全研究中垃圾邮件和网络钓鱼攻击检测的难题。通过提供大量真实的恶意邮件样本和相关的域名信息，该数据集为研究人员提供了宝贵的实验材料，有助于开发更高效的检测算法和模型。其意义在于推动了网络安全领域的技术进步，提升了电子邮件系统的安全性和用户体验。

实际应用

在实际应用中，antispam数据集被集成到电子邮件服务器（如Postfix和Dovecot）中，用于实时过滤垃圾邮件和网络钓鱼攻击。企业和个人用户可以通过配置该数据集提供的黑名单和过滤规则，显著减少垃圾邮件的干扰，并降低网络钓鱼攻击的风险。此外，该数据集还可用于网络安全工具的开发和测试。

数据集最近研究