SpamRegistration

Hugging Face2026-02-14 更新2026-02-15 收录

下载链接：

https://huggingface.co/datasets/Atoposs/SpamRegistration

下载链接

链接失效反馈

官方服务：

资源简介：

Spam Registration Dataset 是一个专注于垃圾用户注册检测的数据集。该数据集收集了连续七天内的超过121万个账户信息，全局平均阳性率（垃圾注册）高达63.32%，正负样本比例在1.41到2.03之间，显示出阳性主导且随时间相对稳定的类别分布。这一特性反映了垃圾注册普遍存在且需要在纯度约束下进行高召回率检测的场景。数据集中的每条记录的属性值由`@!!!!@`分隔，所有实体值均已匿名化处理以保护用户隐私和商业机密。

创建时间：

2026-02-09

原始信息汇总

Spam Registration Dataset 数据集概述

数据集简介

该数据集旨在用于检测垃圾用户注册。它包含了在连续七天内收集的超过121万个账户，其全局平均正样本率始终保持在较高水平（63.32%）。正负样本的比例范围在1.41到2.03之间，表明在时间维度上，类别分布呈现正样本主导且相对稳定的特征。这些特性反映了垃圾注册普遍存在、需要在纯度约束下进行高召回率检测的场景。

数据详情

数据规模：超过1.21M（121万）条账户记录。
收集周期：连续七天。
类别分布：
- 全局平均正样本率：63.32%。
- 正负样本比例范围：1.41 至 2.03。
- 分布特点：正样本主导，随时间变化相对稳定。

数据格式与处理

记录格式：每条记录中的属性值由分隔符 @!!!!@ 分隔。
隐私保护：所有实体值均已进行匿名化处理，以保护用户隐私和商业机密。

属性说明

各属性列的域信息如下图所示：

许可信息

许可证：MIT License。

搜集汇总

数据集介绍

构建方式

在网络安全与反垃圾信息领域，SpamRegistration数据集的构建体现了对大规模实时恶意注册行为的系统性捕获。该数据集通过连续七天的持续采集，汇集了超过121万条用户注册记录，确保了时间跨度的覆盖与样本的时效性。每条记录中的属性值均以特定分隔符进行结构化存储，且所有实体信息均经过匿名化处理，以严格遵循隐私保护与商业机密规范，从而在数据可用性与安全性之间取得了平衡。

特点

SpamRegistration数据集展现出鲜明的类别分布特征，其全局平均正样本比例高达63.32%，且正负样本比在1.41至2.03之间波动，呈现出正样本主导且随时间相对稳定的分布态势。这一特点精准映射了实际应用中垃圾注册行为高发的场景，为在高纯度约束下实现高召回率的检测模型提供了关键数据基础。数据中各属性字段的域信息通过可视化图表清晰呈现，增强了数据结构的可解释性。

使用方法

该数据集适用于训练与评估垃圾注册检测模型，尤其侧重于高召回率分类任务。使用者可依据分隔符解析每条记录的结构化属性，并利用其稳定的正样本分布特性进行模型训练与验证。在应用过程中，需注意所有字段均已匿名化，直接适用于隐私敏感场景下的模型开发，同时可通过提供的域信息图示深入理解各属性的数据分布，以优化特征工程与模型设计。

背景与挑战

背景概述

随着互联网服务的普及，恶意用户通过自动化脚本进行垃圾注册的行为日益猖獗，这不仅破坏了在线平台的生态平衡，还可能导致资源滥用与安全风险。SpamRegistration数据集由研究团队于近期构建，旨在针对垃圾用户注册检测这一核心问题提供大规模、高质量的标注数据。该数据集收录了连续七天内超过121万个账户记录，其正样本比例稳定维持在较高水平，反映了实际场景中垃圾注册的普遍性。通过匿名化处理保护用户隐私，该数据集为高召回率检测模型的发展奠定了坚实基础，对网络安全与内容管理领域具有重要的推动作用。

当前挑战

在垃圾注册检测领域，主要挑战在于如何在高正样本比例的数据中实现高召回率，同时确保检测结果的纯净度，避免误伤正常用户。SpamRegistration数据集构建过程中，研究人员面临数据采集与标注的复杂性，需在保护用户隐私的前提下对海量账户进行有效分类。此外，数据分布的时空稳定性要求模型具备强大的泛化能力，以应对不断演变的垃圾注册策略。这些挑战促使研究者开发更鲁棒的算法，以平衡检测效率与系统安全性。

常用场景

经典使用场景

在网络安全与反垃圾信息领域，SpamRegistration数据集为检测恶意用户注册行为提供了关键支持。该数据集通过连续七天收集超过121万个账户记录，并维持高达63.32%的全局平均正样本率，精准模拟了垃圾注册泛滥的实际环境。研究者常利用其稳定的正负样本分布（比例介于1.41至2.03之间），构建高召回率的分类模型，以应对在保持数据纯度约束下的大规模垃圾注册识别挑战。

衍生相关工作

围绕SpamRegistration数据集，学术界衍生出多项经典研究工作。例如，有研究利用其时序稳定性设计增量学习框架，以应对不断演变的垃圾注册策略；另有工作结合图神经网络分析注册行为中的关联模式，挖掘隐藏的协同攻击网络。这些成果不仅优化了检测算法的性能，还推动了异常检测、隐私保护计算与对抗机器学习等交叉领域的进展，为后续大规模网络行为数据集的建设树立了范式。

数据集最近研究