nspam-corpus

Hugging Face2026-04-18 更新2026-04-19 收录

下载链接：

https://huggingface.co/datasets/barrydeen/nspam-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

nspam Nostr垃圾邮件语料库（v2.2）是一个用于训练Nostr社交网络`kind:1`笔记的本地垃圾邮件分类器的标记数据集。数据集包含两个主要文件：authors.jsonl（201行，123真实用户，78机器人）和notes.jsonl（16620行，11758真实用户，4862机器人）。标签分为`real`（真实用户）和`bot`（机器人/垃圾邮件账户），由人工评审员根据作者的整体行为进行标记。数据来源于公开的中继服务器，包括damus.io、nos.lol等。数据集适用于训练垃圾邮件/滥用/机器人分类器、自动化账户检测研究以及本地文本分类基准测试。数据集采用MIT许可证发布，并包含详细的伦理考虑和使用限制说明。

创建时间：

2026-04-16

原始信息汇总

nspam Nostr Spam Corpus 数据集概述

数据集基本信息

数据集名称：nspam — Nostr spam corpus (v2.2)
发布者：barrydeen
托管地址：https://huggingface.co/datasets/barrydeen/nspam-corpus
许可证：MIT
语言：多语言
任务类别：文本分类
标签：nostr, spam-classification, social-media
数据规模：10K<n<100K

数据集内容与结构

数据集包含两个配置，均仅提供训练集分割。

配置一：authors

数据文件：authors.jsonl
行数：201行
数据模式：
- pubkey：作者公钥
- label：标签（real 或 bot）
- labeled_at：标记时间
标签分布：123个真实用户，78个机器人账户。

配置二：notes

数据文件：notes.jsonl
行数：16620行
数据模式：
- id：笔记ID
- pubkey：作者公钥
- label：标签（继承自作者标签，为 real 或 bot）
- content：笔记内容
- tags：标签
- created_at：创建时间
标签分布：11758条真实用户笔记，4862条机器人账户笔记。

标签标注方法

从公共中继站实时流式传输 kind:1 类型的笔记。
审核人员按作者对近期笔记进行分组，并将每个作者标记为 real（真实用户）、bot（机器人/垃圾账户）或 skip（跳过）。
获取已标记作者的所有 kind:1 笔记，并将其与作者的标签关联。
标注基于主观的人类判断，不确定的账户已被跳过，未包含在本数据集中。

预期用途

为Nostr及类似的开放社交网络训练垃圾/滥用/机器人分类器。
基于文本的自动化账户检测研究。
设备端文本分类的基准测试。

使用限制

不得用于针对个人账户进行骚扰、人肉搜索或报复。
不得在没有人工审核的情况下用于做出高风险的内容审核决策。
不得用于声称特定账户绝对是“机器人”——这些标签是特定时间点的判断。

伦理考量

内容是公开的：Nostr事件广播至开放中继站。本数据集分发的是一个精选的快照。
标签不是公开的：bot标签是一位审核人员的判断，包含了对公共身份的价值评估，可能存在误标。
账户会演变：在v2.2版本中被标记为bot的公钥可能后续被入侵、转手或改变行为。标签并非永久事实。
公钥是公开标识符：它们出现在用户发布的每条笔记中。在此包含它们不会暴露任何新信息。
若认为特定公钥被误标，请在数据集仓库提交问题。

数据收集注意事项

单一标注者：未进行标注者间一致性测量。
中继站偏差：某些中继站更侧重索引特定社区/区域。
时间点快照：笔记反映了收集时中继站返回的数据；事件可能自那时起已被删除或未被复制。

引用格式

@misc{nspam, title = {nspam: Nostr spam corpus}, version = {v2.2}, year = {2026}, license = {MIT}, }

搜集汇总

数据集介绍

构建方式

在去中心化社交网络研究领域，构建高质量的标注数据集对于检测自动化账户至关重要。nspam数据集的构建始于从多个公共中继服务器实时采集Nostr平台上的公开文本流，随后由评审人员依据账户发布的整体内容模式，对每个作者进行人工标注，区分为真实用户或自动化机器人。标注完成后，系统会提取该作者发布的所有历史文本，并统一赋予相同的类别标签，从而确保了数据在账户层面的一致性。

使用方法

为便于学术研究与工程应用，该数据集可通过Hugging Face的`datasets`库便捷加载，支持分别获取作者元数据与文本内容。研究人员可将其直接用于训练面向Nostr等开放社交网络的垃圾信息与机器人账户分类模型，尤其适合探索轻量化、端侧部署的分类算法。在使用时，需充分理解其标注的主观性与时效性，避免将其用于针对个体的高风险决策，而应侧重于算法比较与行为模式研究等宏观分析场景。

背景与挑战

背景概述

在去中心化社交媒体网络快速发展的背景下，Nostr作为一个基于开放协议的分布式社交平台，面临着内容治理与垃圾信息过滤的严峻挑战。nspam-corpus数据集由研究人员Barry Deen于2026年创建，旨在为Nostr平台上的垃圾信息检测提供标注数据支持。该数据集聚焦于Nostr中kind:1类型笔记的账户级别标注，核心研究问题在于通过文本分类技术识别自动化垃圾账户与真实用户行为之间的差异，从而推动开放社交网络中内容审核算法的进步，为相关领域的模型训练与基准测试提供了重要资源。

当前挑战

该数据集致力于解决去中心化社交媒体中垃圾信息分类的挑战，包括自动化账户行为的文本模式识别、跨语言内容的泛化性分析，以及模型在资源受限设备上的部署优化。在构建过程中，数据集面临标注主观性带来的标签一致性难题，仅依赖单一标注者可能导致标注偏差；同时，数据收集受限于特定中继节点的社区与地域覆盖，可能引入采样偏差；此外，去中心化网络中数据的动态性与事件删除现象，使得数据集仅能反映特定时间点的快照，难以捕捉账户行为的长期演化。

常用场景

经典使用场景

在去中心化社交网络领域，nspam-corpus为研究者提供了宝贵的标注数据资源，其经典使用场景聚焦于训练轻量级垃圾信息分类模型。该数据集通过聚合Nostr平台上的公开笔记，以作者级别标注真实用户与自动化垃圾账户，为开发适用于边缘设备的文本分类器奠定了数据基础。研究人员可借助该数据集构建高效的分类算法，以识别并过滤开放社交网络中的滥用内容，从而提升信息环境的纯净度。

解决学术问题

该数据集有效应对了开放社交网络中自动化账户检测的学术挑战，为解决文本驱动的垃圾信息识别问题提供了实证支持。通过提供大规模标注样本，它助力研究者探索基于内容的账户行为分析，克服了传统方法在去中心化环境中数据稀缺的局限。其意义在于推动了轻量级分类模型的基准测试，为隐私保护与实时处理相结合的研究方向开辟了新路径，对网络信息治理领域产生了积极影响。

实际应用

在实际应用层面，nspam-corpus可直接服务于Nostr及类似去中心化社交平台的垃圾信息过滤系统。开发者能够利用该数据集训练嵌入式分类器，实现用户终端侧的实时内容审核，降低对中心化服务器的依赖。这种方案不仅增强了系统的抗审查性与隐私保护能力，也为社区自治的审核机制提供了技术支撑，有助于维护开放网络环境的健康生态。

数据集最近研究