dread-crime-forum
收藏Hugging Face2026-05-11 更新2026-05-15 收录
下载链接:
https://huggingface.co/datasets/trentmkelly/dread-crime-forum
下载链接
链接失效反馈官方服务:
资源简介:
Dread Crime Forum数据集是一个近乎完整的暗网论坛Dread公开内容存档。该论坛是一个以Tor隐藏服务形式托管的类Reddit讨论论坛,也是运行时间最长的暗网社区论坛之一,主要讨论暗网市场、操作安全、加密货币及相关主题。数据集涵盖2018年4月至2025年9月期间发布的内容,包含2,272个子版块中的2,271个。数据集由三个JSONL文件构成:1) `posts.jsonl`(715,877条帖子),包含帖子标题、作者、所属子版块、URL、评论数、投票数、发布时间、原始HTML正文和纯文本正文等字段;2) `comments.jsonl`(3,702,685条评论),包含评论标识符、关联的帖子标识符、父评论标识符(用于重建完整回复树)、作者、投票数、发布时间、正文HTML和纯文本以及回复深度等字段;3) `users.jsonl`(258,848位用户),包含用户名、是否拥有PGP密钥、所有权验证状态以及详细的PGP密钥元数据(如完整的ASCII-armored公钥、指纹、密钥算法、密钥长度、创建/过期时间、解析出的用户ID记录、姓名、电子邮件等字段)。在用户数据中,有25,449位用户拥有经过所有权验证的已发布PGP密钥。数据通过Tor直接抓取公开的服务器渲染内容获得,不包含草稿、私信或任何需要账户的视图。该数据集适用于文本分类、文本生成和令牌分类等NLP任务,但由于其内容涉及暗网社区的讨论,包含大量关于非法活动(如毒品市场、供应商评论、欺诈)的描述、强烈语言、侮辱性言论以及用户自行发布的个人信息(如PGP UID中的电子邮件和姓名),研究人员在使用时需特别注意相关伦理和法律考量。数据集采用知识共享署名-相同方式共享4.0国际许可协议(CC BY-SA 4.0)发布。
The Dread Crime Forum dataset is a nearly complete archive of publicly available content from the dark web forum Dread, which is a Reddit-like discussion forum hosted as a Tor hidden service and one of the longest-running dark web community forums, primarily discussing darknet markets, operational security, cryptocurrencies, and related topics. The dataset covers content posted from April 2018 to September 2025, including 2,271 out of 2,272 subforums. It consists of three JSONL files: 1) `posts.jsonl` (715,877 posts) containing fields such as post title, author, subforum, URL, comment count, vote count, posting time, raw HTML body, and plain text body; 2) `comments.jsonl` (3,702,685 comments) containing fields like comment identifier, associated post identifier, parent comment identifier (for reconstructing full reply trees), author, vote count, posting time, body HTML and plain text, and reply depth; 3) `users.jsonl` (258,848 users) containing fields such as username, whether they have a PGP key, ownership verification status, and detailed PGP key metadata (e.g., full ASCII-armored public key, fingerprint, key algorithm, key length, creation/expiration time, parsed user ID records, name, email). Among the user data, 25,449 users have ownership-verified published PGP keys. The data was obtained by directly scraping publicly available server-rendered content via Tor, excluding drafts, private messages, or any views requiring an account. The dataset is suitable for NLP tasks like text classification, text generation, and token classification, but due to its content involving discussions from the dark web community, including extensive descriptions of illegal activities (e.g., drug markets, vendor reviews, fraud), strong language, offensive remarks, and user-published personal information (e.g., emails and names in PGP UIDs), researchers should exercise caution regarding ethical and legal considerations. The dataset is released under the Creative Commons Attribution-ShareAlike 4.0 International License (CC BY-SA 4.0).
创建时间:
2026-05-09
搜集汇总
数据集介绍

构建方式
该数据集通过直接的Tor网络爬取手段,利用SOCKS5连接器与流隔离技术,对暗网社区论坛Dread中公开的服务器渲染页面进行系统性捕获。数据采集涵盖了从2018年4月至2025年9月间发布的全部可发现内容,最终整合为三个结构化的JSONL文件:分别储存帖子(posts.jsonl)、评论(comments.jsonl)和用户信息(users.jsonl)。其中用户文件特别解析了每个用户主页上由Dread平台展示的PGP公钥及其元数据,形成了对暗网社区数字身份的深度记录。
使用方法
用户可通过HuggingFace数据集库便捷加载,指定config参数选择posts、comments或users子集进行单独或关联分析。帖子与评论文件通过post_key字段形成外键关联,评论文件中的parent_comment_key与depth字段可重建完整的回复树结构,支持对话分析与社交网络构建。用户文件可直接与前述两张表通过username字段连接,拓展基于PGP密钥信息的身份验证研究。该数据集适用于暗网舆论分析、非法市场情报挖掘、加密身份行为模式探索、以及自然语言处理中的文本分类与序列标注任务,研究者需警惕内容中可能包含的具有冒犯性、非法相关或敏感的个人身份信息。
背景与挑战
背景概述
Dread Crime Forum数据集由Trent Kelly于2026年发布,旨在系统化归档暗网中规模最大、历史最悠久的社区论坛之一——Dread的公开内容。该论坛以Reddit为模板运行于Tor隐藏服务之上,是讨论暗网市场、操作安全、加密货币及相关非法议题的核心场域。数据集完整捕获了2018年4月至2025年9月间的71万余篇帖子、370万余条评论及近26万名用户资料,并创新性地解析了25449个经所有权验证的PGP公钥元数据,为暗网话语分析、匿名网络生态研究和加密货币取证等前沿课题提供了前所未有的结构化语料基础,对计算社会科学与网络安全领域具有重要推动作用。
当前挑战
该数据集所应对的核心挑战在于暗网论坛的非法信息属性和技术封闭性。数据来源Dread充斥着毒品交易、欺诈教程及极端言论,使得研究伦理与安全审查成为首要难题,同时论坛依赖Tor网络和PGP加密机制,技术层面需克服匿名路由带来的抓取不稳定与页面解析复杂度。在构建过程中,爬取策略需实现每路流独立电路隔离以规避IP封锁,且面对22万个不同身份的用户,需从碎片化的HTML中精准提取并校验PGP密钥的完整性与真实性,最终仅有约0.003%的评论因无法确认父节点而成为孤儿记录,反映了数据清洗与关联重建的高难度。
常用场景
经典使用场景
Dread Crime Forum数据集作为暗网社区讨论的全面存档,其经典应用在于对暗网生态系统的多维度建模与分析。研究人员常利用该数据集的帖子、评论及用户PGP密钥元数据,构建大规模的网络结构分析,揭示暗网论坛中信息传播模式、社群演变规律以及用户角色分化。例如,通过解析帖子间的引用关系和评论树结构,可追踪毒品交易、加密货币讨论等敏感主题的动态扩散路径。此外,注释与用户身份的关联性使其成为研究暗网匿名性下身份构建与信任机制的理想样本,广泛用于社会计算与网络安全交叉领域的实证研究。
解决学术问题
该数据集有效解决了暗网内容难以获取、结构化不足的长期困境,为暗网犯罪学、网络社会学与信息安全研究提供了稀缺的实证基础。学术上,它助力探究暗网讨论对现实世界毒品市场的影响,如通过时间序列分析关联论坛活跃度与缉毒数据,量化匿名社区对非法经济活动的催化作用。同时,PGP密钥的嵌入使得对暗网用户加密通信习惯的量化分析成为可能,为公私钥基础设施在非法场景中的使用范式提供了宝贵观测,显著深化了对暗网安全文化及信任系统的理解。
实际应用
在实际应用中,该数据集推动了执法机构的情报分析与自动化监控技术发展。通过对帖子和评论的文本分类与实体识别,可训练出高精度的暗网内容过滤系统,用于识别新兴毒品品种、欺诈模式或操作安全漏洞。此外,用户PGP密钥元数据可用于追踪跨平台身份关联,辅助网络犯罪调查中的嫌疑人画像。在商业领域,加密货币交易相关讨论的分析为金融监管机构提供了市场操纵与洗钱风险的早期预警信号,尤其适用于反洗钱(AML)模型的验证与优化。
数据集最近研究
最新研究方向
dread-crime-forum数据集作为暗网社区讨论的全景档案,当前研究前沿聚焦于利用其海量帖子、评论与用户PGP密钥元数据,深入剖析暗网社交生态的演化轨迹。研究人员正借助该数据集追踪加密黑市的操作安全讨论、加密货币流动模式及网络犯罪社区的结构性变迁,尤其是在Dread论坛长期运营背景下(2018—2025年),结合热点事件如市场关停或执法行动,量化分析用户行为与信息传播的联动效应。该数据集的独特价值在于其跨越近八年的完整时间序列与经所有权验证的PGP密钥关联,为理解暗网信任机制、匿名身份动态及非法交易的去中心化网络提供了罕见的大规模实证基础。
以上内容由遇见数据集搜集并总结生成



