Evolution DWM数据集
收藏arXiv2023-11-21 更新2024-06-21 收录
下载链接:
https://www.zenodo.org/record/10156522
下载链接
链接失效反馈官方服务:
资源简介:
Evolution DWM数据集是由莱顿大学高级计算机科学研究所创建的大规模纵向结构化数据集,专注于2014年至2015年的暗网加密市场Evolution。该数据集包含超过50万条论坛帖子和8万条市场列表,详细记录了论坛、主题、帖子、论坛用户、市场供应商、列表等信息。此外,数据集还提取了时间加权通信网络,用于研究暗网市场中的犯罪行为和通信模式。数据集的应用领域包括社会科学、法律和网络科学,旨在解决暗网市场中的信任建立、市场运作和犯罪预测等问题。
The Evolution DWM dataset is a large-scale longitudinal structured dataset developed by the Institute of Advanced Computer Science, Leiden University, focusing on the darknet encrypted marketplace Evolution spanning 2014 to 2015. This dataset contains over 500,000 forum posts and 80,000 marketplace listings, with detailed records covering forums, topics, posts, forum users, marketplace vendors, listings and other relevant information. Additionally, the dataset includes time-weighted communication networks extracted to support research on criminal behaviors and communication patterns in darknet markets. The application domains of this dataset cover social sciences, law and network science, with the aim of addressing core issues in darknet markets including trust establishment, market operation and crime prediction.
提供机构:
莱顿大学高级计算机科学研究所
创建时间:
2023-11-21
搜集汇总
数据集介绍

构建方式
Evolution DWM数据集是从Dark Net Market Archives中提取的结构化数据,涵盖了2014年至2015年间Evolution暗网市场的论坛和商品列表信息。数据提取过程包括从原始HTML文件中提取相关数据、创建结构化数据集、匹配论坛用户与市场供应商,以及提取加权时间通信网络。通过这一系列步骤,数据集解决了爬取数据中常见的质量问题,如数据重复、时间不一致性和缺失数据。
特点
该数据集包含了超过50万条论坛帖子和8万多个商品列表,涵盖了论坛、主题、帖子、论坛用户、市场供应商、商品列表等多个维度的信息。此外,数据集还提供了从这些数据中提取的时间加权通信网络,能够反映论坛用户之间的间接通信和共同兴趣。这些特点使得该数据集成为研究暗网市场行为、通信模式以及网络科学的宝贵资源。
使用方法
该数据集以制表符分隔的格式提供,可以通过Python、R等标准数据处理工具加载。研究人员可以通过数据集中的标识符将不同的数据表进行关联,进行进一步的分析。例如,可以通过文本分析研究商品标题和描述中的信息,分析供应商的行为模式或风险缓解策略。此外,数据集中的时间加权通信网络可以用于研究用户之间的互动模式,预测供应商的成功率,或作为网络科学研究的基础数据。
背景与挑战
背景概述
Evolution DWM数据集是一个大规模、纵向结构化的暗网加密市场数据集,涵盖了2014年至2015年间活跃的Evolution市场。该数据集由荷兰莱顿大学的Hanjo D. Boekhout、Arjan A.J. Blokland和Frank W. Takes等研究人员创建,旨在为研究暗网市场中的犯罪行为和通信模式提供高质量的数据支持。Evolution市场是当时最受欢迎的加密市场之一,结合了卡片论坛和地下毒品市场,提供了丰富的论坛帖子、商品列表和用户互动数据。该数据集的发布为跨学科研究(如社会科学、法学和网络科学)提供了重要的数据基础。
当前挑战
Evolution DWM数据集在构建过程中面临多重挑战。首先,暗网市场的非法性质使得数据获取极为困难,且原始数据通常存在质量问题,如数据重复、时间不一致性和缺失数据。其次,由于市场结构和论坛内容的动态变化,数据提取和清洗过程复杂且耗时。此外,论坛用户与市场供应商之间的账户关联性难以直接建立,研究人员不得不依赖用户名匹配来链接两类数据。最后,尽管数据集提供了高质量的通信网络,但其规模庞大且时间跨度长,进一步的分析和建模仍面临计算复杂性和数据稀疏性的挑战。
常用场景
经典使用场景
Evolution DWM数据集广泛应用于研究暗网市场的动态行为,尤其是通过分析论坛帖子、市场列表和用户互动来揭示非法商品交易的模式和趋势。该数据集提供了从2014年至2015年期间Evolution暗网市场的详细记录,涵盖了超过50万条论坛帖子和8万多个市场列表,为研究者提供了丰富的时间序列数据,用于分析市场参与者的行为变化。
解决学术问题
该数据集解决了暗网市场研究中数据稀缺和质量低下的问题。通过提供结构化的数据,研究者能够更有效地分析暗网市场的运作机制、用户行为以及非法交易的动态变化。此外,数据集还包含了时间加权的通信网络,使得研究者能够探索论坛用户之间的互动如何影响市场表现,从而为预测未来成功的市场参与者提供了新的方法。
衍生相关工作
基于Evolution DWM数据集,许多经典研究工作得以展开。例如,研究者利用该数据集开发了预测模型,用于识别未来可能成功的市场参与者。此外,该数据集还被用于分析暗网市场的网络结构,揭示了用户之间的复杂互动模式。这些研究不仅推动了暗网市场领域的学术进展,还为执法机构提供了实用的分析工具。
以上内容由遇见数据集搜集并总结生成



