Mimir crawled dataset

Name: Mimir crawled dataset
Creator: IMDEA Networks Institute, Universidad Carlos III de Madrid
Published: 2025-04-23 23:59:16
License: 暂无描述

arXiv2025-04-23 更新2025-04-25 收录

下载链接：

http://arxiv.org/abs/2504.16836v1

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由Mimir爬虫收集，包含超过25k个站点的页面。数据集的创建是为了研究Tor网络的拓扑结构，以及不同类型内容的分布情况。通过独特的爬取策略，该数据集避免了重复内容的收录，首次为Tor网络中的隐藏服务提供了一个无镜像的网络分析视角。数据集主要用于网络安全和犯罪活动的研究，特别是针对Tor网络中的暗网内容分析。

This dataset was collected by the Mimir crawler, containing pages from over 25,000 sites. It was developed to study the topology of the Tor network and the distribution of various types of content. Through a unique crawling strategy, this dataset avoids the inclusion of duplicate content, providing the first mirror-free network analysis perspective for hidden services within the Tor network. This dataset is primarily utilized for research on cybersecurity and criminal activities, particularly for dark web content analysis within the Tor network.

提供机构：

IMDEA Networks Institute, Universidad Carlos III de Madrid

创建时间：

2025-04-23

搜集汇总

数据集介绍

构建方式

Mimir crawled dataset的构建采用了创新的爬取方法，通过系统性地从地下论坛提取关键词，自动查询Tor搜索引擎以获取初始种子。爬虫采用广度优先策略，优先访问种子页面中的外部.onion链接，以最大化网络覆盖范围。数据提取过程包括页面元信息、链接列表、原始HTML等内容，并采用动态工作负载算法实现并行爬取。

特点

该数据集的核心特点在于其首次系统性地识别并过滤了Tor网络中的镜像内容（占比约82%），通过混合哈希算法（MD5和CTPH）实现了高精度镜像检测（97%准确率）。数据集包含24,911个.onion站点，涵盖44种语言（88%为英文），通过机器学习分类器将内容划分为11个类别，其中74.4%与网络犯罪相关。数据集特别突出了暗网的碎片化拓扑结构，识别出1,040个互不连通的子网络。

使用方法

该数据集适用于暗网拓扑结构分析、网络犯罪研究和匿名网络测量。使用时需先通过镜像检测算法去重，随后可利用构建的页面图模型进行网络分析。内容分类模块支持对英文站点进行自动化类别标注（如假冒商品、毒品交易等）。案例研究表明，该数据集特别适合检测儿童虐待内容，其定制化关键词搜索算法可实现91.66%的准确率。使用时需遵守伦理规范，避免下载媒体内容，所有分析应基于提取的文本数据。

背景与挑战

背景概述

Mimir crawled dataset是由Alfonso Rodriguez Barredo-Valenzuela、Sergio Pastrana Portillo和Guillermo Suarez-Tangil等研究人员在IMDEA Networks Institute和Universidad Carlos III de Madrid的联合研究中创建的。该数据集专注于对Tor隐藏服务（.onion服务）进行大规模分析，旨在解决Tor网络中内容匿名性、动态性和不可索引性带来的研究挑战。通过开发Mimir爬虫，研究人员自动收集并访问了超过25,000个站点的页面数据，为Tor网络的拓扑结构、内容分布以及镜像站点的影响提供了新的见解。该数据集对网络安全、匿名通信和暗网研究领域具有重要影响力，尤其是在理解网络犯罪活动和非法内容分布方面。

当前挑战

Mimir数据集在解决Tor网络内容分析的挑战方面面临多重困难。首先，Tor网络的动态性和匿名性使得内容获取和索引极为困难，传统搜索引擎无法有效索引.onion服务。其次，构建过程中需应对网络的高波动性，许多隐藏服务可能仅在短时间内可用，增加了数据收集的复杂性。此外，数据集构建还需处理大量镜像站点（约82%的内容为复制内容），这对内容分类和网络拓扑分析提出了额外挑战。最后，法律和伦理问题限制了多媒体内容的获取，尤其是在涉及非法内容（如儿童虐待材料）时，需确保研究符合法律要求且不危害研究人员。

常用场景

经典使用场景

Mimir crawled dataset 主要用于对Tor隐藏服务进行大规模的网络拓扑和内容分析。该数据集通过自动爬取和访问超过25,000个站点的页面，为研究人员提供了对暗网深度和可达性的深入理解。数据集特别适用于分析暗网中的内容复制现象（镜像站点）以及识别与网络犯罪相关的内容。

衍生相关工作

Mimir数据集衍生了一系列相关研究，特别是在暗网测量和内容分析领域。例如，基于该数据集的镜像检测算法被进一步优化和应用于其他网络安全研究中。此外，数据集的机器学习分类器也被用于开发更高级的内容识别工具，帮助自动分类暗网中的各种非法和服务。

数据集最近研究