Tracking the Trackers
收藏OpenDataLab2026-05-24 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/Tracking_the_Trackers
下载链接
链接失效反馈官方服务:
资源简介:
跟踪跟踪器是对万维网上第三方跟踪器的大规模分析。我们从CommonCrawl 2012语料库的35亿多个网页中提取第三方嵌入,并将这些嵌入汇总到包含4100万多个域中的1.4亿多个第三方嵌入的数据集中。我们提供了最近对web上第三方跟踪器的大规模分析中使用的数据。我们创建了一个提取器,用于从HTML页面中查找嵌入的第三方资源,并在CommonCrawl 2012 web爬网中包含的35亿网页上运行它。
提供机构:
OpenDataLab
创建时间:
2022-05-23
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集是对万维网上第三方跟踪器的大规模分析,基于CommonCrawl 2012语料库的35亿网页提取了4100万域中的1.4亿第三方嵌入。它由柏林工业大学等机构于2016年发布,旨在提供网络跟踪研究的基准数据。
以上内容由遇见数据集搜集并总结生成



