Login Pages HTTP Client Hints Dataset

github2024-05-27 更新2024-06-18 收录

下载链接：

https://github.com/das-group/http-client-hints-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含2022年8月至2023年12月期间，从Tranco列表中的所有登录页面爬取的`Accept-CH` HTTP头值。数据集可用于重现关于Web上客户端提示使用的研究结果。数据从三个不同大陆（北美、欧洲、亚洲）和两个不同的互联网服务提供商（AWS和DT）爬取。

This dataset encompasses the `Accept-CH` HTTP header values crawled from all landing pages listed in the Tranco ranking between August 2022 and December 2023. It is instrumental for replicating research findings on the utilization of client hints across the web. The data was collected from three distinct continents (North America, Europe, Asia) and through two different internet service providers (AWS and DT).

创建时间：

2024-05-27

原始信息汇总

数据集概述

数据集名称

Login Pages HTTP Client Hints Dataset

数据集内容

包含2022年8月至2023年12月期间，从Tranco列表中的所有登录页面爬取的Accept-CH HTTP头信息。

数据集结构

数据集位于crawl_data_redacted文件夹内，分为四个子文件夹，对应不同的爬取区域和ISP：
- eu_otc: 德国Biere（欧洲），使用Deutsche Telekom ISP。
- eu_aws: 德国法兰克福（欧洲），使用Amazon Web Services ISP。
- ap_aws: 新加坡（亚洲），使用Amazon Web Services ISP。
- us_aws: 美国俄亥俄州Johnstown（北美），使用Amazon Web Services ISP。

文件内容

每个子文件夹包含以下文件：
- crawl_data_login_urls_only.csv: 包含所有爬取的登录URL的响应。
- crawl_data_clustered_third_party_urls_only.csv: 包含由登录URL发起的第三方URL请求的响应。
- crawl_data_trackerlist_urls_only.csv: 包含被识别为跟踪器的第三方URL的响应。

数据字段

每个数据集文件包含以下列：
- date: 爬取时间。
- login_url: 登录URL。
- login_url_hostname: 登录URL的主机名。
- url: 实际爬取的URL。
- url_hostname: URL的主机名。
- Accept-CH Values (many columns)_: Accept-CH HTTP头中的值，显示是否存在（1）或不存在（0）。

数据创建

使用2022年6月21日的Tranco列表，识别并爬取所有8M主机名的登录页面，每月记录Accept-CH HTTP头信息。

数据集引用

引用文献：Stephan Wiefling, Marian Hönscheid, and Luigi Lo Iacono: A Privacy Measure Turned Upside Down? Investigating the Use of HTTP Client Hints on the Web. In: 19th International Conference on Availability, Reliability and Security (ARES 24), Vienna, Austria (2024). doi: 10.1145/3664476.3664478

许可证

数据集及其内容根据[Creative Commons Attribution 4.0 International (CC BY 4.0)]许可。

搜集汇总

数据集介绍

构建方式

该数据集的构建基于对Tranco列表中800万个网站的登录页面进行HTTP客户端提示（Client Hints）的爬取。从2022年8月至2023年12月，研究团队在北美、欧洲和亚洲的三个不同地理位置（美国俄亥俄州约翰斯顿、德国法兰克福和比尔、新加坡）以及两个不同的互联网服务提供商（AWS和Deutsche Telekom）上，每月定期爬取这些登录页面的`Accept-CH` HTTP头信息。尽管存在技术原因导致的爬取间隙（2022年10月和2023年10月/11月），但这些间隙对整体数据的影响被认为是可以忽略的。

特点

此数据集的显著特点在于其跨地域和跨ISP的多维度数据采集，确保了数据的广泛性和代表性。数据集详细记录了每个爬取时间点的登录URL、主机名以及相关的`Accept-CH` HTTP头信息，这些信息以二进制形式（1表示存在，0表示不存在）存储，便于后续分析。此外，数据集还区分了第三方URL和追踪器URL的响应，为研究网络隐私和安全提供了丰富的数据支持。

使用方法

使用该数据集时，研究者可以访问GitHub仓库中的`crawl_data_redacted`文件夹，该文件夹按爬取区域分为四个子文件夹（`eu_otc`、`eu_aws`、`ap_aws`、`us_aws`）。每个子文件夹包含三个CSV文件，分别记录了登录URL的响应、第三方URL的响应以及被识别为追踪器的第三方URL的响应。通过这些文件，研究者可以重现关于Web上客户端提示使用情况的研究结果，并进行进一步的隐私和安全分析。

背景与挑战

背景概述

Login Pages HTTP Client Hints Dataset是由Stephan Wiefling、Marian Hönscheid和Luigi Lo Iacono在2022年8月至2023年12月期间创建的，旨在研究全球顶级网站登录页面的HTTP客户端提示（Client Hints）使用情况。该数据集基于Tranco列表中的800万个网站，通过在不同大陆和互联网服务提供商（ISP）环境下进行爬虫抓取，记录了这些网站登录页面的`Accept-CH` HTTP头信息。这一研究不仅揭示了Web隐私保护措施的实际应用情况，还为网络安全和隐私研究提供了宝贵的数据支持。

当前挑战

该数据集在构建过程中面临多重挑战。首先，跨大陆和ISP的爬虫抓取需要克服网络延迟和数据传输的不一致性。其次，由于技术原因，数据收集过程中存在两个月的爬虫间隙，尽管研究者认为这影响较小，但仍需谨慎处理。此外，数据集中登录URL的匿名化处理，虽然符合伦理标准，但也增加了数据分析的复杂性。最后，如何确保数据集的广泛应用和持续更新，以反映Web技术的最新动态，也是一项长期挑战。

常用场景

经典使用场景

在网络安全与隐私保护领域，Login Pages HTTP Client Hints Dataset 被广泛用于分析和评估网站登录页面中HTTP客户端提示（Client Hints）的使用情况。通过收集和分析不同地理位置和网络服务提供商（ISP）下的`Accept-CH` HTTP头值，研究人员能够深入探讨这些提示在实际应用中的分布和影响，从而为制定更有效的隐私保护策略提供数据支持。

实际应用

在实际应用中，Login Pages HTTP Client Hints Dataset 被用于开发和测试隐私保护工具和策略。例如，网络安全公司可以利用这些数据来评估其隐私保护产品的有效性，确保用户数据在传输过程中的安全性。此外，该数据集还可用于教育和培训，帮助网络安全专业人员更好地理解现代网络中的隐私挑战。

衍生相关工作

基于Login Pages HTTP Client Hints Dataset，许多相关研究工作得以展开。例如，有研究利用该数据集分析不同地理位置和ISP对HTTP客户端提示使用的影响，进一步探讨了网络隐私保护的区域性差异。此外，还有工作基于此数据集开发了新的隐私保护算法，旨在减少客户端提示在数据传输中的泄露风险，推动了网络安全技术的进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集