data-broker-opt-out-pages.csv

github2025-08-12 更新2025-08-14 收录

下载链接：

https://github.com/the-markup/investigation-data-broker-opt-out-pages

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集记录了499个URL的测试结果，包括公司名称、原始URL、检查的URL、最终URL等信息，用于分析数据经纪人网站如何隐藏其删除个人信息页面。

This dataset records the test results of 499 URLs, including company names, original URLs, checked URLs, and final URLs, and is intended for analyzing how data broker websites conceal their pages for deleting personal information.

创建时间：

2025-08-07

原始信息汇总

数据集概述

数据集来源

数据集来自加州隐私保护局（California Privacy Protection Agency）的2025年数据经纪人注册表。

数据集内容

包含499个唯一链接，指向数据经纪人网站上关于如何删除个人信息和行使CCPA隐私权的页面。
数据集记录了35个数据经纪人网站通过技术手段（如robots meta标签、X-Robots-Tag HTTP头、robots.txt文件）隐藏其页面不被搜索引擎发现的情况。

数据文件

data/data-broker-opt-out-pages.csv：139KB，500行，包含以下字段：
- order_original：原始下载中的记录顺序
- company_name：公司名称
- hostname_original：原始URL的主机名
- hiding_found：是否使用了隐藏技术
- hiding_stopped_confirmed_at：确认停止隐藏的日期
- url_original：原始下载的页面URL
- url_checked：检查隐藏的URL
- url_final：浏览器最终渲染的URL
- url_edited：是否编辑了原始URL
- server_redirected：是否存在服务器重定向
- result_confirmed：是否手动确认了脚本的发现
- meta_tag：robots meta标签内容
- x_robots_tag：X-Robots-Tag HTTP头内容
- robots_txt_restricts：robots.txt文件是否限制了搜索引擎访问
- status：网页请求状态
- error_status_details：错误状态的详细信息
- collects_minors_data：是否收集未成年人数据
- collects_location_data：是否收集位置数据
- collects_reproductive_data：是否收集生殖健康数据
- other_company_names_that_use_url_original：使用相同原始URL的其他公司名称

其他数据

数据集还包括35个网站的截图和HAR文件，记录网络活动，位于data/artifacts/文件夹。

许可证

数据集采用Apache License 2.0许可证，详细信息见Apache License 2.0。

搜集汇总

数据集介绍

构建方式

在数字隐私保护领域，数据经纪人如何隐藏用户数据删除指令页面是一个关键问题。该数据集基于加州隐私保护局2025年数据经纪人注册表，研究人员提取了499个唯一链接，通过自动化脚本检测了机器人元标签、X-Robots-Tag HTTP头和robots.txt文件三种常见隐藏技术。为确保数据准确性，团队对80个URL进行了人工修正，包括域名调整和拼写纠错，最终识别出35个采用隐藏技术的网站。

特点

该数据集以严谨的实证研究为特色，不仅包含原始注册表数据，还整合了详细的网页技术检测结果。每条记录包含16个特征字段，涵盖从公司名称到各类隐私数据收集标识等关键信息。特别值得注意的是，数据集还包含HAR网络活动记录文件和网页截图等多媒体证据，为研究数字隐私实践提供了多维度分析基础。

使用方法

研究者可通过分析数据集中的hiding_found字段快速识别采用隐藏技术的公司，而meta_tag和x_robots_tag字段则揭示了具体的技术实现方式。status和error_status_details字段有助于评估网页可访问性，三个collects_*字段则为研究特定敏感数据的收集模式提供了便利。配套的HAR文件可使用主流浏览器或专用分析工具进行深入网络行为分析。

背景与挑战

背景概述

数据集data-broker-opt-out-pages.csv由The Markup与CalMatters于2025年联合创建，基于加州隐私保护机构(CPPA)的年度数据经纪人注册表。该数据集旨在揭露数据经纪人如何通过技术手段规避加州消费者隐私法案(CCPA)的规定，隐藏用户删除个人信息的操作页面。研究人员通过分析499个数据经纪人提交的链接，系统性地检测了robots元标签、X-Robots-Tag HTTP头部和robots.txt文件三种常见的搜索引擎屏蔽技术。这项研究为数字隐私保护领域提供了重要实证数据，揭示了企业在合规表象下实际存在的隐私权规避现象。

当前挑战

该数据集面临双重挑战：在领域层面，需解决数字时代隐私权保护与商业利益之间的根本矛盾，特别是当企业采用技术手段规避法律要求时，如何有效监管成为难题；在构建层面，研究人员需处理大量无效或错误URL（约16%需要人工修正），区分真正规避行为与正当技术使用，并应对数据经纪人在研究过程中动态修改屏蔽策略的行为。此外，第三方托管内容与自主页面的技术区分也增加了分析复杂度。

常用场景

经典使用场景

在隐私保护与数据治理领域，该数据集为研究数据经纪商如何规避搜索引擎索引其数据删除页面提供了关键实证基础。通过分析499家经纪商的网页技术屏蔽行为，研究者能够系统性地识别出35家采用robots meta标签或robots.txt文件隐藏隐私页面的案例，这种场景常被用于检验《加州消费者隐私法案》(CCPA)合规性的实际执行效果。

衍生相关工作

基于该数据集的技术路径，斯坦福网络政策中心后续开发了PrivacyOptOutMonitor开源工具，实现了对全美数据经纪商的持续性合规监测。麻省理工科技评论则延伸研究了robots.txt滥用现象，发现12%的金融服务机构存在类似规避行为。这些衍生研究共同推动了OECD《2026年数据流动性准则》中搜索引擎爬虫条款的修订。

数据集最近研究