five

ProtoConsent Data

收藏
github2026-04-25 更新2026-04-26 收录
下载链接:
https://github.com/ProtoConsent/data
下载链接
链接失效反馈
官方服务:
资源简介:
按数据处理目的整理的域名阻止列表:广告、分析、个性化、第三方服务、高级跟踪和安全。这些列表允许您根据域名的存在目的选择阻止内容,而不仅仅是根据其内容。

Domain block lists organized by data processing purposes: advertising, analytics, personalization, third-party services, advanced tracking, and security. These lists enable users to select content to block based on the intended purpose of the domain, rather than just its content.
创建时间:
2026-04-07
原始信息汇总

ProtoConsent 数据集概述

数据集简介

ProtoConsent 是一个按数据处理目的组织的追踪器域名拦截列表数据集。与传统拦截列表不同,该数据集基于域名存在的原因(目的)而非域名类型进行组织,支持用户根据需求选择性地拦截特定类型的追踪。

  • 域名数量: 250K+
  • 目的分类: 6 类
  • 格式支持: 5 种
  • 更新频率: 每周更新
  • 许可证: GPL-3.0+

目的分类

目的 描述
Ads(广告) 广告、再营销和联盟营销活动;可能包含行为画像
Analytics(分析) 测量、统计和使用分析,即使与营销无直接关联
Personalization(个性化) 内容/用户体验个性化、推荐、画像和行为 A/B 测试
Third Parties(第三方) 与第三方、合作伙伴或集团公司在核心服务之外共享或合并数据
Advanced Tracking(高级追踪) 使用高级或非 Cookie 技术跨站点或会话识别/追踪设备
Security(安全) 钓鱼、诈骗、恶意软件和恶意域名

支持格式

格式 兼容工具
ABP uBlock Origin、Adblock Plus、Ghostery
AdGuard AdGuard 浏览器扩展
Hosts Pi-hole、AdGuard Home、/etc/hosts
Domains NextDNS、ControlD、RethinkDNS
JSON MV3 浏览器扩展、自定义工具

订阅列表

组合列表(推荐)

配置文件 包含目的
Core(核心) Ads + Analytics + Personalization + Third Parties + Advanced Tracking
Full(完整) 全部 6 类目的(含 Security)

每个组合列表均提供 5 种格式(ABP、AdGuard、Hosts、Domains、JSON),可通过 jsDelivr CDN 或 GitHub 直链订阅。

按目的独立列表

支持单独订阅以下列表:

  • Ads
  • Analytics
  • Personalization
  • Third Parties
  • Advanced Tracking
  • Security

每个目的列表均提供 5 种格式订阅链接。


快速开始示例

Pi-hole / AdGuard Home(拦截所有追踪)

https://cdn.jsdelivr.net/gh/ProtoConsent/data@main/lists/hosts/protoconsent_core.txt

uBlock Origin(自定义过滤列表)

https://cdn.jsdelivr.net/gh/ProtoConsent/data@main/lists/abp/protoconsent_core.txt

AdGuard(自定义过滤器)

https://cdn.jsdelivr.net/gh/ProtoConsent/data@main/lists/adguard/protoconsent_core.txt

NextDNS / ControlD(纯域名列表)

https://cdn.jsdelivr.net/gh/ProtoConsent/data@main/lists/domains/protoconsent_core.txt


增强数据(ProtoConsent 扩展)

enhanced/ 目录包含为 ProtoConsent 浏览器扩展提供的运行时数据:

  • 第三方拦截列表(JSON 格式)
  • 元素隐藏规则
  • CMP 横幅特征签名
  • CNAME 追踪器映射
  • URL 参数移除数据
  • 区域过滤器

脚本工具

所有脚本位于 scripts/ 目录,需 Node.js 18+,无额外依赖:

脚本 功能
generate-full-lists.js 合并包与增量数据,生成完整列表(5 种格式)
convert.js 获取上游拦截列表,解析去重,输出 JSON
convert-cosmetic.js 获取 EasyList 元素隐藏规则,输出 JSON
convert-cname.js 获取 AdGuard CNAME 追踪器列表,建立索引映射
convert-autoconsent.js 获取 Autoconsent 规则,构建 CMP 签名
convert-tracking-params.js 获取追踪参数过滤器,输出 JSON
convert-regional.js 获取区域过滤器,输出拦截+隐藏规则
generate-manifest.js 读取增强文件元数据,生成配置文件
搜集汇总
数据集介绍
main_image_url
构建方式
ProtoConsent Data 是一套基于数据处理目的而精心构建的域名拦截列表,其构建方式超越了传统按来源或威胁类型分类的范式。该数据集通过系统性梳理与整合,将超过25万个域名按照其背后的数据用途逻辑进行归类,形成了涵盖广告、分析、个性化、第三方服务、高级追踪及安全六大类别的精细划分。项目依托GitHub Actions实现每周自动更新,并通过一系列脚本(如convert.js)从EasyList、AdGuard等上游源抓取列表,经过去重、格式转换和目的标签映射,最终生成ABP、AdGuard、Hosts、Domains和JSON五种主流格式的拦截文件,确保了数据源的时效性与构建流程的自动化。
特点
该数据集最核心的特点在于其开创性的“按用途分类”架构,使用户能够基于域名的数据处理目的(即“为什么”)而非其表面身份(即“是什么”)来进行精准的隐私管控。这种设计深度对齐了GDPR、CCPA等隐私法规对数据用途的划分逻辑,提供了从单一日标(如仅拦截广告)到全方位防护(包含安全)的灵活组合选择。数据集不仅提供了包含全部六大类别的Core和Full两种聚合列表,还首次公开了每个类别的独立子列表,赋予了用户前所未有的精细化控制能力,同时额外包含了面向ProtoConsent浏览器扩展的增强数据,如CMP横幅签名和CNAME追踪映射。
使用方法
ProtoConsent Data 的使用方式极为便捷且兼容性广泛,用户无需复杂配置即可集成到各类隐私保护工具中。对于普通用户,可以直接在Pi-hole或AdGuard Home等DNS sinkhole中添加Core或Full列表的Hosts格式链接以实现全面拦截;使用uBlock Origin或AdGuard扩展的用户,则可通过订阅自定义过滤器导入对应的ABP或AdGuard格式链接。追求极致精细化控制的用户,可以单独选择六大类中的任一目的子列表,例如仅订阅广告列表以避免影响网站分析功能。此外,该数据集还提供JSON格式,便于开发者将其集成到基于MV3的浏览器扩展或其他定制化工具中,实现面向隐私法规的同意感知型拦截策略。
背景与挑战
背景概述
ProtoConsent Data 数据集诞生于网络隐私保护意识日益高涨的时代背景下,旨在应对传统跟踪列表仅按来源或威胁类型分类的局限。该项目由 ProtoConsent 团队创建,其核心研究问题是如何依据数据处理目的对域名进行精细化分类,从而使用户能够基于隐私法规(如 GDPR、CCPA)所定义的用途粒度进行选择性拦截。该数据集收录超过25万个域名,覆盖广告、分析、个性化、第三方服务、高级跟踪及安全防护六大类别,并提供五种格式以满足不同广告拦截器、DNS 沉洞及浏览器扩展的需求。其创新性的按目的分类范式为隐私保护工具开发提供了更灵活、合规的拦截策略,对推动基于用户同意的网络隐私管理具有重要影响力。
当前挑战
该数据集所解决的领域挑战在于克服传统拦截列表单一聚合的粗粒度模式,实现按数据用途的精细化管理,这在隐私法规要求差异化处理用户数据(如允许分析但拦截广告)的场景中尤为关键。构建过程中面临的挑战包括:从众多上游列表(如 EasyList、AdGuard 等)中准确解析并归类域名至对应用途类别,需要处理来源异质性及分类歧义;跨列表的域名去重与版本一致性维护要求高效的数据融合算法;每周通过 GitHub Actions 自动更新的流程需应对上游列表变动带来的同步延迟与错误扩散风险;此外,支持五种输出格式的转换管线增加了系统复杂性和验证负担。
常用场景
经典使用场景
在隐私保护与网络治理的研究领域,ProtoConsent Data作为一套按数据处理目的分类的领域封锁列表,为细粒度追踪控制提供了创新性解决方案。其经典使用场景在于,研究者可依据广告投放、分析统计、个性化定制、第三方服务、高级追踪及安全防护这六类不同目的,精准订阅所需封锁子集,从而突破传统单一列表的粗放式封锁范式。该数据集通过覆盖超过25万个域名,并兼容ABP、AdGuard、Hosts、Domains及JSON五种格式,使得从浏览器扩展到DNS黑洞设备的多层级实验环境均可无缝接入,成为探索基于目的的用户隐私偏好表达机制的理想基准。
实际应用
在实际部署中,ProtoConsent Data展现出从个人设备到企业网络的广泛适用性。面向普通用户,通过Pi-Hole、AdGuard Home等DNS沉洞工具订阅核心列表,即可实现全天候的追踪请求拦截,显著降低页面加载延迟与数据流量消耗。对于隐私至上的用户,全量列表的启用能有效防御钓鱼与恶意域名威胁。在企业场景中,信息安全团队可利用JSON格式导入自定义浏览器扩展,依据部门合规需求差异化配置封锁策略——例如为市场团队保留分析目的而屏蔽广告追踪,从而在保障业务数据流动的同时满足监管要求。此外,其每周自动更新的机制确保了对抗新型追踪技术时的时效性。
衍生相关工作
该数据集作为ProtoConsent生态系统的基础组件,已催生多项衍生性研究工作。首先,其增强目录中的CNAME追踪器映射表和URL参数剥离数据,为浏览器指纹与跨站追踪识别研究提供了标准化的测试样本集。其次,基于Autoconsent规则生成的CMP横幅签名,被用于自动化同意管理工具的鲁棒性评估,衍生出检测反模式追踪手法的新范式。此外,按区域划分的过滤规则使跨地域隐私保护差异的比较分析成为可能。这些工作共同构建了从追踪目的分类、流量重定向检测到用户控制界面优化的全链路研究框架,巩固了ProtoConsent Data在计算隐私科学中的地基角色。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作