PolicyGapper数据集
收藏arXiv2026-04-17 更新2026-04-21 收录
下载链接:
https://github.com/Mobile-IoT-Security-Lab/PolicyGapper
下载链接
链接失效反馈官方服务:
资源简介:
PolicyGapper数据集由IMT卢卡高等研究学院等机构联合构建,旨在检测Google Play应用数据安全声明(DSS)与隐私政策(PP)的一致性。该数据集涵盖2025年第三季度330款热门应用,覆盖Google Play全部33个类别,包含2,689条遗漏声明记录(含2,040条数据收集和649条数据共享问题)。数据通过自动化爬取和LLM分析流程生成,经人工验证F1值达0.76,主要用于隐私合规性审计领域,为开发者提供自动化检测工具以解决DSS-PP不一致导致的监管风险问题。
The PolicyGapper dataset was jointly constructed by institutions including IMT School for Advanced Studies Lucca and other partners, aiming to detect the consistency between Data Safety Statements (DSS) and Privacy Policies (PP) of Google Play applications. This dataset covers 330 popular applications from the third quarter of 2025, spans all 33 categories on Google Play, and contains 2,689 missing declaration records, including 2,040 data collection-related issues and 649 data sharing-related issues. The dataset was generated through an automated crawling and LLM-based analysis pipeline, and achieved an F1 score of 0.76 after manual validation. It is primarily used in the field of privacy compliance auditing, providing automated detection tools for developers to address regulatory risks caused by inconsistencies between DSS and PP.
提供机构:
IMT卢卡高等研究学院; 热那亚大学·DIBRIS; 维罗纳大学
创建时间:
2026-04-17
原始信息汇总
PolicyGapper 数据集概述
数据集基本信息
- 数据集名称:PolicyGapper
- 核心目标:提供一种基于多提示大语言模型(LLM)协作的自动化移动应用隐私合规分析方法。
- 适用对象:Android 应用程序包。
- 分析基础:无需应用程序源代码或额外信息,仅基于公开信息进行分析。
方法概述
该方法自动比较公开应用商店(如 Google Play 的“数据安全”部分)中的隐私声明与应用程序隐私政策中描述的实际数据收集和共享行为。通过集成多个专门的 LLM 提示和结构化的预处理/后处理流程,旨在检测商店元数据中被遗漏的声明。
系统架构与模块
系统由五个协作模块组成,工作流程如图所示。
1. 爬虫模块
收集后续分析所需的所有公开可用信息。
- 数据安全提取器:使用应用程序包名从 Google Play 商店页面提取元数据,重点解析数据安全部分,输出包含所有声明数据类型的结构化 JSON 文件。
- 隐私政策提取器:使用从 Google Play 提取的隐私政策 URL,启动具有自定义
User-Agent的无头浏览器,等待 3 秒以加载 JavaScript 内容,移除 Cookie 横幅,并将渲染的页面导出为 PDF 文件。
2. LLM 预处理模块
处理下载的隐私政策,仅提取相关陈述。
- 分离有关数据收集和数据共享的陈述。
- 使用两个专用提示:
Sharing Statement Analysis PromptCollection Statement Analysis Prompt
3. LLM 分析器模块
核心分析模块,用于比较:
- 相关的隐私政策陈述,以及
- 解析后的 Google Play 数据安全声明。
- 目标:识别关于数据收集和共享的遗漏或不一致的披露。
- 分析结构:考虑 Google Play 官方文档中定义的所有 39 种数据类型和 14 个类别。使用六个专用提示(三个用于收集,三个用于共享):
- 用户数据(例如,个人信息、联系人、文件)
- 技术数据(例如,设备 ID、性能指标)
- 位置数据
- 输出:六个 JSON 文件,代表潜在的遗漏——三个用于收集,三个用于共享。
4. 合并结果模块
将分析器的原始结果聚合为统一输出。
- 为收集遗漏生成单个 JSON 文件。
- 为共享遗漏生成单个 JSON 文件。
- 确保所有候选遗漏都在一致的文档约束下得到验证。
5. LLM 后处理模块
对候选遗漏进行最终验证。
- 输出格式:包含
omitted_declarations(遗漏声明)和exclude_declaration(排除声明)列表的 JSON 对象。 - 处理阶段:
- 语义连贯性检查:确保每个
data_type在逻辑上得到引用的隐私政策摘录的支持。不连贯的配对被标记为误报并移除。 - 文档约束检查:验证是否符合 Google Play 官方披露规则。排除合法的非披露情况,例如:
- 设备上处理或匿名化数据。
- 端到端加密数据。
- WebView 特定收集。
- 不被视为“共享”的传输(例如,服务提供商、法律义务、用户同意)。
- 语义连贯性检查:确保每个
输出文件摘要
| 阶段 | 输出文件 | 描述 |
|---|---|---|
| 爬虫 | DSS/{pkgName}.json |
Google Play 提取的信息 |
| 爬虫 | PPP/{pkgName}.pdf |
渲染的隐私政策页面 |
| 预处理 | AnalysisResults/PreAnalysisResultsCollection/{pkgName}.json |
提取的收集陈述 |
| 预处理 | AnalysisResults/PreAnalysisResultsShare/{pkgName}.json |
提取的共享陈述 |
| 分析器 | AnalysisResults/AnalysisResultsCollection/{pkgName}_{CollectionDeviceData/CollectionPersonalInfo/CollectionUserGeneratedData}.json |
基于类别的潜在遗漏 |
| 分析器 | AnalysisResults/AnalysisResultsShare/{pkgName}_{ShareDeviceData/SharePersonalInfo/ShareUserGeneratedData}.json |
基于类别的潜在遗漏 |
| 合并 | AnalysisResults/AnalysisResultsCollection/{pkgName}.json |
合并的候选遗漏(收集) |
| 合并 | AnalysisResults/AnalysisResultsShare/{pkgName}.json |
合并的候选遗漏(共享) |
| 后处理 | AnalysisResults/AnalysisResultsShare/{pkgName}_COLLECTION_VALIDATED.json |
验证后确认的遗漏 |
| 后处理 | AnalysisResults/AnalysisResultsShare/{pkgName}_SHARE_VALIDATED.json |
验证后确认的遗漏 |
关键优势
- 无需源代码:完全基于公开信息工作。
- 语言无关:支持多语言隐私政策。
- 模块化:每个模块可以独立运行或协同工作。
- LLM 引导推理:多个提示提高了精确度并降低了幻觉风险。
- 合规驱动过滤:遵守 Google Play 的官方要求。
使用要求与方式
- 核心要求:Docker。
- Python 版本:3.11+。
- 支持平台:Linux,macOS,Windows。
- 使用步骤:
- 构建前:在
docker-compose.yml中插入您的 API KEY。 - 构建:执行
docker compose up --build。 - 运行前:将要分析的
PACKAGE_NAME插入PolicyGapper/input/packages.txt。 - 运行:执行
docker compose run --rm dss-validator bash -c "bash ./run.sh "。
- 构建前:在
- 结果位置:
./AnalysisResults文件夹。
搜集汇总
数据集介绍

构建方式
在移动应用隐私合规性日益受到关注的背景下,PolicyGapper数据集通过系统化采集与处理流程构建而成。该数据集源自2025年第三季度Google Play商店中排名靠前的330款应用,覆盖全部33个应用类别。构建过程采用自动化爬虫技术,分别从Google Play页面提取数据安全部分(DSS)内容,并通过隐私政策链接获取对应的隐私政策文本。为确保数据质量,研究团队集成了Cookie横幅处理策略,并利用大型语言模型对文本进行预处理,提取与数据收集和共享相关的声明,最终形成结构化JSON格式的数据集。
特点
PolicyGapper数据集的核心特点在于其专注于隐私政策与数据安全部分之间的一致性验证。数据集包含2689个被忽略的声明,涉及数据收集与共享实践,其中近似位置、网页浏览历史和电子邮件地址成为最常被遗漏的数据类型。该数据集不仅规模较大,覆盖了高安装量的流行应用,还通过手动验证子集确保了标注可靠性,平均F1分数达到0.76。此外,数据集公开了完整的复制包,包括源代码、提示词和结果,为后续研究提供了高度可复现的基础。
使用方法
该数据集主要用于自动化检测隐私政策与数据安全部分之间的不一致性。研究人员或开发者可通过提供的开源工具PolicyGapper,输入应用包名即可自动执行爬取、预处理、分析和后处理四个阶段。分析过程利用多提示大型语言模型管道,识别隐私政策中声明但未在数据安全部分披露的数据类型。数据集还可用于评估隐私合规性工具的效能,支持横向比较不同模型或方法在一致性检测任务上的表现,并为应用商店审核流程的改进提供实证依据。
背景与挑战
背景概述
随着移动应用生态的快速发展,用户数据隐私保护成为全球监管机构与公众关注的焦点。为提升透明度,谷歌于2022年在Google Play商店强制推行数据安全章节(Data Safety Section, DSS),要求开发者以标准化格式摘要其数据实践。然而,研究表明近80%的主流应用存在DSS声明不完整或误导性问题,凸显了隐私政策(Privacy Policy, PP)与DSS之间一致性验证的迫切需求。在此背景下,由IMT卢卡高级研究学院、热那亚大学等机构的研究团队于2026年提出了PolicyGapper数据集,旨在通过大语言模型(LLM)自动化检测PP与DSS之间的声明遗漏,为隐私合规审计提供可扩展的技术基础。该数据集涵盖2025年第三季度收集的330款跨33个类别的Google Play热门应用,共识别出2,689项遗漏声明,推动了移动隐私透明化研究从人工审查向智能化分析的范式转变。
当前挑战
PolicyGapper数据集致力于解决移动应用隐私透明度验证的核心挑战,即自动化检测隐私政策与数据安全章节之间的声明不一致性。在领域问题层面,主要挑战包括:1)隐私政策文本常采用复杂法律术语与例外条款,导致机器难以准确解析数据收集与共享的具体范围;2)谷歌DSS框架对数据实践的定义存在多重豁免情形(如端到端加密、设备内处理),需结合上下文进行精细化判别;3)应用生态中普遍存在跨平台政策混淆、链接失效或版本过时等现象,增加了跨文档对齐的复杂性。在构建过程层面,挑战集中于:1)大规模爬取公开隐私政策时需处理动态网页加载、Cookie弹窗拦截等技术障碍;2)LLM分析中存在幻觉风险与输出非确定性,需通过多阶段提示工程与后处理模块提升结果可靠性;3)人工标注黄金标准数据集耗时巨大,且需兼顾谷歌官方数据分类体系与语义一致性,制约了可扩展验证的规模。
常用场景
经典使用场景
在移动应用隐私合规性研究领域,PolicyGapper数据集的核心应用场景在于自动化审计谷歌应用商店中隐私政策与数据安全章节之间的一致性。该数据集通过大规模采集2025年第三季度330款热门应用的隐私政策文本与数据安全章节声明,构建了首个基于大语言模型的跨文档一致性检测基准。研究者可借助该数据集训练或验证自动化检测模型,系统性地识别开发者未在数据安全章节中披露但在隐私政策中明确声明的数据收集与共享行为,为隐私透明度研究提供标准化评估框架。
实际应用
在产业实践中,该数据集支撑的检测工具可直接集成至应用开发流程与商店审核系统。开发者可利用该工具在应用上架前自动校验数据安全章节与隐私政策的一致性,避免因披露不全导致的合规风险与应用下架。应用商店运营商则可基于此构建自动化审查机制,提升谷歌应用商店生态系统的隐私透明度。研究显示超过95%的受测应用存在未披露声明,其中地理位置与网页浏览历史等敏感数据遗漏最为普遍,这为监管机构完善隐私标签规范提供了实证依据。
衍生相关工作
该数据集催生了隐私合规性检测领域的系列创新研究。基于其构建的PolicyGapper工具开创了基于大语言模型的跨文档一致性检测范式,后续研究相继扩展至苹果隐私标签对比分析、GDPR条款合规性验证等方向。相关方法学启发了GNChecker等结合静态动态分析的多模态检测框架,并在Polisis、PolicyLint等经典隐私政策分析系统基础上,实现了从单文档分析到跨文档语义对齐的技术跨越,为移动生态隐私治理提供了可扩展的自动化基础设施。
以上内容由遇见数据集搜集并总结生成



