APPSI-139
收藏arXiv2026-04-30 更新2026-05-02 收录
下载链接:
https://github.com/EnlightenedAI/APPSI-139
下载链接
链接失效反馈官方服务:
资源简介:
APPSI-139是由法律专家精心标注的高质量英文隐私政策并行语料库,旨在解决隐私政策因技术术语和法律措辞导致的难以理解问题。该数据集包含139份跨领域(如购物、直播、游戏等)的隐私政策,涵盖15,692对改写后的平行文本和36,351个细粒度标注标签,涉及11类数据处理实践。数据来源于2023年Google Play和App Store下载量前100的应用程序,经去重和专家分句标注,标注一致性Kappa值达0.892。该数据集支持隐私政策摘要与解释任务,帮助用户做出知情隐私决策,并推动自然语言处理模型在法律文本可读性优化中的应用。
APPSI-139 is a high-quality English parallel corpus of privacy policies meticulously annotated by legal experts, developed to mitigate the poor comprehensibility of privacy policies arising from technical jargon and formal legal terminology. This dataset comprises 139 privacy policies spanning diverse domains such as shopping, live streaming, gaming and other sectors, containing 15,692 pairs of rewritten parallel texts and 36,351 fine-grained annotated tags that cover 11 categories of data processing practices. The corpus is built upon the top 100 apps by download count on Google Play and the App Store in 2023. After undergoing deduplication and expert sentence-level annotation, the inter-annotator agreement Kappa score of this dataset reaches 0.892. This resource supports privacy policy summarization and explanation tasks, enabling users to make informed privacy decisions and advancing the application of natural language processing models in the readability optimization of legal texts.
提供机构:
天津大学; 浙江大学; 中北大学; 东京科学研究所; 香港理工大学; 杭州高新区(滨江)区块链与数据安全研究所
创建时间:
2026-04-30
原始信息汇总
好的,根据您提供的地址和README文件,以下是该数据集详情页面的关键信息总结。
数据集概述:APPSI-139
APPSI-139 是一个专门针对英文应用程序隐私政策进行摘要和解读的平行语料库。其核心目标是帮助用户理解复杂且法律术语密集的隐私政策。
核心特色
- 专家标注:该数据集的标注工作由五位法学硕士且持有官方律师资格的专家完成,确保了标注的专业性和可靠性。标注前,所有标注员均接受了系统性培训。
- 多任务框架:项目提出了 TCSI-pp-V2 框架,这是一个多任务混合摘要模型,旨在平衡计算效率与准确性。
- 性能优势:基于该框架开发的隐私政策摘要系统,在可读性和可靠性方面优于 GPT-4o 等通用模型。
如何使用
-
安装依赖: bash pip install -r requirements.txt
-
训练模型:项目提供了基于 TCSI-pp-V2 框架的训练脚本。
python ./TCSI-pp-V2/[MODEL_NAME]_rewrite_ddp2_model.py
-
模型推理:使用以下命令运行推理。 bash python ./Infer/main.py --topic_list choose_a_topic_list --data privacy_path
附加资源
- 标注指南:详细的标注指南和示例可在仓库的
Documents/Annotation_Guidelines.png和 Annotation Examples 中找到。 - 预训练模型:基于 TCSI-pp-V2 的 mt5_mtl_model 模型已托管在 Hugging Face: https://huggingface.co/EnlightenedAI/APPSI-139/tree/main。未来所有相关模型参数也将上传至此。
- 上下文学习模板:项目提供了一个用于实验的“上下文学习指令模板”,指导模型逐句分析并生成用户友好的摘要。
更新状态
该仓库正在持续开发和更新中。
搜集汇总
数据集介绍

构建方式
APPSI-139数据集的构建始于从Google Play和App Store两大主流应用市场中,精选出139款具有代表性和多样性的热门英文应用隐私政策。为确保内容的时效性和法律合规性,这些政策文件的采集截止于2023年10月。随后,一支由法学教授和五位拥有硕士学位的执业律师组成的专家团队,基于多轮预标注实验制定了精细化的标注指南。该指南将每条政策句子划分为11个数据实践类别(如第一方收集、第三方共享等),并附加以重要性、风险性和敏感性为维度的三种特殊标记。此外,专家团队对标注为重要、敏感或存在风险的条款进行了通俗化改写,生成了15,692条平行语料。整个标注过程采用Doccano工具,并通过Cohen's Kappa系数(0.892)验证了高度的一致性。
特点
该数据集的核心特点在于其多维度、细粒度的结构化标注体系。它不仅涵盖了30,877条句子上的36,351个标注标签,覆盖了购物、直播、游戏等主流应用类型,还特别引入了“重要性”、“风险”和“敏感性”三类特殊标记,用于精准识别核心条款、潜在合规风险及敏感个人信息。尤为突出的是,数据集提供了15,692条由法律专家撰写的改写句子,将晦涩的法律术语和技术行话转化为简洁易懂的语言,平均长度缩减了26%,从根源上解决了隐私政策的“不可读性”难题。这种兼顾法律准确性与用户可理解性的设计,使其在信息抽取与文本生成任务中具有显著优势。
使用方法
APPSI-139数据集为自然语言处理研究提供了标准化的基准测试平台。在信息抽取任务中,研究人员可利用其提供的11类数据实践标签和三组特殊标记,训练高效的句子级分类模型;在文本生成领域,15,692对平行语料可直接用于微调序列到序列模型,实现从原始条款到用户友好解释的自动改写。数据集已按80:10:10的比例划分为训练、验证和测试集,便于公平比较。此外,该数据集还能支撑多任务学习与混合式摘要框架(如TCSI-pp-V2)的构建,通过共享编码层与专家模块的协同工作,在保证性能的同时显著降低计算开销,为隐私政策自动化分析提供了坚实的资源基础。
背景与挑战
背景概述
在数字化浪潮席卷全球的当下,移动应用的隐私政策成为连接用户与服务提供者的关键法律文本。然而,这些文档往往充斥着艰涩的技术术语与复杂的法律措辞,导致用户难以真正理解其个人数据的处理方式。为弥合这一鸿沟,天津大学、浙江大学等机构的研究人员于2025年联合创建了APPSI-139数据集,旨在通过专家注释的高质量英文平行语料,推动隐私政策的自动化摘要与解释。该数据集由法律专家精心标注,涵盖139份主流应用的隐私政策、15,692条改写平行语料及36,351个细粒度标注标签,为隐私政策理解领域提供了宝贵的基准资源,显著提升了文本的可读性与法律透明度。
当前挑战
APPSI-139所解决的领域问题聚焦于隐私政策的“冗长”与“费解”。现有方法多侧重于关键信息提取,却未能有效应对专业术语与复杂句式造成的理解障碍。用户在“理性忽视”与“暗黑模式”的双重作用下,往往在未充分知情的情况下草率同意条款,致使其敏感数据面临泄露或滥用风险。在构建过程中,研究者面临多重挑战:如何确保跨领域隐私政策的代表性、如何设计兼顾法律准确性与通俗性的标注指南、如何实现多标签分类与生成任务的高效协同。团队通过组织五名法学硕士专家进行系统培训与多轮预标注,最终达成0.892的Cohen's Kappa评分,确保了数据集的可靠性与专业深度。
常用场景
经典使用场景
APPSI-139作为首个面向英文应用隐私政策摘要与解读的平行语料库,其最经典的使用场景在于为自然语言处理领域提供高质量的监督训练资源,支撑隐私政策文本的自动摘要与语义改写任务。研究者可借助该语料库中由法律专家精细标注的15,692对改写语句与36,351条细粒度标签,训练模型从冗长晦涩的政策文本中精准提取关键条款,并将充斥着技术术语与法律行话的内容转化为通俗易懂的表达,从而有效消解用户面对复杂隐私协议时的认知壁垒。
实际应用
在实际应用中,基于APPSI-139语料库构建的智能摘要系统可嵌入移动应用商店、浏览器插件或隐私管理工具中,以可视化的简明摘要向用户呈现应用如何处理其个人数据。例如,当用户下载一款购物或社交应用时,系统能自动提取并标注涉及敏感信息收集、第三方共享或数据留存等高风险条款,并以改写后的平实语言展示,帮助非专业用户快速评估隐私风险。这种工具可有效减轻“理性忽视”现象,提升用户对隐私协议的实质知情度,在数据合规与用户权益保护之间架起一座可理解的桥梁。
衍生相关工作
APPSI-139的发布催生了一系列重要后续工作。研究者在此基础上提出了TCSI-pp-V2框架,通过端到端多任务学习与交替训练策略协调五个专家模块,实现了高效且可控的混合式摘要生成。该框架通过共享编码器显著降低了计算开销,同时保持了与独立单任务模型相当甚至更优的性能。此外,该语料库还激励了面向隐私政策的轻量级模型微调、跨语言可读性迁移以及多轮对话式隐私问答系统的探索,为基于法律文本的可信自然语言生成研究开辟了新路径。
以上内容由遇见数据集搜集并总结生成



