CAPP-130

github2024-01-26 更新2024-05-31 收录

下载链接：

https://github.com/EnlightenedAI/CAPP-130

下载链接

链接失效反馈

官方服务：

资源简介：

CAPP-130包含130个来自流行应用的中文隐私政策，这些政策由法律专家精心注释和解释，产生了52,489个注释和20,555个重写句子。该数据集旨在帮助用户理解和总结隐私政策，以保护个人隐私信息。

CAPP-130 comprises 130 Chinese privacy policies from popular applications, meticulously annotated and interpreted by legal experts, resulting in 52,489 annotations and 20,555 rewritten sentences. This dataset is designed to assist users in understanding and summarizing privacy policies to safeguard personal privacy information.

创建时间：

2023-08-21

原始信息汇总

数据集概述

数据集名称

CAPP-130: A Corpus of Chinese Application Privacy Policy Summarization and Interpretation

数据集内容

隐私政策数量: 130个中文隐私政策
注释数量: 52,489个注释
重写句子数量: 20,555个重写句子

数据集特点

由法律专家精心注释和解释，确保内容的准确性和专业性。
包含多种数据实践类别，如信息收集、权限获取、共享与披露等。

数据集应用

用于训练和测试TCSI-pp框架，该框架能够根据用户选择的话题类别提取相关句子，并使用生成模型重写这些句子，以便公众理解。

数据集统计信息

基本统计

数据实践类别: 12种
各类别数量: 从6967（信息收集）到110（运营终止）不等
各类别百分比: 从0.3%（运营终止）到52.8%（重要）不等

预切片数据信息

用于训练TCSI-pp的数据集: 包括重要识别数据集、风险识别数据集、话题识别数据集和重写句子数据集。
各数据集样本数量: 训练、验证和测试样本数量详细列出。

TCSI-pp框架

功能

提取与用户指定话题相关的句子。
使用生成模型重写句子，强调可能的风险内容，提高公众理解度。

模型使用

提供多种分类模型（如RoBERTa, BERT等）用于重要性和风险识别。
提供生成模型（如mT5, Bert2Bert等）用于句子重写。

评估指标

分类模型评估指标包括F1分数。
重写模型评估指标包括ROUGE, Bert-score等。

TCSI-pp-zh工具

功能

结合最有效的RoBERTa和mT5模型，用于中文应用隐私政策的摘要生成。
实验表明，TCSI-pp-zh在摘要生成任务中优于GPT-4和其他模型。

使用方法

提供详细的训练和测试代码示例，用户可根据需要调整参数。

引用信息

如果使用本数据集或代码，请引用相关文献。

搜集汇总

数据集介绍

构建方式

CAPP-130数据集的构建过程体现了对隐私政策文本的深度解析与重构。该数据集包含了130份来自流行应用的中文隐私政策，这些政策经过法律专家的细致标注与解释，生成了52,489条标注和20,555条重写句子。通过TCSI-pp框架，首先提取与用户指定主题相关的句子，随后利用生成模型将这些句子重写为易于理解的摘要。这一过程不仅确保了数据的专业性和准确性，还为后续的文本分析提供了坚实的基础。

特点

CAPP-130数据集的特点在于其精细的标注和广泛的应用覆盖。数据集涵盖了信息收集、权限获取、共享与披露、使用、存储、安全措施、特殊受众、管理、联系信息、授权与修订、运营终止等多个数据实践类别，共计52,489条标注。此外，数据集还包含了19,570条重写句子，这些句子通过生成模型进行了清晰简洁的重构，便于公众理解。数据集的多样性和全面性使其成为研究隐私政策文本的理想选择。

使用方法

CAPP-130数据集的使用方法灵活多样，适用于多种文本分析任务。用户可以通过TCSI-pp框架进行主题控制下的摘要与解释，首先使用分类模型提取与指定主题相关的句子，随后利用生成模型进行句子重写。数据集提供了预切分的数据，包括重要识别、风险识别和主题识别等子数据集，用户可以根据需要选择相应的模型进行训练和测试。此外，数据集还提供了详细的注释指南和预训练模型，便于用户快速上手并进行深入研究。

背景与挑战

背景概述

CAPP-130数据集由Pengyun Zhu等研究人员于2023年提出，旨在解决中文应用隐私政策难以理解的问题。该数据集包含130份来自热门应用的中文隐私政策，经过法律专家的细致标注和解释，生成了52,489条标注和20,555条改写后的句子。CAPP-130的构建基于TCSI-pp框架，该框架通过分类模型提取用户指定主题的相关句子，并利用生成模型将其改写为易于理解的摘要。这一数据集不仅为隐私政策的自动摘要和解释提供了高质量的训练数据，还推动了自然语言处理在法律文本理解领域的应用。

当前挑战

CAPP-130数据集在构建和应用过程中面临多重挑战。首先，隐私政策文本通常包含大量法律术语和技术性语言，如何准确提取和改写这些内容以使其易于理解，是一个复杂的自然语言处理问题。其次，数据集的标注过程需要法律专家的深度参与，以确保标注的准确性和一致性，这对资源投入和协调提出了较高要求。此外，尽管TCSI-pp框架在摘要生成任务中表现出色，但其性能依赖于高质量的训练数据，如何进一步提升模型的泛化能力和鲁棒性，仍需进一步研究。最后，隐私政策的内容和格式随时间和法律环境的变化而不断更新，如何保持数据集的时效性和适用性，也是一个持续的挑战。

常用场景

经典使用场景

在隐私政策研究领域，CAPP-130数据集为研究者提供了一个详尽的资源，用于分析和理解中文应用程序隐私政策的结构和内容。通过该数据集，研究者能够深入探讨隐私政策中的法律术语和技术细节，从而提升公众对隐私政策的理解。

实际应用

在实际应用中，CAPP-130数据集被用于开发自动化工具，如TCSI-pp-zh，该工具能够自动提取和重写隐私政策中的关键信息，帮助用户快速理解隐私政策内容，从而做出更明智的决策。

衍生相关工作

基于CAPP-130数据集，研究者开发了多种模型和工具，如RoBERTa和mT5模型，这些模型在隐私政策摘要和解释任务中表现出色。此外，该数据集还促进了相关领域的研究，如自然语言处理和法律文本分析。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集