CAPP-130|隐私政策分析数据集|个人信息保护数据集

github2024-01-26 更新2024-05-31 收录

隐私政策分析

个人信息保护

下载链接：

https://github.com/EnlightenedAI/CAPP-130

下载链接

链接失效反馈

资源简介：

CAPP-130包含130个来自流行应用的中文隐私政策，这些政策由法律专家精心注释和解释，产生了52,489个注释和20,555个重写句子。该数据集旨在帮助用户理解和总结隐私政策，以保护个人隐私信息。

CAPP-130 comprises 130 Chinese privacy policies from popular applications, meticulously annotated and interpreted by legal experts, resulting in 52,489 annotations and 20,555 rewritten sentences. This dataset is designed to assist users in understanding and summarizing privacy policies to safeguard personal privacy information.

创建时间：

2023-08-21

原始信息汇总

数据集概述

数据集名称

CAPP-130: A Corpus of Chinese Application Privacy Policy Summarization and Interpretation

数据集内容

隐私政策数量: 130个中文隐私政策
注释数量: 52,489个注释
重写句子数量: 20,555个重写句子

数据集特点

由法律专家精心注释和解释，确保内容的准确性和专业性。
包含多种数据实践类别，如信息收集、权限获取、共享与披露等。

数据集应用

用于训练和测试TCSI-pp框架，该框架能够根据用户选择的话题类别提取相关句子，并使用生成模型重写这些句子，以便公众理解。

数据集统计信息

基本统计

数据实践类别: 12种
各类别数量: 从6967（信息收集）到110（运营终止）不等
各类别百分比: 从0.3%（运营终止）到52.8%（重要）不等

预切片数据信息

用于训练TCSI-pp的数据集: 包括重要识别数据集、风险识别数据集、话题识别数据集和重写句子数据集。
各数据集样本数量: 训练、验证和测试样本数量详细列出。

TCSI-pp框架

功能

提取与用户指定话题相关的句子。
使用生成模型重写句子，强调可能的风险内容，提高公众理解度。

模型使用

提供多种分类模型（如RoBERTa, BERT等）用于重要性和风险识别。
提供生成模型（如mT5, Bert2Bert等）用于句子重写。

评估指标

分类模型评估指标包括F1分数。
重写模型评估指标包括ROUGE, Bert-score等。

TCSI-pp-zh工具

功能

结合最有效的RoBERTa和mT5模型，用于中文应用隐私政策的摘要生成。
实验表明，TCSI-pp-zh在摘要生成任务中优于GPT-4和其他模型。

使用方法

提供详细的训练和测试代码示例，用户可根据需要调整参数。

引用信息

如果使用本数据集或代码，请引用相关文献。

AI搜集汇总

数据集介绍

构建方式

CAPP-130数据集的构建过程体现了对隐私政策文本的深度解析与重构。该数据集包含了130份来自流行应用的中文隐私政策，这些政策经过法律专家的细致标注与解释，生成了52,489条标注和20,555条重写句子。通过TCSI-pp框架，首先提取与用户指定主题相关的句子，随后利用生成模型将这些句子重写为易于理解的摘要。这一过程不仅确保了数据的专业性和准确性，还为后续的文本分析提供了坚实的基础。

特点

CAPP-130数据集的特点在于其精细的标注和广泛的应用覆盖。数据集涵盖了信息收集、权限获取、共享与披露、使用、存储、安全措施、特殊受众、管理、联系信息、授权与修订、运营终止等多个数据实践类别，共计52,489条标注。此外，数据集还包含了19,570条重写句子，这些句子通过生成模型进行了清晰简洁的重构，便于公众理解。数据集的多样性和全面性使其成为研究隐私政策文本的理想选择。

使用方法

CAPP-130数据集的使用方法灵活多样，适用于多种文本分析任务。用户可以通过TCSI-pp框架进行主题控制下的摘要与解释，首先使用分类模型提取与指定主题相关的句子，随后利用生成模型进行句子重写。数据集提供了预切分的数据，包括重要识别、风险识别和主题识别等子数据集，用户可以根据需要选择相应的模型进行训练和测试。此外，数据集还提供了详细的注释指南和预训练模型，便于用户快速上手并进行深入研究。

背景与挑战

背景概述

CAPP-130数据集由Pengyun Zhu等研究人员于2023年提出，旨在解决中文应用隐私政策难以理解的问题。该数据集包含130份来自热门应用的中文隐私政策，经过法律专家的细致标注和解释，生成了52,489条标注和20,555条改写后的句子。CAPP-130的构建基于TCSI-pp框架，该框架通过分类模型提取用户指定主题的相关句子，并利用生成模型将其改写为易于理解的摘要。这一数据集不仅为隐私政策的自动摘要和解释提供了高质量的训练数据，还推动了自然语言处理在法律文本理解领域的应用。

当前挑战

CAPP-130数据集在构建和应用过程中面临多重挑战。首先，隐私政策文本通常包含大量法律术语和技术性语言，如何准确提取和改写这些内容以使其易于理解，是一个复杂的自然语言处理问题。其次，数据集的标注过程需要法律专家的深度参与，以确保标注的准确性和一致性，这对资源投入和协调提出了较高要求。此外，尽管TCSI-pp框架在摘要生成任务中表现出色，但其性能依赖于高质量的训练数据，如何进一步提升模型的泛化能力和鲁棒性，仍需进一步研究。最后，隐私政策的内容和格式随时间和法律环境的变化而不断更新，如何保持数据集的时效性和适用性，也是一个持续的挑战。

常用场景

经典使用场景

在隐私政策研究领域，CAPP-130数据集为研究者提供了一个详尽的资源，用于分析和理解中文应用程序隐私政策的结构和内容。通过该数据集，研究者能够深入探讨隐私政策中的法律术语和技术细节，从而提升公众对隐私政策的理解。

实际应用

在实际应用中，CAPP-130数据集被用于开发自动化工具，如TCSI-pp-zh，该工具能够自动提取和重写隐私政策中的关键信息，帮助用户快速理解隐私政策内容，从而做出更明智的决策。

衍生相关工作

基于CAPP-130数据集，研究者开发了多种模型和工具，如RoBERTa和mT5模型，这些模型在隐私政策摘要和解释任务中表现出色。此外，该数据集还促进了相关领域的研究，如自然语言处理和法律文本分析。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

Beijing Traffic

The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.

Papers with Code 收录

中国1km分辨率逐月降水量数据集（1901-2023）

该数据集为中国逐月降水量数据，空间分辨率为0.0083333°（约1km），时间为1901.1-2023.12。数据格式为NETCDF，即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集，通过Delta空间降尺度方案在中国降尺度生成的。并且，使用496个独立气象观测点数据进行验证，验证结果可信。本数据集包含的地理空间范围是全国主要陆地（包含港澳台地区），不含南海岛礁等区域。为了便于存储，数据均为int16型存于nc文件中，降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理，Matlab发布了读入与存储nc文件的函数，读取函数为ncread，切换到nc文件存储文件夹，语句表达为：ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent])，其中XXX.nc为文件名，为字符串需要’’；var是从XXX.nc中读取的变量名，为字符串需要’’；i、j、t分别为读取数据的起始行、列、时间，leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样，研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令，可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心收录

Figshare

Figshare是一个在线数据共享平台，允许研究人员上传和共享各种类型的研究成果，包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

ChinaTravel

ChinaTravel是由南京大学国家重点实验室开发的一个真实世界基准数据集，专门用于评估语言代理在中国旅行规划中的应用。该数据集涵盖了中国10个最受欢迎城市的旅行信息，包括720个航班和5770趟列车，以及3413个景点、4655家餐厅和4124家酒店的详细信息。数据集通过问卷调查收集用户需求，并设计了一个可扩展的领域特定语言来支持自动评估。ChinaTravel旨在解决复杂的真实世界旅行规划问题，特别是在多兴趣点行程安排和用户偏好满足方面，为语言代理在旅行规划中的应用提供了重要的测试平台。

arXiv 收录

猫狗图像数据集

该数据集包含猫和狗的图像，每类各12500张。训练集和测试集分别包含10000张和2500张图像，用于模型的训练和评估。

github 收录