APPCH Corpus

github2022-06-20 更新2024-05-31 收录

下载链接：

https://github.com/ShenaoW/APPCH

下载链接

链接失效反馈

官方服务：

资源简介：

APPCH Corpus（应用隐私政策中文语料库）是一个包含应用隐私政策（即自然语言形式）及其标注的集合，通过九种危险Android权限揭示隐私信息收集实践。

APPCH Corpus (Chinese Corpus of Application Privacy Policies) is a collection comprising natural language-formatted application privacy policies and their corresponding annotations, which reveals privacy information collection practices through nine types of dangerous Android permissions.

创建时间：

2022-06-20

原始信息汇总

APPCH Corpus 数据集概述

数据集描述

名称：APPCH Corpus（应用程序隐私政策中文版）
内容：包含应用程序隐私政策的自然语言文本及其注释，揭示通过九种危险的Android权限收集隐私信息的做法。

权限分类

权限组	权限列表	标签
日历	READ_CALENDAR、WRITE_CALENDAR	CAL
相机	CAMERA	CAM
联系人	READ_CONTACTS、WRITE_CONTACTS、GET_ACCOUNTS	CON
位置	ACCESS_FINE_LOCATION、ACCESS_COARSE_LOCATION	LOC
麦克风	RECORD_AUDIO	MIC
电话	READ_PHONE_STATE、CALL_PHONE、READ_CALL_LOG、<br/>WRITE_CALL_LOG、ADD_VOICEMAIL、USE_SIP、<br/>PROCESS_OUTGOING_CALLS	PHO
传感器	BODY_SENSORS	SEN
短信	SEND_SMS、RECEIVE_SMS、READ_SMS、<br/>RECEIVE_WAP_PUSH、RECEIVE_MMS	SMS
存储	READ_EXTERNAL_STORAGE、WRITE_EXTERNAL_STORAGE	STO

数据集详情

注释情况：通过人工注释，获得98个标记的政策和678个数据实践短语。
自动注释：利用BMM（双向最大匹配）算法进行自动注释，扩大了语料库的规模。
数据集规模：最终包含1058个隐私政策和948K个危险权限短语。
用途：可用于构建训练/开发/测试数据集，并训练NER（命名实体识别）模型以提取隐私政策中的数据实践。

数据集可用性

目的：仅供研究、教学和学术目的使用。
数据存储：原始语料库可在“spider”中找到，标记的语料库位于“annotations”。

搜集汇总

数据集介绍

构建方式

APPCH Corpus的构建过程融合了人工标注与自动化技术。首先，由网络工程学院的三名标注员对隐私政策进行手动阅读和标注，形成了98个标注政策和678个数据实践短语的词典。随后，基于此词典，采用了双向最大匹配（BMM）算法进行自动标注，从而显著扩展了语料库的规模。最终，APPCH Corpus包含了1058份隐私政策和948K个危险权限短语，为后续的命名实体识别（NER）模型训练提供了丰富的数据基础。

特点

APPCH Corpus的显著特点在于其专注于中文应用隐私政策的隐私信息收集实践，并通过九种危险Android权限进行详细分类。该数据集不仅涵盖了广泛的应用场景，还通过人工与自动化相结合的标注方式确保了数据的高质量。此外，其庞大的规模和详细的权限分类使其成为研究隐私政策分析和数据实践提取的宝贵资源。

使用方法

APPCH Corpus主要用于研究和教学目的，特别适用于训练命名实体识别（NER）模型以从隐私政策中提取数据实践。用户可以在'spider'文件夹中找到原始语料，在'annotations'文件夹中找到标注后的语料。通过构建训练/开发/测试数据集，研究人员可以利用APPCH Corpus训练和验证其模型，从而提高隐私政策分析的准确性和效率。

背景与挑战

背景概述

随着移动应用的普及，用户隐私保护成为日益重要的研究领域。APPCH Corpus（Application Privacy Policies in Chinese）数据集应运而生，旨在通过自然语言处理技术分析和标注应用隐私政策中的隐私信息收集行为。该数据集由Cyber Engineering School的研究人员创建，涵盖了九种危险Android权限的隐私政策文本，并进行了详细的手动和自动标注。APPCH Corpus不仅提供了98份手动标注的隐私政策和678条数据实践短语，还通过双向最大匹配算法（BMM）扩展至1058份隐私政策和948K条危险权限短语，为隐私政策中的数据实践提取提供了丰富的训练数据。

当前挑战

APPCH Corpus在构建过程中面临多重挑战。首先，隐私政策文本的复杂性和多样性使得手动标注工作既耗时又容易出错。其次，自动标注方法如BMM算法虽然提高了数据集的规模，但其准确性和覆盖率仍需进一步优化。此外，隐私政策中的隐晦表述和法律术语增加了数据实践提取的难度。这些挑战不仅影响了数据集的质量，也制约了基于该数据集的命名实体识别（NER）模型的性能提升。

常用场景

经典使用场景

在隐私保护与数据安全领域，APPCH Corpus数据集的经典使用场景主要体现在其对应用程序隐私政策的自然语言处理上。通过该数据集，研究者能够训练命名实体识别（NER）模型，以自动提取隐私政策中的数据实践信息。这种自动化处理不仅提高了隐私政策分析的效率，还为后续的隐私保护策略制定提供了数据支持。

实际应用

在实际应用中，APPCH Corpus数据集被广泛用于开发和优化隐私保护工具和系统。例如，它可以用于构建自动化的隐私政策分析工具，帮助用户快速了解应用程序的数据收集行为。此外，该数据集还可用于培训隐私保护相关的法律和政策制定者，提升其对隐私政策的理解和分析能力。

衍生相关工作

基于APPCH Corpus数据集，研究者们开展了一系列相关工作，包括但不限于改进自然语言处理算法以提高隐私政策文本的解析精度，以及开发新的隐私保护模型以应对不断变化的隐私政策环境。此外，该数据集还激发了对隐私政策透明度和用户知情权保护的深入研究，推动了隐私保护领域的学术进步和技术创新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集