Date Extraction from Privacy Policies

github2024-05-15 更新2024-05-31 收录

下载链接：

https://github.com/mukundsrinath/Privacy-Date-Extraction-DocEng

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含从隐私政策中提取的日期实例文本，这些实例被标记为更新日期、生效日期和其他日期。数据集用于研究隐私政策中的日期信息，并分析其与法律合规性的关系。

This dataset comprises text instances of dates extracted from privacy policies, which are annotated as update dates, effective dates, and other types of dates. It is utilized for researching date information within privacy policies and analyzing its correlation with legal compliance.

创建时间：

2023-09-15

原始信息汇总

数据集概述

数据集名称

Date Extraction from Privacy Policies

数据集内容

文件类型: CSV
数据内容: 包含从隐私政策中提取的日期实例，分为三类：updated date, effective date 和 other dates。
数据标注: 由论文作者之一进行标注，并由另一作者验证。
日期提取模式: 使用正则表达式进行提取，模式为：20[0-2][0-9]|19d{2}|\d{2}|d{1,2}/d{1,2}/d{2,4}|d{1,2}.d{1,2}.d{2,4}|d{1,2}-d{1,2}-d{2,4}

数据集用途

许可: 对于研究、教学和学术目的，数据集提供CC BY-NC-SA许可。
商业使用: 需联系数据集负责人进行请求。

引用信息

论文标题: Privacy Now or Never: Large-Scale Extraction and Analysis of Dates in Privacy Policy Text
作者: Mukund Srinath, Lee Matheson, Pranav Narayanan Venkit, Gabriela Zanfir-Fortuna, Florian Schaub, C. Lee Giles, Shomir Wilson
出版年份: 2023
出版地点: Proceedings of the ACM Symposium on Document Engineering 2023 (DocEng 23)
引用格式:

@inproceedings{10.1145/3573128.3609342, author = {Srinath, Mukund and Matheson, Lee and Venkit, Pranav Narayanan and Zanfir-Fortuna, Gabriela and Schaub, Florian and Giles, C. Lee and Wilson, Shomir}, title = {Privacy Now or Never: Large-Scale Extraction and Analysis of Dates in Privacy Policy Text}, year = {2023}, publisher = {Association for Computing Machinery}, address = {New York, NY, USA}, doi = {10.1145/3573128.3609342} }

联系方式

技术问题: Mukund Srinath (mukund@psu.edu)
许可问题: Dr. Shomir Wilson (shomir@psu.edu)

搜集汇总

数据集介绍

构建方式

在构建隐私政策日期提取数据集时，研究团队采用了一种多步骤的流水线方法。首先，通过网络爬虫技术从大量隐私政策文档中提取文本数据。随后，利用正则表达式（regex）模式识别并提取候选日期实例，该模式涵盖了多种日期格式，如年份、日期分隔符等。最后，这些候选日期被人工标注为‘更新日期’、‘生效日期’和‘其他日期’，并由两位作者分别进行标注和验证，确保数据的准确性和一致性。

特点

该数据集的显著特点在于其大规模和多样性。数据集包含了从众多隐私政策中提取的日期信息，涵盖了不同类型的日期标注，如更新日期和生效日期，这为研究隐私政策的时效性和合规性提供了丰富的素材。此外，数据集的构建过程中采用了严格的标注和验证流程，确保了数据的高质量。

使用方法

该数据集主要用于研究隐私政策的日期提取和分析。研究者可以通过分析数据集中的日期信息，评估隐私政策的更新频率和合规性。使用时，研究者应遵循CC BY-NC-SA许可协议，确保仅用于非商业的研究、教学和学术目的。如需商业用途，需另行联系数据集的版权持有者。在使用数据集时，建议引用相关的研究论文，以确保学术诚信和数据来源的透明性。

背景与挑战

背景概述

随着全球隐私法规的日益严格，如《通用数据保护条例》（GDPR）的实施，隐私政策的更新与合规性成为了企业和组织面临的重要问题。隐私政策作为自然语言文档，其时效性直接关系到法律合规性。为此，Mukund Srinath等人于2023年创建了‘Date Extraction from Privacy Policies’数据集，旨在通过大规模提取和分析隐私政策中的日期信息，评估其更新频率与合规性。该数据集的核心研究问题是如何从海量的隐私政策文本中准确提取更新日期和生效日期，并分析这些日期的分布模式，以揭示隐私政策更新的规律性及其与法规变化的关联性。该研究不仅为隐私政策的合规性评估提供了新的工具，还为相关领域的研究者提供了宝贵的数据资源。

当前挑战

该数据集在构建过程中面临多项挑战。首先，隐私政策文本的多样性和复杂性使得日期提取任务变得异常困难，尤其是不同组织在政策文本中使用日期格式的差异性。其次，由于隐私政策通常以自然语言形式呈现，日期信息可能嵌入在复杂的句子结构中，增加了提取的难度。此外，数据集的标注过程需要高度的人工干预，以确保日期分类的准确性，这不仅耗时且容易出错。最后，尽管该数据集提供了初步的日期提取与分类方法，但其在大规模应用中的泛化能力和鲁棒性仍需进一步验证，特别是在处理不同语言和格式的隐私政策时。

常用场景

经典使用场景

在隐私政策文本中，日期信息的提取与分类是确保政策合规性和时效性的关键步骤。该数据集通过正则表达式从隐私政策中提取候选日期实例，并将其分类为‘更新日期’、‘生效日期’和‘其他日期’。这一过程不仅为研究人员提供了大规模的日期数据，还为后续的分析和模型训练奠定了基础。

衍生相关工作

基于该数据集，研究人员已开展多项相关工作，包括开发更高效的日期提取算法、构建隐私政策更新预测模型，以及分析政策更新与法律事件之间的关联性。这些衍生工作不仅丰富了自然语言处理领域的研究内容，还为隐私保护和数据治理提供了新的视角和方法。

数据集最近研究