five

Opt-out Policy Dataset, Opt-out Cookie Dataset

收藏
github2022-11-20 更新2024-05-31 收录
下载链接:
https://github.com/ducalpha/optoutcheck_ccs22
下载链接
链接失效反馈
官方服务:
资源简介:
Opt-out Policy Dataset包含用于训练和测试opt-out政策分类器的数据集,具体包括多个CSV文件,用于分类不同的opt-out政策类别。Opt-out Cookie Dataset包含用于训练和测试opt-out cookie分类器的数据集,包括cookie的名称、值和是否为opt-out cookie的信息。

The Opt-out Policy Dataset comprises a collection of CSV files designed for training and testing classifiers that categorize various opt-out policy types. Similarly, the Opt-out Cookie Dataset includes data for training and testing classifiers that identify opt-out cookies, featuring details such as cookie names, values, and their classification as opt-out cookies.
创建时间:
2022-08-28
原始信息汇总

数据集概述

Opt-out Policy Dataset

  • 存储位置: optout_policy_dataset 文件夹
  • 主要文件:
    • multi_label_export.csv: 包含从在线跟踪器的隐私政策中提取的标记句子,具有以下列:
      • cookie_domain: 跟踪器的域名。
      • stmt: 从隐私政策中提取的政策声明。
      • No-data-collection: 如果声明属于No-data-collection类别,则为1,否则为0。
      • No-tracking: 如果声明属于No-tracking类别,则为1,否则为0。
      • No-data-coll.-for-oba: 如果声明属于No-data-coll.-for-oba类别,则为1,否则为0。
      • No-display-OBA: 如果声明属于No-display-OBA类别,则为1,否则为0。
      • other: 如果声明不属于上述任何类别,则为1,否则为0。
    • train_data 文件夹: 包含用于训练opt-out政策分类器的数据文件,这些文件是从multi_label_export.csv中提取的行。
      • No-tracking.csv: 包含stmtNo-tracking列。
      • No-data-collection.csv: 包含stmtNo-data-collection列。

Opt-out Cookie Dataset

  • 存储位置: optout_cookie_dataset 文件夹
  • 主要文件:
    • train.csv: 用于训练opt-out cookie分类器的数据文件,包含以下列:
      • name: 包含cookie名称。
      • value: 包含cookie值。
      • is_optout_cookie: 如果cookie是opt-out cookie,则为1,否则为0。
    • test.csv: 用于测试opt-out cookie分类器的数据文件,包含相同的列。
搜集汇总
数据集介绍
main_image_url
构建方式
Opt-out Policy Dataset和Opt-out Cookie Dataset的构建基于对在线跟踪器隐私政策的深入分析。Opt-out Policy Dataset通过从隐私政策中提取语句并进行多标签分类,构建了一个包含`No-data-collection`、`No-tracking`、`No-data-coll.-for-oba`、`No-display-OBA`等类别的数据集。Opt-out Cookie Dataset则通过分析Cookie的名称和值,标注其是否为退出Cookie,从而构建了一个二分类数据集。这些数据集的构建过程充分考虑了隐私政策中的语言特征和Cookie的行为模式,确保了数据的多样性和代表性。
使用方法
Opt-out Policy Dataset可用于训练和测试退出政策分类器,研究者可以通过分析`multi_label_export.csv`文件中的多标签数据,探索隐私政策中的语言模式。`train_data`文件夹中的文件则提供了更便捷的训练数据格式,便于直接用于机器学习模型的训练。Opt-out Cookie Dataset则适用于训练和测试退出Cookie分类器,研究者可以通过`train.csv`和`test.csv`文件中的Cookie名称和值,构建模型以识别退出Cookie。这些数据集的使用方法灵活多样,能够满足不同研究需求。
背景与挑战
背景概述
Opt-out Policy Dataset和Opt-out Cookie Dataset是由Duc Bui、Brian Tang和Kang G. Shin等研究人员于2022年创建的,旨在研究在线隐私政策中的退出机制及其有效性。该数据集的核心研究问题聚焦于用户在使用第三方Cookie时的隐私保护,特别是通过退出选项来阻止数据收集和跟踪的机制。数据集通过对隐私政策中的声明进行分类,帮助研究人员和开发者理解不同退出策略的实际效果。该研究在2022年ACM SIGSAC计算机与通信安全会议上发表,对隐私保护和网络安全领域产生了重要影响,推动了相关技术的进一步发展。
当前挑战
该数据集在解决隐私政策退出机制的有效性方面面临多重挑战。首先,隐私政策中的声明通常具有复杂的语言结构和多样化的表达方式,这使得自动分类和标注变得困难。其次,构建数据集时需要对大量隐私政策进行人工标注,这一过程不仅耗时且容易引入主观偏差。此外,Cookie的命名和值通常缺乏标准化,导致识别退出Cookie的难度增加。这些挑战不仅影响了数据集的构建质量,也对后续的模型训练和评估提出了更高的要求。
常用场景
经典使用场景
Opt-out Policy Dataset和Opt-out Cookie Dataset广泛应用于隐私政策分析领域,特别是在研究在线追踪器的隐私政策和用户选择退出机制时。这些数据集通过提供详细的标注数据,帮助研究人员训练和测试分类器,以识别和分类隐私政策中的不同退出策略。例如,数据集中的`multi_label_export.csv`文件包含了从隐私政策中提取的语句及其对应的退出策略类别,使得研究者能够深入分析不同退出策略的表述方式及其对用户隐私的影响。
解决学术问题
该数据集解决了在线隐私保护领域中的关键问题,即如何有效识别和分类隐私政策中的退出策略。通过提供详细的标注数据,研究者能够开发出高效的分类器,用于自动识别隐私政策中的退出策略,从而帮助用户更好地理解其隐私选择。此外,数据集还支持对退出策略的语义分析,揭示了不同退出策略对用户隐私保护的实际效果,为隐私政策的制定和优化提供了科学依据。
实际应用
在实际应用中,Opt-out Policy Dataset和Opt-out Cookie Dataset被广泛应用于隐私保护工具的开发。例如,浏览器扩展和隐私保护软件可以利用这些数据集中的分类器,自动识别并提示用户隐私政策中的退出选项,帮助用户更好地控制其在线隐私。此外,这些数据集还被用于评估不同隐私政策的合规性,帮助企业和组织优化其隐私政策,以符合日益严格的隐私保护法规。
数据集最近研究
最新研究方向
在隐私保护与数据安全领域,Opt-out Policy Dataset和Opt-out Cookie Dataset为研究在线追踪器的隐私政策和退出机制提供了重要的数据支持。近年来,随着《通用数据保护条例》(GDPR)和《加州消费者隐私法案》(CCPA)等法规的实施,用户隐私保护成为全球关注的焦点。该数据集的最新研究方向聚焦于通过自然语言处理技术,自动化识别和分类隐私政策中的退出条款,以评估其有效性和透明度。此外,研究还探索了退出Cookie的识别与分类,旨在揭示在线广告生态系统中的隐私漏洞。这些研究不仅推动了隐私政策自动化分析技术的发展,还为政策制定者和企业提供了改进隐私保护措施的参考依据,具有重要的学术价值和现实意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作