five

C3PA|隐私政策数据集|法规合规性数据集

收藏
arXiv2024-10-05 更新2024-10-09 收录
隐私政策
法规合规性
下载链接:
https://github.com/MaazBinMusa/C3PA_Dataset.git
下载链接
链接失效反馈
资源简介:
C3PA数据集由爱荷华大学开发,是一个专门针对加州消费者隐私法案(CCPA)的专家标注隐私政策数据集。该数据集包含48,947条标注数据,来自411个组织的隐私政策,涵盖了CCPA规定的12项披露要求。数据集的创建过程包括从数据经纪人和流行网站收集隐私政策,并通过法律专业人士进行标注。C3PA数据集旨在帮助自动化审核CCPA及其他类似法规的合规性,解决现有工具无法识别CCPA特定披露要求的问题。
提供机构:
爱荷华大学
创建时间:
2024-10-05
AI搜集汇总
数据集介绍
main_image_url
构建方式
C3PA数据集的构建过程始于对可能受加州消费者隐私法案(CCPA)约束的组织的识别,这些组织需满足特定的收入要求或服务于一定数量的加州用户。随后,研究团队从两个主要来源收集隐私政策:一是加州总检察长注册的数据经纪人,二是拥有大量加州访问者和追踪器的流行网站。通过使用Python的Playwright工具开发的爬虫,研究团队定位并下载了这些组织的隐私政策。经过一系列后处理步骤,包括过滤无关和重复文档,最终确定了411个独特的组织及其隐私政策。接下来,由六名以英语为母语的法律专业学生组成的团队,使用Label-studio工具对这些隐私政策进行标注,确保每个政策由三位标注者独立标注,以提高数据集的质量和一致性。
特点
C3PA数据集的显著特点在于其高度针对性和法规敏感性。该数据集包含了48,947个专家标注的隐私政策文本片段,这些片段与CCPA特定的披露要求相关联。与其他通用数据集不同,C3PA直接关联到CCPA的12项具体披露要求,使其成为评估CCPA合规性的理想工具。此外,数据集的高标注质量和详细的标注方案,确保了其在自动化审计中的有效性。C3PA的另一个特点是其广泛的代表性,涵盖了从数据经纪人到流行网站的多种组织类型,确保了数据集在不同情境下的适用性。
使用方法
C3PA数据集主要用于支持自动化审计工具的开发,以评估组织隐私政策对CCPA合规性的响应。研究者可以通过使用该数据集训练自然语言处理模型,以识别和验证隐私政策中与CCPA相关的披露内容。具体使用方法包括:首先,利用数据集中的标注信息训练分类器或序列标注模型;其次,将训练好的模型应用于新的隐私政策文档,以自动提取和分类与CCPA相关的文本片段。此外,C3PA还可用于开发和测试新的隐私政策分析工具,帮助监管机构和消费者更好地理解和评估隐私政策的合规性。
背景与挑战
背景概述
随着数据隐私法规的日益复杂化,特别是欧盟的《通用数据保护条例》(GDPR)和加利福尼亚州的《消费者隐私法》(CCPA)的引入,传统的隐私政策分析工具逐渐暴露出其局限性。这些工具大多基于早期开发的、缺乏法规敏感性的数据集,难以有效识别和修正合规问题。在此背景下,C3PA数据集应运而生,由爱荷华大学的Maaz Bin Musa等人于2023年创建。该数据集包含了411个组织的隐私政策中超过48,000个专家标注的文本片段,专门针对CCPA的披露要求进行标注。C3PA的推出,标志着首个开放的、法规敏感性隐私政策数据集的诞生,旨在支持大规模的法规合规审计,特别是在CCPA及相关法规的背景下。
当前挑战
C3PA数据集的构建面临多重挑战。首先,隐私政策文本的动态性使得传统工具难以适应新的法规要求,特别是在CCPA引入后,隐私政策的内容和形式发生了显著变化。其次,现有数据集如OPP-115等,虽在隐私政策分析领域有广泛应用,但缺乏对CCPA特定披露要求的直接关联,导致其在处理CCPA合规性审计时的效能受限。此外,C3PA的标注过程也面临挑战,包括确保标注者对CCPA法规的准确理解、处理隐私政策中的非连续性披露问题,以及提高标注者之间的共识度。这些挑战共同构成了C3PA数据集在实际应用中的主要障碍。
常用场景
经典使用场景
C3PA数据集在隐私政策分析领域中扮演着关键角色,其经典用途在于支持自动化审计工具,以评估组织对《加州消费者隐私法案》(CCPA)的合规性。通过提供超过48,000个专家标注的隐私政策文本片段,C3PA数据集使得机器学习模型能够精确识别和验证隐私政策中与CCPA特定披露要求相关的条款。这种能力不仅提升了审计效率,还确保了审计结果的准确性和可靠性。
解决学术问题
C3PA数据集解决了隐私政策分析中的一个核心学术问题,即如何有效地将隐私政策与特定法规要求对齐。在CCPA等重要隐私法规出台后,现有工具由于缺乏针对性的数据集而难以准确识别合规问题。C3PA通过提供专门针对CCPA的标注数据,填补了这一空白,使得研究者能够开发出更精确的模型,从而推动了隐私政策自动化分析技术的发展。
衍生相关工作
C3PA数据集的发布催生了一系列相关研究和工作,特别是在隐私政策自动化分析和合规性评估领域。例如,研究者利用C3PA数据集开发了新的机器学习模型,这些模型不仅能够识别CCPA相关的披露要求,还能应用于其他类似的隐私法规。此外,C3PA的成功也激发了对其他地区隐私法规数据集的开发,推动了全球隐私政策分析技术的标准化和普及化。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

MedDialog

MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。

github 收录

koen430/relevant_selected_stock_news

该数据集包含通过GPT-3.5-turbo筛选出的新闻文章,旨在用于微调大型语言模型,以预测新闻发布后的股票价格变动。数据集包括多个特征,如股票代码、提示、文本、URL、结果、相关性、令牌计数等,并分为训练集、验证集和测试集。

hugging_face 收录

熟肉制品在全国需求价格弹性分析数据

为更好了解各市对熟肉制品的市场需求情况,本行业所有企业对相关熟肉制品需求弹性数据进行采集计算。如果熟肉制品需求量变动的比率大于价格变动的比率,那么熟肉制品需求富有弹性,说明顾客对于熟肉制品价格变化的敏感程度大,弹性越大,需求对价格变化越敏感,本行业所有企业可以在该市适当的降低熟肉制品价格来获得较多的收益。如果熟肉制品需求缺乏弹性,本行业所有企业可以在该市适当的提高熟肉制品价格来获得较多的收益。该项数据对本行业所有企业在全国的市场营销决策有重要意义。1.数据采集:采集相关熟肉制品在某一时间段全国的的需求数据和价格数据,按照市级进行整理归纳,得到该熟肉制品的需求量变动数值和价格变化数值。 2.算法规则:对采集得到的数据按照如下公式进行计算:需求弹性系数Ed=-(△Q/Q)÷(△P/P),得到需求弹性系数。式中:Q表示产品的需求量,单位为份;P表示产品的价格,单位为元;△Q表示需求量同比变动值,单位为份;△P表示价格同比变动值,单位为元。取需求弹性系数的绝对值|Ed|作为分析数据时的参考系数。 3.数据分析:根据|Ed|的数值可分析该熟肉制品的需求价格弹性。(1)|Ed|=1(单位需求价格弹性),说明需求量变动幅度与价格变动幅度相同;(2)1<|Ed|(需求富有弹性),说明需求量变动幅度大于价格变动幅度;(3)|Ed|<1(需求缺乏弹性),说明需求量变动幅度小于价格变动幅度。

浙江省数据知识产权登记平台 收录