five

沙特隐私政策数据集

收藏
arXiv2023-04-06 更新2024-06-21 收录
下载链接:
https://github.com/iwan-rg/Saudi_Privacy_policy
下载链接
链接失效反馈
官方服务:
资源简介:
沙特隐私政策数据集是由沙特国王大学信息技术系创建的,包含1000个来自7个不同行业的网站的阿拉伯语隐私政策,总计4638行文本,775,370个tokens,数据集大小为8,353 KB。数据集通过手动从多个来源如沙特中央银行、沙特国家联合平台等收集,并根据个人数据保护法的10个原则进行标注。该数据集主要用于评估隐私政策合规性、行业间隐私实践的基准测试以及开发自动化工具以监控数据保护法规的遵守情况。它还支持隐私政策分析、自然语言处理和机器学习应用的研究,为研究人员、政策制定者和行业专业人士提供了一个宝贵的资源,以理解和促进沙特阿拉伯隐私法规的合规性。

The Saudi Privacy Policy Dataset was developed by the Department of Information Technology at King Saud University. It includes 1,000 Arabic privacy policy documents from websites across 7 different industries, totaling 4,638 lines of text and 775,370 tokens, with a total dataset size of 8,353 KB. The dataset was manually collected from multiple sources such as the Saudi Central Bank and the Saudi National Unified Platform, and annotated based on the 10 principles of the Personal Data Protection Law. This dataset is mainly used for evaluating privacy policy compliance, benchmarking privacy practices across industries, and developing automated tools to monitor compliance with data protection regulations. It also supports research on privacy policy analysis, natural language processing and machine learning applications, providing a valuable resource for researchers, policymakers and industry professionals to understand and promote compliance with privacy regulations in Saudi Arabia.
提供机构:
信息技术系,计算机与信息科学学院,沙特国王大学
创建时间:
2023-04-06
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建方式包括数据收集、数据标注、数据清洗和数据处理等多个阶段。数据收集阶段,研究人员从沙特中央银行、沙特阿拉伯国家联合平台、健康保险委员会等多个渠道获取隐私政策文本,并通过Google和Wikipedia搜索相关网站。在数据标注阶段,根据《个人数据保护法》(PDPL)的10个原则对隐私政策文本进行标注。数据清洗阶段,研究人员手动去除文本中的无用信息,如引言、联系方式和超链接等。数据处理阶段,使用Python正则表达式去除文本中的阿拉伯语变音符号、英文字母、符号和数字等,并进行数据归一化处理。
特点
该数据集的特点是包含来自沙特阿拉伯各个行业的多样化隐私政策文本,并按照PDPL的10个原则进行了标注。数据集包括1000个网站,4,638行文本,775,370个标记,数据集大小为8,353KB。此外,该数据集还具有良好的注释一致性,三位标注者之间的平均Cohen kappa系数为0.95,表明标注结果具有较高的可靠性。
使用方法
该数据集的使用方法主要包括隐私政策合规性评估、行业间隐私实践基准测试以及开发用于监测数据保护法规遵守情况的自动化工具。此外,该数据集还可用于隐私政策分析、自然语言处理和与隐私和数据保护相关的机器学习应用的研究与开发。数据集可从Github上直接下载,并以CSV文件格式提供。
背景与挑战
背景概述
随着个人数据保护意识的不断增强,隐私政策作为企业与个人之间的重要桥梁,其透明度和合规性成为学术界和工业界关注的焦点。沙特隐私政策数据集(Saudi Privacy Policy Dataset)正是为了响应这一需求而创建的。该数据集由沙特国王大学计算机与信息科学学院的Hend Al-Khalifa等人于2022年12月收集整理,收录了沙特阿拉伯七个行业共1000个网站的隐私政策文本,共计4,638行文本,775,370个词汇。这些隐私政策文本根据沙特个人数据保护法(PDPL)的10个原则进行了标注,旨在为隐私政策分析、自然语言处理和机器学习应用提供宝贵资源,以促进对隐私和数据保护的进一步研究和发展。
当前挑战
沙特隐私政策数据集的创建和标注过程中面临着诸多挑战。首先,隐私政策文本中存在大量无关信息,如介绍、联系方式和超链接,需要通过手动爬取和文本提取技术进行处理。其次,由于部分网站关闭或隐私政策表述不正确,数据收集过程中不得不排除一些隐私政策网站,这增加了数据收集的难度。此外,由于阿拉伯语的特殊性,如阿拉伯数字、符号和连字符等,在文本清洗和标注过程中需要使用特定的技术手段进行处理。最后,尽管数据集提供了丰富的隐私政策文本,但如何确保其标注的准确性和一致性,以及如何有效地利用这些数据进行隐私政策合规性评估、行业隐私实践比较和自动化监控工具的开发,仍然是当前研究的挑战。
常用场景
经典使用场景
在数据科学和文本分类领域,沙特隐私政策数据集的经典使用场景包括评估隐私政策合规性、行业间隐私实践的比较,以及开发自动化工具以监控数据保护法规的遵守情况。此外,该数据集还可以用于隐私政策分析、自然语言处理和与隐私保护相关的机器学习应用的研究与开发。
实际应用
在实际应用中,沙特隐私政策数据集可以用于比较沙特阿拉伯与其他国家或地区的隐私政策,从而提供有关跨文化和跨部门隐私实践的见解。此外,该数据集可以作为跟踪隐私政策随时间演变的基线,从而识别趋势和潜在改进领域。该数据集还可以用于评估隐私政策合规性、行业间隐私实践的比较,以及开发自动化工具以监控数据保护法规的遵守情况。
衍生相关工作
沙特隐私政策数据集的衍生相关工作包括开发与隐私政策分析相关的机器学习模型和自然语言处理应用。此外,该数据集可以用于促进比较研究、基准测试和合规性评估,从而为隐私和数据保护领域的研究做出贡献。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作