Privacy Law Corpus

github2024-04-26 更新2024-05-31 收录

下载链接：

https://github.com/MobileCommerceLab/privacy_law_corpus

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含来自世界各地的政府隐私指令（如法律、指南、命令等）的文档集合，主要由国家级政府发布，也包括超国家组织或次国家实体的指令。数据集中的文档最早可追溯至1860年，最新至2020年，由研究团队手动从互联网收集。

This dataset comprises a collection of documents pertaining to government privacy directives (such as laws, guidelines, orders, etc.) from around the globe. These directives are primarily issued by national governments, but also include those from supranational organizations or sub-national entities. The documents in the dataset date back as early as 1860 and extend up to 2020, meticulously gathered from the internet by a research team.

创建时间：

2023-04-04

原始信息汇总

数据集概述

数据集名称与版本

名称: Privacy Law Corpus v2.0
发布日期: March 26, 2024

数据集内容

描述: 包含全球政府隐私指令（如法律、指南、命令等）的集合，主要由国家级政府发布，偶尔来自超国家组织或次国家实体。
时间范围: 最早的指令来自1860年，最新的来自2020年。
收集方式: 由研究团队成员手动从互联网收集。

数据集结构

文件格式: 包括PDF和TXT格式。
子目录与文件:
- corpus_documents: 包含所有文档的版本。
  - pdf_files: PDF格式的文档。
    - english_pdf_files: 英文PDF文档。
      - english_translated_pdf_files: 非英文翻译成英文的PDF文档。
      - original_english_pdf_files: 原始英文PDF文档。
    - non_english_pdf_files: 非英文原始语言的PDF文档。
  - plain_text_files: TXT格式的文档。
    - english_text_files: 英文TXT文档。
      - english_translated_text_files: 非英文翻译成英文的TXT文档。
      - original_english_text_files: 原始英文TXT文档。
    - non_english_text_files: 非英文原始语言的TXT文档。
- gpi_corpus_metadata.csv: CSV格式的元数据文件。
- gpi_corpus_metadata.xlsx: Excel格式的元数据文件。
- readme.txt: 数据集文档。

元数据信息

列信息:
- Jurisdiction Name: 文档适用的司法管辖区名称。
- Key Law Original Title: 文档原始语言标题。
- Key Law Corpus Identifier: 文档在数据集中的文件名。
- Key Law English Translated Title: 文档的英文翻译标题。
- In Effect/Repealed/NYIF: 法律当前状态。
- Originally Passed: 法律最初通过的国家或协议体。
- Currently Applicable: 法律当前适用的国家或协议体。
- Sector: 法律适用的部门（公共、私人或两者）。
- First Privacy Law: 首个隐私法律的颁布日期。
- This Law Promulgated: 法律颁布日期。
- Last: Latest Revision: 文档最新修订日期。
- International Agreements: 涉及的国际协议。
- Member: 涉及的国家或地区组织。
- Original Language: 原始语言。
- Document Source: Original: 原始文档来源URL。
- Government Website?: 文档来源是否为政府网站。
- Document Source: English: 英文翻译文档来源URL。
- Translation Type: 翻译类型。
- Starting Source: 查找文档的起始网站。
- Plain Text File Directory File Path: 文本文件在数据集目录中的路径。
- Date of Retrieval of Original: 原始文档下载日期。
- Date of Retrieval of English Translation: 英文翻译文档下载日期。
- Comments/Notes: 研究人员的注释或笔记。

使用许可

许可类型: Creative Commons Attribution-NonCommercial-ShareAlike 2.0 Generic (CC BY-NC-SA 2.0)
商业许可咨询: Prof. Shomir Wilson (shomir@psu.edu)

引用要求

引用文献: Sonu Gupta, Geetika Gopi, Harish Balaji, Ellen Poplavska, Nora OToole, Siddhant Arora, Thomas Norton, Norman Sadeh, and Shomir Wilson. In Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING), May 20-25, 2024.

搜集汇总

数据集介绍

构建方式

Privacy Law Corpus 数据集的构建方式体现了对全球隐私法律的系统性收集与整理。研究团队通过手动从全球范围内的政府网站及其他法律信息网站收集了大量政府隐私指令（如法律、指南、命令等），涵盖了从1860年到2020年的历史数据。这些文档不仅包括国家层面的法律，还涉及超国家组织或次国家实体的隐私指令。为了便于研究，部分非英语文档通过第三方翻译服务或研究人员手动翻译为英语，尽管翻译的可靠性未得到保证。此外，数据集还包含了详细的元数据，记录了每条隐私指令的来源、翻译类型、生效状态等信息，以支持更深入的法律分析与研究。

特点

Privacy Law Corpus 数据集的显著特点在于其广泛的地理覆盖和时间跨度，涵盖了全球多个国家和地区的隐私法律，最早可追溯至1860年。数据集不仅提供了原始文档的多种格式（如PDF和TXT），还包含了详细的元数据，便于研究人员进行多维度的分析。此外，数据集中的文档提供了英语翻译版本，尽管翻译的准确性未得到保证，但为非英语国家的研究提供了便利。数据集的构建还参考了Graham Greenleaf的全球数据隐私法律表，进一步增强了其学术价值和实用性。

使用方法

Privacy Law Corpus 数据集的使用方法灵活多样，适用于多种法律与隐私研究场景。研究人员可以通过访问数据集的元数据文件（如CSV和Excel格式）快速获取每条隐私指令的详细信息，包括法律的生效状态、翻译类型、来源等。对于需要深入分析的研究，可以直接下载原始文档的PDF或TXT版本，进行文本挖掘或法律分析。此外，数据集还提供了翻译后的英语版本，便于非英语国家的研究人员进行跨语言研究。在使用数据集时，需注意引用相关文献，并遵守CC BY-NC-SA 2.0许可协议。

背景与挑战

背景概述

隐私法语料库（Privacy Law Corpus）是由宾夕法尼亚州立大学的研究人员创建，旨在收集和分析全球范围内的政府隐私指令（如法律、指南、命令等）。该语料库的构建始于2022年6月，经过多次更新，于2024年3月发布了2.0版本。主要研究人员包括Sonu Gupta、Shomir Wilson等，并得到了NSF资助。该语料库的核心研究问题是如何系统化地整理和分析全球隐私法律，以便为隐私保护研究提供基础数据支持。其影响力在于为隐私法律的跨文化、跨语言研究提供了宝贵的资源，推动了隐私法律领域的进一步发展。

当前挑战

隐私法语料库的构建面临多重挑战。首先，隐私法律的多样性和复杂性使得数据的收集和整理变得异常困难，尤其是涉及多语言和多国家的法律文本。其次，法律文本的翻译质量参差不齐，部分翻译依赖于自动化工具，导致翻译的准确性和可靠性难以保证。此外，隐私法律的频繁更新和修订也增加了数据维护的难度。最后，隐私法律的跨领域特性要求研究者具备法律和计算语言学等多学科的知识背景，以确保数据的分析和应用具有科学性和实用性。

常用场景

经典使用场景

Privacy Law Corpus 数据集的经典使用场景主要集中在隐私法律文本的分析与比较研究。该数据集汇集了全球范围内的政府隐私指令，包括法律、指南、命令等，涵盖了从1860年到2020年的广泛时间跨度。研究者可以利用这一数据集进行跨文化、跨时间的隐私法律比较，探索不同司法管辖区隐私保护政策的演变与差异。此外，该数据集还支持自然语言处理技术的应用，如文本分类、信息抽取和法律文本的自动化分析，为隐私法律的智能化研究提供了丰富的语料基础。

解决学术问题

Privacy Law Corpus 数据集解决了隐私法律领域中多个重要的学术研究问题。首先，它为全球隐私法律的比较研究提供了系统化的数据支持，有助于揭示不同国家和地区隐私保护政策的异同及其背后的社会文化因素。其次，该数据集促进了隐私法律文本的自动化处理研究，如法律条款的识别、分类和语义分析，推动了法律信息学领域的发展。此外，通过提供多语言版本的法律文本，该数据集还为跨语言法律文本的翻译与对齐研究提供了宝贵的资源，进一步拓展了隐私法律研究的边界。

衍生相关工作

Privacy Law Corpus 数据集的发布催生了一系列相关的经典工作。首先，基于该数据集的隐私法律比较研究成为学术界的热点，许多研究者利用其进行跨文化、跨时间的隐私法律分析，发表了多篇高影响力的论文。其次，该数据集推动了法律文本自动化处理技术的发展，如法律条款的自动分类、信息抽取和语义分析，相关研究成果在自然语言处理和法律信息学领域得到了广泛应用。此外，基于该数据集的跨语言法律文本翻译与对齐研究也为多语言法律文本处理提供了新的思路和方法，进一步丰富了隐私法律研究的工具箱。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集