Platform Governance Archive (PGA) v1
收藏github2023-07-11 更新2024-05-31 收录
下载链接:
https://github.com/PlatformGovernanceArchive/pga-corpus
下载链接
链接失效反馈官方服务:
资源简介:
这是一个原始的PGA数据集,通过自动和手动方法回顾性地收集数据,基于互联网档案馆的Wayback Machine构建。数据集包括Facebook、Instagram、Twitter和YouTube四个主要平台的政策,时间范围从2005年到2021年。
This is an original PGA dataset, retrospectively collected through both automated and manual methods, constructed based on the Wayback Machine from the Internet Archive. The dataset encompasses policies from four major platforms: Facebook, Instagram, Twitter, and YouTube, spanning from 2005 to 2021.
创建时间:
2022-03-25
原始信息汇总
数据集概述
名称: PGA v1 Dataset
描述: 该数据集是通过自动化和手动方法从Internet Archive的Wayback Machine收集的历史数据,涵盖了Facebook、Instagram、Twitter、YouTube四大平台的政策,时间跨度为2005年至2021年。
平台: Facebook, Instagram, Twitter, YouTube
时间范围: 2005-2021
数据集引用:
- Katzenbach, C., Kopps, A., Magalhaes, J. C., Redeker. D., Sühr, T. (2023). Platform Governance Archive (PGA) v1. DOI: 10.17605/OSF.IO/XSBPT.
数据使用指南
- 数据文档: 使用前应查阅相关数据文档。
- 引用要求: 使用数据集时需引用该项目及实际数据集。
- 通知作者: 使用后建议通知作者,以便被包含在研究成果页面中。
数据集内容
数据集结构
- pga-corpus: 包含所有已识别的历史政策版本的最终数据集,格式包括PDF、HTML和Markdown,共1,071个单位。
- pga-workbench: 提供数据收集和处理过程中使用的工具和数据,包括URL列表、快照、差异检查和脚本等。
数据集详细内容
- pga-corpus/Versions: 包含所有历史政策版本的最终数据集,每个政策提供一个包含所有历史版本的PDF文件。
- pga-workbench/URL List: CSV格式的URL列表,用于重现数据收集过程。
- pga-workbench/Snapshots: 包含从Wayback Machine收集的政策快照,格式为PDF、HTML和Markdown,共15,039个单位。
- pga-workbench/Diffcheck: 提供自动化差异检查的比较视图,格式为HTML和Markdown,共9,636个单位。
- pga-workbench/Scripts: 用于自动化数据收集和处理的脚本,格式为IPYNB。
- pga-workbench/Plots: 显示PGA corpus发展趋势的热图和图表,格式为SVG和PNG,共35个单位。
数据集许可证
该数据集根据Open Data Commons Attribution License提供,使用时需引用数据集。
搜集汇总
数据集介绍

构建方式
Platform Governance Archive (PGA) v1 数据集的构建采用了自动化与人工相结合的方式,主要依托于互联网档案馆的Wayback Machine进行历史数据的回溯收集。数据集涵盖了Facebook、Instagram、Twitter和YouTube四大平台自成立以来的政策文件,时间跨度为2005年至2021年。通过每周最多一次的抓取频率,确保了数据的全面性与时效性。
使用方法
使用PGA v1 数据集时,建议首先查阅相关的数据文档,确保对数据结构和内容有充分了解。在使用过程中,需引用该数据集及其来源,并向项目团队发送通知以便被纳入研究输出页面。数据集提供了详细的URL列表、脚本和清理前的数据,用户可通过GitHub仓库访问这些资源,进行数据收集过程的复现或进一步分析。
背景与挑战
背景概述
Platform Governance Archive (PGA) v1 数据集由不莱梅大学媒体、传播与信息研究中心(ZeMKI)的研究团队于2023年创建,主要研究人员包括 Christian Katzenbach、Anna Kopps、João Carlos Magalhaes、Dennis Redeker 和 Tobias Sühr。该数据集旨在通过回溯性数据收集方法,结合自动化与人工手段,记录并分析四大主要平台(Facebook、Instagram、Twitter、YouTube)自2005年至2021年间的政策演变。PGA v1 的创建为研究平台治理、政策演变及其对数字社会的影响提供了宝贵的历史数据支持,推动了数字平台治理领域的学术研究与实践探索。
当前挑战
PGA v1 数据集在构建过程中面临多重挑战。首先,数据收集依赖于互联网档案馆的 Wayback Machine,这导致数据的时间戳与政策实际发布时间可能存在偏差,增加了数据清洗与对齐的复杂性。其次,由于平台政策的频繁更新与URL变更,确保数据的完整性与一致性成为一项艰巨任务。此外,自动化与人工结合的收集方式虽然提高了效率,但也引入了潜在的误差,尤其是在处理非结构化数据(如HTML与PDF文档)时。这些挑战不仅影响了数据的精确性,也对后续的研究分析提出了更高的技术要求。
常用场景
经典使用场景
Platform Governance Archive (PGA) v1数据集在研究平台治理政策的历史演变中扮演了关键角色。该数据集涵盖了Facebook、Instagram、Twitter和YouTube等主要平台自2005年至2021年的政策文件,为学者提供了丰富的纵向数据资源。通过分析这些政策文件,研究者能够深入探讨平台治理策略的变迁,揭示不同时期平台对用户行为、内容管理和隐私保护的态度变化。
解决学术问题
PGA v1数据集解决了平台治理研究中的关键问题,尤其是政策演变的追踪与分析。通过对历史政策文件的系统整理,研究者能够识别平台政策的变化趋势,分析政策调整背后的动因,并评估这些变化对用户行为和社会的影响。该数据集为研究平台治理的长期动态提供了可靠的数据支持,填补了该领域的数据空白。
实际应用
PGA v1数据集在实际应用中具有广泛的潜力。政策制定者、法律专家和平台管理者可以通过该数据集了解平台政策的演变历程,借鉴历史经验优化现行政策。此外,非政府组织和媒体机构也可以利用这些数据,评估平台在内容审核、隐私保护和用户权利方面的表现,推动公众对平台治理的讨论与监督。
数据集最近研究
最新研究方向
在数字平台治理领域,Platform Governance Archive (PGA) v1数据集为研究者提供了深入分析四大主要平台(Facebook、Instagram、Twitter、YouTube)政策演变的宝贵资源。近年来,随着全球对平台内容监管和用户隐私保护的关注度不断提升,PGA v1数据集在揭示平台政策的历史变迁、政策制定的动态过程以及政策对用户行为的影响方面发挥了重要作用。研究者利用该数据集,能够追踪平台政策从2005年至2021年的演变轨迹,分析政策文本的语言变化、条款调整的频率及其背后的社会和技术驱动因素。此外,PGA v1还为跨平台比较研究提供了基础,帮助揭示不同平台在治理策略上的异同及其对全球数字生态的影响。这一数据集不仅推动了平台治理研究的深入,也为政策制定者提供了数据支持,助力构建更加透明和负责任的数字平台环境。
以上内容由遇见数据集搜集并总结生成



