global-censorship-index

Hugging Face2026-02-05 更新2026-02-07 收录

下载链接：

https://huggingface.co/datasets/emperor-mew/global-censorship-index

下载链接

链接失效反馈

官方服务：

资源简介：

Voidly全球网络审查指数是一个用于互联网审查研究和机器学习的综合性开放数据集。该数据集包含来自120多个国家长达10年的互联网审查测量数据，具体包括：160万+的每日测量数据（2017-2026年）、37K个检测到的异常峰值、4.5K个带有标签的确认审查事件，以及25+个已知重大事件（如Mahsa Amini抗议活动、缅甸政变等）。数据主要来源于OONI（开放网络干扰观测站）和Voidly研究的分析与标注。数据集包含两个主要文件：ooni-historical.parquet（按国家/测试分类的每日测量数据，共1.6M行）和censorship-incidents.parquet（标记的异常峰值，共37K行）。数据集适用于表格分类和时间序列预测任务，可用于研究互联网审查、网络自由、人权和地缘政治等相关领域。

创建时间：

2026-01-27

搜集汇总

数据集介绍

构建方式

全球网络审查指数数据集的构建依托于开放式网络干扰观测站的大规模实时测量，其核心数据来源于对50个国家网络环境的持续监测。该数据集通过分布式传感器网络与匿名化VPN遥测技术，累计采集超过1248万次网络探测结果，每日动态更新以确保时效性。数据整合过程采用标准化的评分体系，将网络阻断率转化为0至100的审查分数，并依据预设阈值划分为五个威胁等级，从而形成系统化的国家层面审查评估。

特点

本数据集最显著的特征在于其动态性与实证性，区别于传统的年度专家评估报告，它基于每日更新的实际网络测量数据，能够实时反映各国互联网审查状况的变化。数据集覆盖了从自由到严重等不同审查程度的国家，并提供了包括网络连通性测试、即时通讯应用封锁情况在内的多维指标。其结构化字段设计，如国家代码、审查分数、威胁等级及具体测试数量，为量化分析与跨国比较研究提供了坚实的数据基础。

使用方法

研究人员可通过Hugging Face平台便捷加载该数据集，利用其进行文本分类或问答等自然语言处理任务的模型训练，尤其适用于互联网自由、数字人权等领域的政策分析与趋势预测。数据集中的审查分数与威胁等级字段可直接用于国家层面的排序与可视化分析，而详细的测试类型与网络服务商信息则支持更深层次的因果推断与影响因素研究。遵循CC BY 4.0许可，使用者在注明出处后即可自由应用于学术研究或技术开发。

背景与挑战

背景概述

全球互联网治理与数字权利监测领域长期面临数据实时性与客观性不足的挑战，传统依赖专家年度评估的报告往往存在滞后性。在此背景下，Voidly Research于2025年发布了全球审查指数数据集，该数据集基于开放网络干扰观测站（OONI）超过1248万次实时网络探测数据，对全球50个国家的互联网审查状况进行量化评估。通过每日更新的动态测量机制，该数据集为核心研究问题——即如何客观、及时地衡量国家层面的网络审查强度——提供了实证基础，对数字人权、网络政策比较研究及透明度倡议产生了直接影响。

当前挑战

该数据集旨在解决互联网审查量化评估这一复杂领域问题，其核心挑战在于如何从海量异构网络测量数据中提取可靠、可比较的国家级审查指标，并克服因网络基础设施差异、测试方法局限性及数据收集偏差导致的评估噪声。在构建过程中，研究团队需应对多类技术障碍，包括整合来自分布式传感器节点与匿名化VPN遥测的异构数据源、设计能够准确反映不同审查策略（如网站屏蔽、通讯应用干扰）的复合评分模型，以及确保大规模实时数据处理流程的稳健性与可重复性。

常用场景

经典使用场景

在互联网治理与数字权利研究领域，全球审查指数数据集为量化网络审查强度提供了实证基础。该数据集通过整合OONI网络探针的实时测量数据，支持对50个国家的网络封锁状况进行动态评估。研究人员可依据其提供的审查分数和威胁等级，开展跨国比较分析，揭示不同政权体制下网络管控模式的异同，从而深化对数字空间治理机制的理解。

实际应用

在实际应用层面，全球审查指数被广泛用于国际组织的人权监测与政策倡导。非政府组织可依据其数据编制年度数字权利报告，向联合国等机构提交审查侵权证据。同时，科技公司利用该数据集评估特定地区的网络连通性风险，为产品本地化策略和跨境服务部署提供决策参考，助力企业在合规框架下优化全球业务布局。

衍生相关工作

基于该数据集衍生的经典研究包括网络审查的地缘政治分析、审查技术的演化追踪以及抗审查工具的效果评估。例如，学者通过结合审查分数与政权类型数据，揭示了威权国家更倾向于采用深度包检测技术；另有研究利用其时间序列数据，开发了预测审查升级的机器学习模型，为前瞻性政策干预提供了方法论支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集