gdelt-event-2025-v4

Hugging Face2025-05-12 更新2025-05-13 收录

下载链接：

https://huggingface.co/datasets/dwb2023/gdelt-event-2025-v4

下载链接

链接失效反馈

官方服务：

资源简介：

GDELT事件数据库是一个包含全球所有国家人类社会规模行为和信念的全面仓库，记录了世界各地发生的超过2.5亿个事件，涵盖300多个类别。该数据库通过实时监控全球新闻媒体，使用CAMEO编码系统来标识和编码事件。

The GDELT Event Database is a comprehensive repository of human societal-scale behaviors and beliefs across all countries worldwide. It documents over 250 million events occurring globally, covering more than 300 event categories. This database identifies and encodes events using the CAMEO coding system by conducting real-time monitoring of global news media.

创建时间：

2025-05-12

原始信息汇总

数据集卡片：dwb2023/gdelt-event-2025-v4

数据集概述

内容：全球事件记录，来自GDELT项目2025年5月1日至11日的新闻媒体报道数据
特点：覆盖全球人类行为和社会活动，包含超过300个类别的事件记录

数据集详情

基本描述

维护方：GDELT项目
资助方：Google Ideas（谷歌云平台支持）
语言：多语言源数据，处理为标准英语格式
许可证：CC-BY-4.0（需正确署名）
更新频率：每15分钟，全天候

数据来源

项目官网：http://gdeltproject.org/
参考文献：Leetaru & Schrodt (2013) ISA会议论文
文档：
- GDELT事件代码手册V2.0
- CAMEO编码手册1.1b3版

数据用途

适用场景

全球事件实时监测
国际关系分析
社会运动追踪
政治学/社会科学研究
危机预警系统
地缘政治风险评估

不适用场景

实时应急响应
个人追踪监控
单一事件真相来源
无限制的未来事件预测

数据结构

格式：制表符分隔文件
字段数：61个/记录
主要字段组：
1. 事件标识（GlobalEventID等）
2. 参与者信息（Actor1/Actor2相关字段）
3. 事件详情（EventCode/GoldsteinScale等）
4. 地理信息（国家代码/经纬度等）

数据创建

构建方法

全球新闻媒体持续监控
NLP自动处理
CAMEO分类系统编码
全文地理编码
15分钟更新周期

源数据

来源类型：
- 国际新闻媒体
- 网络新闻
- 广播文稿
- 印刷媒体

风险与限制

主要问题

媒体偏见（英语媒体过代表等）
技术限制（机器编码错误等）
覆盖缺口（媒体受限地区等）

使用建议

关键事件交叉验证
考虑媒体报道偏见
使用统计聚合方法
处理重复记录问题

引用规范

BibTeX格式

bibtex @inproceedings{leetaru2013gdelt, title={GDELT: Global Data on Events, Language, and Tone, 1979-2012}, author={Leetaru, Kalev and Schrodt, Philip}, booktitle={International Studies Association Annual Conference}, year={2013}, address={San Francisco, CA} }

APA格式

Leetaru, K., & Schrodt, P. (2013). GDELT: Global Data on Events, Language, and Tone, 1979-2012. Paper presented at the International Studies Association Annual Conference, San Francisco, CA.

搜集汇总

数据集介绍

构建方式

GDELT事件数据库作为全球社会行为研究的基石，其构建过程体现了多源异构数据的深度整合。该数据集通过自动化流水线实时采集全球新闻媒体内容，采用自然语言处理技术提取事件要素，并基于CAMEO编码体系对事件类型、参与主体及地理信息进行标准化标注。每15分钟更新的机制确保了数据的时效性，机器翻译模块则突破了语言壁垒，将多语种报道转化为结构化事件记录。数据采集范围涵盖国际新闻机构、网络媒体及广播文本等公开信息源，通过预定义的61个字段完整刻画事件全貌。

使用方法

在实际应用层面，研究者可通过HuggingFace平台获取标准化的Tab分隔文件。建议首先关注GlobalEventID作为主键进行数据去重，结合QuadClass和GoldsteinScale字段筛选目标事件类型。对于时空分析，可利用MonthYear字段配合ActorCountryCode实现快速聚合，而AvgTone指标则适合用于媒体倾向性研究。需注意通过DATEADDED时间戳验证数据新鲜度，并参照官方提供的代码手册解析复杂的CAMEO编码。典型应用场景包括建立国际关系事件知识图谱，或通过时间序列分析预测区域冲突态势。

背景与挑战

背景概述

GDELT（Global Database of Events, Language, and Tone）项目由Kalev Leetaru和Philip Schrodt于2013年提出，旨在通过全球新闻媒体覆盖实时捕捉和分析人类社会行为。该项目由Google Ideas资助，并依托Google Cloud Platform技术支持，构建了一个覆盖全球事件的大规模网络数据库。GDELT采用CAMEO（Conflict and Mediation Event Observations）编码系统，记录超过300个类别的事件，涵盖政治、社会、经济等多个领域，为国际关系、政治学和社会科学研究提供了重要数据支持。其影响力不仅体现在学术研究中，还被广泛应用于危机预警系统和地缘政治风险评估。

当前挑战

GDELT数据集在构建和应用过程中面临多重挑战。首先，数据来源依赖全球新闻媒体，存在明显的媒体偏见，尤其是英语媒体的过度代表性和区域覆盖不均问题。其次，自动化处理技术（如自然语言处理和机器翻译）可能导致事件编码错误和翻译不准确，影响数据质量。此外，地理编码的精确性和重复事件报告的识别也是技术难点。在应用层面，由于事件覆盖的局限性（如媒体受限地区和低覆盖率区域），数据可能无法全面反映全球事件的真实分布，用户需结合其他数据源进行交叉验证以确保分析结果的可靠性。

常用场景

经典使用场景

在全球化研究领域，gdelt-event-2025-v4数据集以其实时性和全面性成为分析国际事件的重要工具。该数据集通过整合全球新闻媒体报道，捕捉各类社会政治事件，为研究者提供了丰富的时空数据。其经典使用场景包括监测地区冲突演变、追踪社会运动发展趋势以及分析国际关系动态，这些应用充分展现了数据集在宏观社会研究中的独特价值。

解决学术问题

该数据集有效解决了传统国际关系研究中数据获取困难、时效性差等关键问题。通过标准化的CAMEO事件编码系统和自动化处理流程，研究者能够系统性地分析全球范围内的合作与冲突模式。特别在定量研究领域，数据集提供的Goldstein评分和情感倾向指标，为测量事件影响力和媒体倾向提供了可靠依据，极大推动了政治学和社会科学的实证研究发展。

实际应用

在实践层面，gdelt-event-2025-v4数据集被广泛应用于地缘政治风险评估和危机预警系统建设。政府部门利用其实时事件流监测国际形势变化，非政府组织则借助数据追踪人道主义危机发展。商业机构特别关注数据集中的经济事件指标，用于全球市场波动分析和投资决策支持，体现了数据在跨领域应用中的广泛适应性。

数据集最近研究