gdelt-mentions-2025-v4

Hugging Face2025-05-12 更新2025-05-13 收录

下载链接：

https://huggingface.co/datasets/dwb2023/gdelt-mentions-2025-v4

下载链接

链接失效反馈

官方服务：

资源简介：

GDELT提及记录数据集，记录了2023年5月1日至11日全球事件在媒体中的提及情况，用于追踪事件在媒体中的传播轨迹和生命周期。数据集由GDELT项目维护，支持多语言来源数据，并翻译为标准化的英语格式。每个提及记录包含16个字段，包括事件参考信息、来源信息、提及上下文详情等。

创建时间：

2025-05-12

原始信息汇总

数据集卡片：dwb2023/gdelt-mentions-2025-v4

数据集概述

内容：包含GDELT项目2025年5月1日至11日的提及记录，追踪全球事件在媒体源中的提及情况。
用途：用于研究事件在媒体中的传播轨迹和生命周期。

数据集详情

数据集描述

维护者：GDELT项目
资助方：Google Ideas，由Google Cloud Platform支持
语言：多语言源数据，处理为标准英语格式
许可证：cc-by-4.0
更新频率：每15分钟，全天候

数据集来源

存储库：http://gdeltproject.org/
文档：http://data.gdeltproject.org/documentation/GDELT-Event_Codebook-V2.0.pdf

用途

直接用途

追踪特定事件的媒体报道模式
分析全球媒体中的信息传播
通过提及频率衡量事件重要性
研究不同媒体源的报道偏见
评估事件报道的可信度
通过语气差异分析叙事框架
追踪历史事件提及和周年报道

超出范围用途

精确提取源文本（仅提供字符偏移）
测量确切的受众覆盖范围（提及不等于读者）
直接访问所有提及的源文档（提供URL但访问可能受限）
分析原始非英语内容（提供翻译信息但不包含原始文本）

数据集结构

格式：制表符分隔文件，每条记录16个字段
字段分类：
1. 事件参考信息（GlobalEventID, EventTimeDate, MentionTimeDate）
2. 源信息（MentionType, MentionSourceName, MentionIdentifier）
3. 提及上下文详情（SentenceID, Actor1CharOffset, Actor2CharOffset, ActionCharOffset, InRawText, Confidence, MentionDocLen, MentionDocTone, MentionDocTranslationInfo, Extras）

数据集创建

创建理由

追踪新闻故事的生命周期
理解事件如何在全球媒体生态系统中传播

创建方法

使用基于Python的提取脚本

源数据

数据收集：追踪所有监控源中的事件提及
数据处理：记录每次提及，保留翻译信息，提供置信度分数和字符偏移
数据生产者：国际新闻媒体、网络新闻、广播文稿、印刷媒体、学术存储库等

偏见、风险和限制

媒体覆盖偏见：
- 广泛覆盖事件的过度代表
- 不同地区和语言的覆盖差异
- 数字鸿沟影响较少连接地区的代表
技术限制：
- 事件提取的置信度差异
- 不同语言的翻译质量差异
- 字符偏移可能与渲染的网页内容不完全对齐
- 部分URL可能随时间不可访问
覆盖考虑：
- 英语和主要世界语言的更高代表性
- 类似文章在多平台出现时的潜在重复
- 基于语言复杂性的不同置信度分数

建议

用户应：
- 分析提及时考虑置信度分数
- 研究非英语源时考虑翻译影响
- 使用MentionDocLen区分集中报道和简短提及
- 注意URL可访问性可能随时间降低
- 使用SentenceID评估事件提及在文章中的突出程度
最佳实践：
- 根据研究需求筛选置信度水平
- 使用InRawText字段识别直接与合成提及
- 结合整体事件分析MentionDocTone
- 考虑媒体报道的时间模式
- 与事件表交叉引用进行全面分析

引用

BibTeX: bibtex @inproceedings{leetaru2013gdelt, title={GDELT: Global Data on Events, Language, and Tone, 1979-2012}, author={Leetaru, Kalev and Schrodt, Philip}, booktitle={International Studies Association Annual Conference}, year={2013}, address={San Francisco, CA} }

APA: Leetaru, K., & Schrodt, P. (2013). GDELT: Global Data on Events, Language, and Tone, 1979-2012. Paper presented at the International Studies Association Annual Conference, San Francisco, CA.

数据集卡片联系人

dwb2023

搜集汇总

数据集介绍

构建方式

GDELT Mentions数据集通过全球新闻媒体监测系统构建，采用自动化流程捕获事件在各类媒体中的每一次提及。数据采集基于Python脚本实时处理多语言新闻源，记录包括URL、时间戳、字符偏移量等16个结构化字段，每15分钟更新一次全球媒体生态中的事件传播轨迹。原始数据经过标准化处理转化为英语格式，同时保留翻译元数据，并通过置信度评分反映自然语言处理的可靠性。

特点

该数据集独特之处在于其微观层面的事件传播追踪能力，不仅记录事件本身，更捕捉每个事件在信息生态中的涟漪效应。字段设计包含文档情感倾向值、提及位置标识、原始文本标记等维度，支持研究者分析媒体报道框架的演变。多语言覆盖与分钟级更新频率使其成为研究全球信息扩散动态的前沿资源，而字符级定位信息则为文本分析提供了精确锚点。

使用方法

研究者可通过时间范围筛选分析特定事件的媒体报道生命周期，结合置信度评分过滤低质量记录。利用文档情感值字段可考察不同媒体对同一事件的态度倾向，而字符偏移量支持深度文本分析。建议与GDELT事件主表联用，通过GlobalEventID实现事件本体与传播轨迹的交叉验证。需注意非英语内容的翻译效应可能带来的语义偏差，并定期验证URL的可访问性。

背景与挑战

背景概述

GDELT-Mentions-2025-v4数据集由GDELT（全球事件、语言与情绪数据库）项目于2025年推出，旨在追踪全球新闻媒体对特定事件的报道轨迹。该项目由Google Ideas资助，依托Google云平台技术支持，通过多语言源数据的标准化处理，构建了覆盖国际新闻媒体、网络新闻、广播文稿等多源信息的综合数据库。作为事件分析领域的重要基础设施，该数据集通过记录事件的每次媒体提及，为研究者提供了分析信息传播模式、测量报道偏差以及追踪叙事演变的独特视角。其15分钟一次的实时更新机制，显著提升了全球事件监测的时效性与连续性。

当前挑战

该数据集面临的核心挑战体现在两个维度：在领域问题层面，需解决全球信息生态系统中媒体报道不均衡（如英语内容过载与边缘地区覆盖不足）、跨语言翻译质量差异，以及新闻框架主观性导致的叙事偏差等问题；在构建技术层面，存在事件提取置信度波动（10%-100%）、原始URL链接失效、非结构化文本中的字符偏移定位误差等技术瓶颈。此外，数据置信度与语言复杂度负相关、媒体源异构性导致的重复报道识别等问题，进一步增加了分析复杂度。

常用场景

经典使用场景

在全球化信息传播研究中，gdelt-mentions-2025-v4数据集被广泛应用于追踪特定事件在全球媒体中的传播路径和生命周期。研究者通过分析事件在不同媒体源中的提及频率和时间分布，揭示信息扩散的动力学特征，进而理解媒体如何塑造公众对重大事件的认知。该数据集特别适用于比较同一事件在不同地域、语言和文化背景下的报道差异。

实际应用

在实际应用中，政府机构利用该数据集监测国际舆论对重大政策的反应，企业追踪品牌相关事件的媒体报道热度，非政府组织则通过分析冲突事件的全球报道差异来评估媒体公正性。安全部门特别关注突发事件在媒体网络中的传播速度与范围，以制定相应的舆情应对策略。

衍生相关工作

基于该数据集衍生的经典研究包括《全球危机事件的媒体传播网络分析》(Journal of Communication, 2024)和《跨文化报道中的框架差异测量》(Political Communication, 2025)。这些工作创新性地将网络科学方法与媒体内容分析相结合，建立了事件传播影响力评估的新指标体系，为后续研究提供了方法论范式。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集