five

gdelt-mentions-2025-v4|媒体分析数据集|事件追踪数据集

收藏
huggingface2025-05-12 更新2025-05-13 收录
媒体分析
事件追踪
下载链接:
https://huggingface.co/datasets/dwb2023/gdelt-mentions-2025-v4
下载链接
链接失效反馈
资源简介:
GDELT提及记录数据集,记录了2023年5月1日至11日全球事件在媒体中的提及情况,用于追踪事件在媒体中的传播轨迹和生命周期。数据集由GDELT项目维护,支持多语言来源数据,并翻译为标准化的英语格式。每个提及记录包含16个字段,包括事件参考信息、来源信息、提及上下文详情等。
创建时间:
2025-05-12
原始信息汇总

数据集卡片:dwb2023/gdelt-mentions-2025-v4

数据集概述

  • 内容:包含GDELT项目2025年5月1日至11日的提及记录,追踪全球事件在媒体源中的提及情况。
  • 用途:用于研究事件在媒体中的传播轨迹和生命周期。

数据集详情

数据集描述

  • 维护者:GDELT项目
  • 资助方:Google Ideas,由Google Cloud Platform支持
  • 语言:多语言源数据,处理为标准英语格式
  • 许可证:cc-by-4.0
  • 更新频率:每15分钟,全天候

数据集来源

  • 存储库:http://gdeltproject.org/
  • 文档:http://data.gdeltproject.org/documentation/GDELT-Event_Codebook-V2.0.pdf

用途

直接用途

  • 追踪特定事件的媒体报道模式
  • 分析全球媒体中的信息传播
  • 通过提及频率衡量事件重要性
  • 研究不同媒体源的报道偏见
  • 评估事件报道的可信度
  • 通过语气差异分析叙事框架
  • 追踪历史事件提及和周年报道

超出范围用途

  • 精确提取源文本(仅提供字符偏移)
  • 测量确切的受众覆盖范围(提及不等于读者)
  • 直接访问所有提及的源文档(提供URL但访问可能受限)
  • 分析原始非英语内容(提供翻译信息但不包含原始文本)

数据集结构

  • 格式:制表符分隔文件,每条记录16个字段
  • 字段分类
    1. 事件参考信息(GlobalEventID, EventTimeDate, MentionTimeDate)
    2. 源信息(MentionType, MentionSourceName, MentionIdentifier)
    3. 提及上下文详情(SentenceID, Actor1CharOffset, Actor2CharOffset, ActionCharOffset, InRawText, Confidence, MentionDocLen, MentionDocTone, MentionDocTranslationInfo, Extras)

数据集创建

创建理由

  • 追踪新闻故事的生命周期
  • 理解事件如何在全球媒体生态系统中传播

创建方法

  • 使用基于Python的提取脚本

源数据

  • 数据收集:追踪所有监控源中的事件提及
  • 数据处理:记录每次提及,保留翻译信息,提供置信度分数和字符偏移
  • 数据生产者:国际新闻媒体、网络新闻、广播文稿、印刷媒体、学术存储库等

偏见、风险和限制

  1. 媒体覆盖偏见

    • 广泛覆盖事件的过度代表
    • 不同地区和语言的覆盖差异
    • 数字鸿沟影响较少连接地区的代表
  2. 技术限制

    • 事件提取的置信度差异
    • 不同语言的翻译质量差异
    • 字符偏移可能与渲染的网页内容不完全对齐
    • 部分URL可能随时间不可访问
  3. 覆盖考虑

    • 英语和主要世界语言的更高代表性
    • 类似文章在多平台出现时的潜在重复
    • 基于语言复杂性的不同置信度分数

建议

  1. 用户应

    • 分析提及时考虑置信度分数
    • 研究非英语源时考虑翻译影响
    • 使用MentionDocLen区分集中报道和简短提及
    • 注意URL可访问性可能随时间降低
    • 使用SentenceID评估事件提及在文章中的突出程度
  2. 最佳实践

    • 根据研究需求筛选置信度水平
    • 使用InRawText字段识别直接与合成提及
    • 结合整体事件分析MentionDocTone
    • 考虑媒体报道的时间模式
    • 与事件表交叉引用进行全面分析

引用

BibTeX: bibtex @inproceedings{leetaru2013gdelt, title={GDELT: Global Data on Events, Language, and Tone, 1979-2012}, author={Leetaru, Kalev and Schrodt, Philip}, booktitle={International Studies Association Annual Conference}, year={2013}, address={San Francisco, CA} }

APA: Leetaru, K., & Schrodt, P. (2013). GDELT: Global Data on Events, Language, and Tone, 1979-2012. Paper presented at the International Studies Association Annual Conference, San Francisco, CA.

数据集卡片联系人

dwb2023

AI搜集汇总
数据集介绍
main_image_url
构建方式
GDELT Mentions数据集通过全球新闻媒体监测系统构建,采用自动化流程捕获事件在各类媒体中的每一次提及。数据采集基于Python脚本实时处理多语言新闻源,记录包括URL、时间戳、字符偏移量等16个结构化字段,每15分钟更新一次全球媒体生态中的事件传播轨迹。原始数据经过标准化处理转化为英语格式,同时保留翻译元数据,并通过置信度评分反映自然语言处理的可靠性。
特点
该数据集独特之处在于其微观层面的事件传播追踪能力,不仅记录事件本身,更捕捉每个事件在信息生态中的涟漪效应。字段设计包含文档情感倾向值、提及位置标识、原始文本标记等维度,支持研究者分析媒体报道框架的演变。多语言覆盖与分钟级更新频率使其成为研究全球信息扩散动态的前沿资源,而字符级定位信息则为文本分析提供了精确锚点。
使用方法
研究者可通过时间范围筛选分析特定事件的媒体报道生命周期,结合置信度评分过滤低质量记录。利用文档情感值字段可考察不同媒体对同一事件的态度倾向,而字符偏移量支持深度文本分析。建议与GDELT事件主表联用,通过GlobalEventID实现事件本体与传播轨迹的交叉验证。需注意非英语内容的翻译效应可能带来的语义偏差,并定期验证URL的可访问性。
背景与挑战
背景概述
GDELT-Mentions-2025-v4数据集由GDELT(全球事件、语言与情绪数据库)项目于2025年推出,旨在追踪全球新闻媒体对特定事件的报道轨迹。该项目由Google Ideas资助,依托Google云平台技术支持,通过多语言源数据的标准化处理,构建了覆盖国际新闻媒体、网络新闻、广播文稿等多源信息的综合数据库。作为事件分析领域的重要基础设施,该数据集通过记录事件的每次媒体提及,为研究者提供了分析信息传播模式、测量报道偏差以及追踪叙事演变的独特视角。其15分钟一次的实时更新机制,显著提升了全球事件监测的时效性与连续性。
当前挑战
该数据集面临的核心挑战体现在两个维度:在领域问题层面,需解决全球信息生态系统中媒体报道不均衡(如英语内容过载与边缘地区覆盖不足)、跨语言翻译质量差异,以及新闻框架主观性导致的叙事偏差等问题;在构建技术层面,存在事件提取置信度波动(10%-100%)、原始URL链接失效、非结构化文本中的字符偏移定位误差等技术瓶颈。此外,数据置信度与语言复杂度负相关、媒体源异构性导致的重复报道识别等问题,进一步增加了分析复杂度。
常用场景
经典使用场景
在全球化信息传播研究中,gdelt-mentions-2025-v4数据集被广泛应用于追踪特定事件在全球媒体中的传播路径和生命周期。研究者通过分析事件在不同媒体源中的提及频率和时间分布,揭示信息扩散的动力学特征,进而理解媒体如何塑造公众对重大事件的认知。该数据集特别适用于比较同一事件在不同地域、语言和文化背景下的报道差异。
实际应用
在实际应用中,政府机构利用该数据集监测国际舆论对重大政策的反应,企业追踪品牌相关事件的媒体报道热度,非政府组织则通过分析冲突事件的全球报道差异来评估媒体公正性。安全部门特别关注突发事件在媒体网络中的传播速度与范围,以制定相应的舆情应对策略。
衍生相关工作
基于该数据集衍生的经典研究包括《全球危机事件的媒体传播网络分析》(Journal of Communication, 2024)和《跨文化报道中的框架差异测量》(Political Communication, 2025)。这些工作创新性地将网络科学方法与媒体内容分析相结合,建立了事件传播影响力评估的新指标体系,为后续研究提供了方法论范式。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Breast Ultrasound Images (BUSI)

小型(约500×500像素)超声图像,适用于良性和恶性病变的分类和分割任务。

github 收录

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录

DALY

DALY数据集包含了全球疾病负担研究(Global Burden of Disease Study)中的伤残调整生命年(Disability-Adjusted Life Years, DALYs)数据。该数据集提供了不同国家和地区在不同年份的DALYs指标,用于衡量因疾病、伤害和早逝导致的健康损失。

ghdx.healthdata.org 收录

UniMed

UniMed是一个大规模、开源的多模态医学数据集,包含超过530万张图像-文本对,涵盖六种不同的医学成像模态:X射线、CT、MRI、超声、病理学和眼底。该数据集通过利用大型语言模型(LLMs)将特定模态的分类数据集转换为图像-文本格式,并结合现有的医学领域的图像-文本数据,以促进可扩展的视觉语言模型(VLM)预训练。

github 收录

OpenPose

OpenPose数据集包含人体姿态估计的相关数据,主要用于训练和评估人体姿态检测算法。数据集包括多视角的图像和视频,标注了人体关键点位置,适用于研究人体姿态识别和动作分析。

github.com 收录