gdelt-mentions-2025-v4|媒体分析数据集|事件追踪数据集
收藏数据集卡片:dwb2023/gdelt-mentions-2025-v4
数据集概述
- 内容:包含GDELT项目2025年5月1日至11日的提及记录,追踪全球事件在媒体源中的提及情况。
- 用途:用于研究事件在媒体中的传播轨迹和生命周期。
数据集详情
数据集描述
- 维护者:GDELT项目
- 资助方:Google Ideas,由Google Cloud Platform支持
- 语言:多语言源数据,处理为标准英语格式
- 许可证:cc-by-4.0
- 更新频率:每15分钟,全天候
数据集来源
- 存储库:http://gdeltproject.org/
- 文档:http://data.gdeltproject.org/documentation/GDELT-Event_Codebook-V2.0.pdf
用途
直接用途
- 追踪特定事件的媒体报道模式
- 分析全球媒体中的信息传播
- 通过提及频率衡量事件重要性
- 研究不同媒体源的报道偏见
- 评估事件报道的可信度
- 通过语气差异分析叙事框架
- 追踪历史事件提及和周年报道
超出范围用途
- 精确提取源文本(仅提供字符偏移)
- 测量确切的受众覆盖范围(提及不等于读者)
- 直接访问所有提及的源文档(提供URL但访问可能受限)
- 分析原始非英语内容(提供翻译信息但不包含原始文本)
数据集结构
- 格式:制表符分隔文件,每条记录16个字段
- 字段分类:
- 事件参考信息(GlobalEventID, EventTimeDate, MentionTimeDate)
- 源信息(MentionType, MentionSourceName, MentionIdentifier)
- 提及上下文详情(SentenceID, Actor1CharOffset, Actor2CharOffset, ActionCharOffset, InRawText, Confidence, MentionDocLen, MentionDocTone, MentionDocTranslationInfo, Extras)
数据集创建
创建理由
- 追踪新闻故事的生命周期
- 理解事件如何在全球媒体生态系统中传播
创建方法
- 使用基于Python的提取脚本
源数据
- 数据收集:追踪所有监控源中的事件提及
- 数据处理:记录每次提及,保留翻译信息,提供置信度分数和字符偏移
- 数据生产者:国际新闻媒体、网络新闻、广播文稿、印刷媒体、学术存储库等
偏见、风险和限制
-
媒体覆盖偏见:
- 广泛覆盖事件的过度代表
- 不同地区和语言的覆盖差异
- 数字鸿沟影响较少连接地区的代表
-
技术限制:
- 事件提取的置信度差异
- 不同语言的翻译质量差异
- 字符偏移可能与渲染的网页内容不完全对齐
- 部分URL可能随时间不可访问
-
覆盖考虑:
- 英语和主要世界语言的更高代表性
- 类似文章在多平台出现时的潜在重复
- 基于语言复杂性的不同置信度分数
建议
-
用户应:
- 分析提及时考虑置信度分数
- 研究非英语源时考虑翻译影响
- 使用MentionDocLen区分集中报道和简短提及
- 注意URL可访问性可能随时间降低
- 使用SentenceID评估事件提及在文章中的突出程度
-
最佳实践:
- 根据研究需求筛选置信度水平
- 使用InRawText字段识别直接与合成提及
- 结合整体事件分析MentionDocTone
- 考虑媒体报道的时间模式
- 与事件表交叉引用进行全面分析
引用
BibTeX: bibtex @inproceedings{leetaru2013gdelt, title={GDELT: Global Data on Events, Language, and Tone, 1979-2012}, author={Leetaru, Kalev and Schrodt, Philip}, booktitle={International Studies Association Annual Conference}, year={2013}, address={San Francisco, CA} }
APA: Leetaru, K., & Schrodt, P. (2013). GDELT: Global Data on Events, Language, and Tone, 1979-2012. Paper presented at the International Studies Association Annual Conference, San Francisco, CA.
数据集卡片联系人
dwb2023

Breast Ultrasound Images (BUSI)
小型(约500×500像素)超声图像,适用于良性和恶性病变的分类和分割任务。
github 收录
中国食物成分数据库
食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。
国家人口健康科学数据中心 收录
DALY
DALY数据集包含了全球疾病负担研究(Global Burden of Disease Study)中的伤残调整生命年(Disability-Adjusted Life Years, DALYs)数据。该数据集提供了不同国家和地区在不同年份的DALYs指标,用于衡量因疾病、伤害和早逝导致的健康损失。
ghdx.healthdata.org 收录
UniMed
UniMed是一个大规模、开源的多模态医学数据集,包含超过530万张图像-文本对,涵盖六种不同的医学成像模态:X射线、CT、MRI、超声、病理学和眼底。该数据集通过利用大型语言模型(LLMs)将特定模态的分类数据集转换为图像-文本格式,并结合现有的医学领域的图像-文本数据,以促进可扩展的视觉语言模型(VLM)预训练。
github 收录
OpenPose
OpenPose数据集包含人体姿态估计的相关数据,主要用于训练和评估人体姿态检测算法。数据集包括多视角的图像和视频,标注了人体关键点位置,适用于研究人体姿态识别和动作分析。
github.com 收录