GDELT|全球新闻监控数据集|事件分析数据集

Snowflake2022-04-21 更新2024-05-01 收录

全球新闻监控

事件分析

下载链接：

https://app.snowflake.com/marketplace/listing/GZSTZJUPCXB

下载链接

链接失效反馈

资源简介：

GDELT is the largest, most comprehensive, and highest resolution open database of human society ever created. Creating a platform that monitors the world's news media from nearly every corner of every country in print, broadcast, and web formats, in over 100 languages, every moment of every day and that stretches back to January 1, 1979, through present day, with daily updates, required an unprecedented array of technical and methodological innovations, partnerships, and whole new mindsets to bring this all together and make it a reality. The dataset contains one table, "MY_TABLE", which has 58 distinct fields, including: - GLOBALEVENTID - MONTHYEAR - ACTOR1CODE - ACTOR1TYPE2CODE - GOLDSTEINSCALE - QUADCLASS - NUMSOURCES - AVGTONE - ACTOR2GEO_LONG - DATEADDED - SOURCEURL - NUMARTICLES - FRACTIONDATE - ISROOTEVENT

提供机构：

Element Data

创建时间：

2022-04-20

AI搜集汇总

数据集介绍

构建方式

GDELT数据集的构建基于全球新闻媒体的内容，通过自动化技术实时抓取和分析来自全球的新闻报道。该数据集涵盖了超过100种语言的新闻来源，利用自然语言处理和机器学习算法，提取出事件、人物、地点、组织等实体及其关系。GDELT通过每日更新，确保数据的时效性和全面性，为全球事件的动态监测提供了坚实的基础。

特点

GDELT数据集以其全球覆盖和实时更新为显著特点，能够捕捉到全球范围内的新闻事件和趋势。其数据结构丰富，包含事件的详细描述、参与者的身份信息以及事件的地理位置等。此外，GDELT还提供了多种数据格式和API接口，方便用户进行数据访问和分析。这些特点使得GDELT成为研究国际关系、社会动态和全球事件的重要工具。

使用方法

GDELT数据集的使用方法多样，适用于学术研究、政策分析和商业智能等多个领域。用户可以通过GDELT的官方网站或API接口下载所需数据，进行定制化的数据分析。常见的使用场景包括全球事件的实时监控、国际关系的趋势分析以及社会网络的研究。通过结合其他数据源，GDELT数据集能够为复杂的社会现象提供深入的洞察和预测。

背景与挑战

背景概述

GDELT（Global Database of Events, Language, and Tone）数据集由美国乔治城大学于2013年推出，旨在通过全球新闻媒体的内容分析，实时捕捉和量化全球社会事件。该数据集通过自动化的方式，从数百万个新闻来源中提取信息，涵盖了政治、经济、社会等多个领域的事件。GDELT的推出，极大地推动了全球事件监测和分析的研究，为政策制定者、学者和公众提供了宝贵的数据资源，显著提升了对全球动态的实时理解和预测能力。

当前挑战

GDELT数据集在构建过程中面临诸多挑战。首先，数据来源的多样性和复杂性使得信息提取和标准化处理变得异常困难。其次，新闻报道中的语言和文化差异增加了事件分类和情感分析的难度。此外，实时数据的处理和更新要求高效的数据处理技术和强大的计算资源。最后，数据隐私和伦理问题也是GDELT必须面对的重要挑战，确保数据使用的合法性和道德性是数据集持续发展的关键。

发展历史

创建时间与更新

GDELT数据集创建于2013年，由Kalev Leetaru开发，旨在实时监测全球新闻媒体的内容。该数据集自创建以来，持续进行更新，以确保数据的时效性和全面性。

重要里程碑

GDELT数据集的一个重要里程碑是其在2015年推出的GDELT 2.0版本，这一版本引入了更精细的事件分类和更广泛的数据源，极大地提升了数据集的覆盖范围和分析能力。此外，GDELT在2016年与Google合作，通过Google BigQuery平台提供数据访问，进一步扩大了其影响力和应用范围。

当前发展情况

当前，GDELT数据集已成为全球事件数据分析领域的标杆，广泛应用于国际关系研究、社会科学分析和商业智能等领域。其持续的更新和扩展，确保了数据集在捕捉全球动态方面的领先地位。GDELT不仅为学术研究提供了丰富的数据资源，还为政策制定者和商业决策者提供了有力的数据支持，推动了相关领域的创新和发展。

发展历程

GDELT项目首次公开发布，标志着全球事件、语言和语气数据库的诞生，为全球社会科学研究提供了新的数据资源。
2013年
GDELT 2.0版本发布，数据集的覆盖范围和数据量显著增加，包括全球新闻媒体中的事件、情感和网络关系。
2015年
GDELT数据集首次应用于学术研究，特别是在国际关系、冲突分析和全球治理等领域，展示了其强大的数据分析潜力。
2016年
GDELT数据集开始与多个国际组织和研究机构合作，推动了全球事件数据的共享和应用，促进了跨学科研究的发展。
2018年
GDELT数据集在COVID-19疫情期间被广泛用于分析全球新闻报道和公众反应，为疫情应对策略提供了数据支持。
2020年

常用场景

经典使用场景

在社会科学研究领域，GDELT数据集被广泛用于分析全球事件的动态变化。通过整合来自全球新闻媒体的实时数据，GDELT能够提供关于政治、经济、社会等多维度的事件信息。研究者利用这一数据集，可以追踪特定事件的发展轨迹，评估国际关系的变化趋势，以及预测潜在的冲突风险。此外，GDELT还支持跨时间、跨地域的比较分析，为全球事件的系统性研究提供了坚实的基础。

实际应用

在实际应用中，GDELT数据集被广泛用于政府决策、企业战略规划以及非政府组织的行动指导。例如，政府部门可以利用GDELT数据进行危机预警和应急响应，确保国家安全和社会稳定。企业则可以通过分析全球市场动态，优化其国际业务布局和风险管理策略。非政府组织则可以借助GDELT数据，更有效地开展人道主义援助和国际合作项目，提升其全球影响力和行动效率。

衍生相关工作

GDELT数据集的广泛应用催生了众多相关研究和工作。例如，基于GDELT的事件数据，研究者开发了多种机器学习模型，用于预测国际事件的发展趋势和结果。此外，GDELT还激发了对全球新闻媒体内容分析的研究，推动了自然语言处理（NLP）技术在社会科学中的应用。同时，GDELT与其他大型数据集的结合，如社交媒体数据和卫星图像数据，进一步拓展了其应用范围，促进了跨领域研究的融合与发展。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

LinkedIn Salary Insights Dataset

LinkedIn Salary Insights Dataset 提供了全球范围内的薪资数据，包括不同职位、行业、地理位置和经验水平的薪资信息。该数据集旨在帮助用户了解薪资趋势和市场行情，支持职业规划和薪资谈判。

www.linkedin.com 收录

中国空气质量数据集（2014-2020年）

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI，包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台，每日更新。数据集的原始文件为CSV的文本记录，通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心收录

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建，包含5686张图像和45578个标签，重点关注六种行为：举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景，通过YOLOv5、YOLOv7和YOLOv8算法评估，平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础，解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

Kaggle Stock Market Data

该数据集包含多个股票市场的历史数据，涵盖了股票的开盘价、收盘价、最高价、最低价、成交量等信息。数据集还包括了股票的代码、日期和市场名称等基本信息。

www.kaggle.com 收录

CCPD

CCPD是一个大型的、多样化的、经过仔细标注的中国城市车牌开源数据集。CCPD数据集主要分为CCPD2019数据集和CCPD2020(CCPD-Green)数据集。CCPD2019数据集车牌类型仅有普通车牌(蓝色车牌)，CCPD2020数据集车牌类型仅有新能源车牌(绿色车牌)。在CCPD数据集中，每张图片仅包含一张车牌，车牌的车牌省份主要为皖。CCPD中的每幅图像都包含大量的标注信息，但是CCPD数据集没有专门的标注文件，每张图像的文件名就是该图像对应的数据标注。

github 收录