five

GDELT|全球新闻监控数据集|事件分析数据集

收藏
Snowflake2022-04-21 更新2024-05-01 收录
全球新闻监控
事件分析
下载链接:
https://app.snowflake.com/marketplace/listing/GZSTZJUPCXB
下载链接
链接失效反馈
资源简介:
GDELT is the largest, most comprehensive, and highest resolution open database of human society ever created. Creating a platform that monitors the world's news media from nearly every corner of every country in print, broadcast, and web formats, in over 100 languages, every moment of every day and that stretches back to January 1, 1979, through present day, with daily updates, required an unprecedented array of technical and methodological innovations, partnerships, and whole new mindsets to bring this all together and make it a reality. The dataset contains one table, "MY_TABLE", which has 58 distinct fields, including: - GLOBALEVENTID - MONTHYEAR - ACTOR1CODE - ACTOR1TYPE2CODE - GOLDSTEINSCALE - QUADCLASS - NUMSOURCES - AVGTONE - ACTOR2GEO_LONG - DATEADDED - SOURCEURL - NUMARTICLES - FRACTIONDATE - ISROOTEVENT
提供机构:
Element Data
创建时间:
2022-04-20
AI搜集汇总
数据集介绍
main_image_url
构建方式
GDELT数据集的构建基于全球新闻媒体的内容,通过自动化技术实时抓取和分析来自全球的新闻报道。该数据集涵盖了超过100种语言的新闻来源,利用自然语言处理和机器学习算法,提取出事件、人物、地点、组织等实体及其关系。GDELT通过每日更新,确保数据的时效性和全面性,为全球事件的动态监测提供了坚实的基础。
特点
GDELT数据集以其全球覆盖和实时更新为显著特点,能够捕捉到全球范围内的新闻事件和趋势。其数据结构丰富,包含事件的详细描述、参与者的身份信息以及事件的地理位置等。此外,GDELT还提供了多种数据格式和API接口,方便用户进行数据访问和分析。这些特点使得GDELT成为研究国际关系、社会动态和全球事件的重要工具。
使用方法
GDELT数据集的使用方法多样,适用于学术研究、政策分析和商业智能等多个领域。用户可以通过GDELT的官方网站或API接口下载所需数据,进行定制化的数据分析。常见的使用场景包括全球事件的实时监控、国际关系的趋势分析以及社会网络的研究。通过结合其他数据源,GDELT数据集能够为复杂的社会现象提供深入的洞察和预测。
背景与挑战
背景概述
GDELT(Global Database of Events, Language, and Tone)数据集由美国乔治城大学于2013年推出,旨在通过全球新闻媒体的内容分析,实时捕捉和量化全球社会事件。该数据集通过自动化的方式,从数百万个新闻来源中提取信息,涵盖了政治、经济、社会等多个领域的事件。GDELT的推出,极大地推动了全球事件监测和分析的研究,为政策制定者、学者和公众提供了宝贵的数据资源,显著提升了对全球动态的实时理解和预测能力。
当前挑战
GDELT数据集在构建过程中面临诸多挑战。首先,数据来源的多样性和复杂性使得信息提取和标准化处理变得异常困难。其次,新闻报道中的语言和文化差异增加了事件分类和情感分析的难度。此外,实时数据的处理和更新要求高效的数据处理技术和强大的计算资源。最后,数据隐私和伦理问题也是GDELT必须面对的重要挑战,确保数据使用的合法性和道德性是数据集持续发展的关键。
发展历史
创建时间与更新
GDELT数据集创建于2013年,由Kalev Leetaru开发,旨在实时监测全球新闻媒体的内容。该数据集自创建以来,持续进行更新,以确保数据的时效性和全面性。
重要里程碑
GDELT数据集的一个重要里程碑是其在2015年推出的GDELT 2.0版本,这一版本引入了更精细的事件分类和更广泛的数据源,极大地提升了数据集的覆盖范围和分析能力。此外,GDELT在2016年与Google合作,通过Google BigQuery平台提供数据访问,进一步扩大了其影响力和应用范围。
当前发展情况
当前,GDELT数据集已成为全球事件数据分析领域的标杆,广泛应用于国际关系研究、社会科学分析和商业智能等领域。其持续的更新和扩展,确保了数据集在捕捉全球动态方面的领先地位。GDELT不仅为学术研究提供了丰富的数据资源,还为政策制定者和商业决策者提供了有力的数据支持,推动了相关领域的创新和发展。
发展历程
  • GDELT项目首次公开发布,标志着全球事件、语言和语气数据库的诞生,为全球社会科学研究提供了新的数据资源。
    2013年
  • GDELT 2.0版本发布,数据集的覆盖范围和数据量显著增加,包括全球新闻媒体中的事件、情感和网络关系。
    2015年
  • GDELT数据集首次应用于学术研究,特别是在国际关系、冲突分析和全球治理等领域,展示了其强大的数据分析潜力。
    2016年
  • GDELT数据集开始与多个国际组织和研究机构合作,推动了全球事件数据的共享和应用,促进了跨学科研究的发展。
    2018年
  • GDELT数据集在COVID-19疫情期间被广泛用于分析全球新闻报道和公众反应,为疫情应对策略提供了数据支持。
    2020年
常用场景
经典使用场景
在社会科学研究领域,GDELT数据集被广泛用于分析全球事件的动态变化。通过整合来自全球新闻媒体的实时数据,GDELT能够提供关于政治、经济、社会等多维度的事件信息。研究者利用这一数据集,可以追踪特定事件的发展轨迹,评估国际关系的变化趋势,以及预测潜在的冲突风险。此外,GDELT还支持跨时间、跨地域的比较分析,为全球事件的系统性研究提供了坚实的基础。
实际应用
在实际应用中,GDELT数据集被广泛用于政府决策、企业战略规划以及非政府组织的行动指导。例如,政府部门可以利用GDELT数据进行危机预警和应急响应,确保国家安全和社会稳定。企业则可以通过分析全球市场动态,优化其国际业务布局和风险管理策略。非政府组织则可以借助GDELT数据,更有效地开展人道主义援助和国际合作项目,提升其全球影响力和行动效率。
衍生相关工作
GDELT数据集的广泛应用催生了众多相关研究和工作。例如,基于GDELT的事件数据,研究者开发了多种机器学习模型,用于预测国际事件的发展趋势和结果。此外,GDELT还激发了对全球新闻媒体内容分析的研究,推动了自然语言处理(NLP)技术在社会科学中的应用。同时,GDELT与其他大型数据集的结合,如社交媒体数据和卫星图像数据,进一步拓展了其应用范围,促进了跨领域研究的融合与发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

OpenSonarDatasets

OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库,旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合,以增加开放源代码声纳数据集的可见性,并提供一个更容易查找和比较数据集的方式。

github 收录

Subway Dataset

该数据集包含了全球多个城市的地铁系统数据,包括车站信息、线路图、列车时刻表、乘客流量等。数据集旨在帮助研究人员和开发者分析和模拟城市交通系统,优化地铁运营和乘客体验。

www.kaggle.com 收录

MIT Indoor Scenes

室内场景识别是高水平视觉中一个具有挑战性的开放性问题。大多数适用于室外场景的场景识别模型在室内领域的表现都较差。该数据库包含67个室内类别,共15620张图像。图像的数量因类别而异,但每个类别至少有100张图像。所有图像均为jpg格式。此处提供的图像仅用于研究目的。

阿里云天池 收录

中国高分辨率高质量PM2.5数据集(2000-2023)

ChinaHighPM2.5数据集是中国高分辨率高质量近地表空气污染物数据集(ChinaHighAirPollutants, CHAP)中PM2.5数据集。该数据集利用人工智能技术,使用模式资料填补了卫星MODIS MAIAC AOD产品的空间缺失值,结合地基观测、大气再分析和排放清单等大数据生产得到2000年至今全国无缝隙地面PM2.5数据。数据十折交叉验证决定系数R2为0.92,均方根误差RMSE为10.76 µg/m3。主要范围为整个中国地区,空间分辨率为1 km,时间分辨率为日、月、年,单位为µg/m3。注意:该数据集持续更新,如需要更多数据,请发邮件联系作者(weijing_rs@163.com; weijing@umd.edu)。 数据文件中包含NC转GeoTiff的四种代码(Python、Matlab、IDL和R语言)nc2geotiff codes。

国家青藏高原科学数据中心 收录

YOLO-dataset

该数据集用于训练YOLO模型,包括分类、检测和姿态识别模型。目前支持v8版本,未来计划支持更多版本。

github 收录