GeoCoV19

Name: GeoCoV19
Creator: 卡塔尔计算研究机构
Published: 2020-05-22 21:30:42
License: 暂无描述

arXiv2020-05-22 更新2024-06-21 收录

下载链接：

https://crisisNLP.qcri.org/covid19

下载链接

链接失效反馈

官方服务：

资源简介：

GeoCoV19是由卡塔尔计算研究机构创建的大型Twitter数据集，包含超过5.24亿条多语言COVID-19相关推文，覆盖90天的时间范围。数据集通过使用多种语言的关键词和标签收集，旨在通过地理位置信息增强对全球危机的集体应对能力的研究。创建过程中，采用了基于地名词典的方法来推断推文的地理位置，从而使数据集包含约4.91亿条带有地理位置信息的推文，占总数的94%。该数据集广泛应用于疾病预测、监控模型构建、假新闻识别等领域，以解决公共卫生和社区知识差距等挑战。

GeoCoV19 is a large-scale Twitter dataset created by the Qatar Computing Research Institute, containing over 524 million multilingual COVID-19-related tweets spanning a 90-day period. The dataset was collected using multilingual keywords and hashtags, aiming to enhance research on collective responses to global crises via geolocation information. During its creation, a gazetteer-based method was adopted to infer the geolocation of tweets, resulting in approximately 491 million geotagged tweets, which account for 94% of the total dataset. This dataset has been widely applied in fields such as disease prediction, surveillance model construction, and fake news detection, to address challenges including public health and community knowledge gaps.

提供机构：

卡塔尔计算研究机构

创建时间：

2020-05-22

搜集汇总

数据集介绍

构建方式

在公共卫生信息学领域，社交媒体数据已成为监测疫情动态的关键非传统数据源。GeoCoV19数据集的构建依托Twitter Streaming API，通过AIDR系统采集了2020年2月1日至5月1日期间与COVID-19相关的803个多语言主题标签和关键词，累计收录了超过5.24亿条推文。为突破原生地理标签的局限性，研究团队采用地名词典方法，基于Nominatim引擎从用户资料位置字段和推文文本中提取地名实体，通过地理编码与反向地理编码技术，将原本仅1-3%的地理标注率提升至94%，实现了对全球218个国家、4.7万座城市的地理覆盖。

特点

该数据集的核心特征体现在其规模、多语言性与地理信息的深度融合。作为目前最大的COVID-19主题推特数据集，其5.24亿条推文涵盖62种语言，其中英语推文达3.48亿条，西班牙语、意大利语等语言亦占显著比例。地理维度上，数据集不仅包含37.8万条带GPS坐标的推文和540万条地点标签推文，更通过推断技术为2.97亿条推文补充了用户位置信息，为4.53亿条推文解析了文本中的地理位置提及。这种多维数据融合使得研究者能够从时空、语言、社会网络等多角度分析全球疫情下的公众反应。

使用方法

该数据集以符合Twitter数据政策的脱敏形式公开，研究者可通过官方平台获取推文ID与用户ID序列，利用配套工具重新水合完整推文内容。在应用层面，其多语言地理标签数据支持跨地域比较研究，例如通过文本挖掘识别不同地区的知识盲区，或结合时间序列分析疫情信息传播模式。对于公共卫生监测，可基于症状关键词与地理聚类构建疾病预警模型；在社会科学领域，则能通过情感分析与主题建模追踪公众情绪演变。此外，数据集中隐含的谣言传播轨迹与验证用户行为模式，为虚假信息检测算法提供了训练与验证基础。

背景与挑战

背景概述

在公共卫生危机期间，社交媒体平台作为非传统数据源，为疾病监测与预测提供了前所未有的实时信息流。GeoCoV19数据集由卡塔尔计算研究所的Umair Qazi、Muhammad Imran和Ferda Ofli等研究人员于2020年创建，旨在捕捉COVID-19大流行期间全球范围内的多语言推特动态。该数据集覆盖了2020年2月1日至5月1日期间超过5.24亿条推文，涉及62种语言，并通过地名录方法推断了大量推文的地理位置信息。其核心研究问题在于利用大规模、多语言且具地理标记的社交媒体数据，支持流行病学、社会计算和信息传播等领域的研究，例如追踪虚假新闻、评估公众知识缺口及构建疾病预测模型。GeoCoV19以其空前的规模和地理覆盖广度，显著丰富了危机信息学的研究资源，为理解全球社会对突发公共卫生事件的集体应对提供了数据基础。

当前挑战

GeoCoV19数据集致力于解决社交媒体在流行病监测中的关键挑战，即如何从海量、多语言且地理位置稀疏的推文中提取可靠的空间信息以支持实时分析。在构建过程中，研究人员面临的主要挑战包括地理位置推断的准确性难题：由于仅有1-3%的推文包含精确GPS坐标，团队必须依赖用户档案中的自由文本位置字段和推文内容中的地名提及，但这些数据常存在噪声、歧义或非标准表达，导致在地市级别的推断准确率较低。此外，数据收集涉及803个多语言关键词，需处理每日高达数百万条推文的实时流，对计算基础设施和存储能力提出极高要求。同时，遵循推特数据重分发政策，数据集仅能共享推文ID和用户ID，而非完整内容，这增加了后续数据水化使用的复杂性。这些挑战凸显了在大规模社交媒体数据中平衡地理覆盖广度与信息准确性的固有难度。

常用场景

经典使用场景

在公共卫生危机管理领域，社交媒体数据已成为监测疫情动态的关键非传统数据源。GeoCoV19数据集凭借其超过5.24亿条多语言推文及丰富的地理位置信息，为研究者提供了分析全球范围内COVID-19相关讨论的经典场景。该数据集常被用于追踪疫情话题的时空演变，通过推文内容与地理标签的关联，揭示不同地区公众对疫情的关注焦点、情绪波动及信息传播模式，为理解社会集体应对行为提供了大规模、细粒度的实证基础。

衍生相关工作

围绕GeoCoV19数据集，学术界衍生出一系列经典研究工作。例如，研究者利用其地理标注推文开发了疫情风险感知地图，实现了对公众焦虑情绪的空间可视化。另有工作聚焦于多语言虚假新闻检测，通过分析不同语言圈层中的阴谋论传播模式，构建了跨文化 misinformation 识别框架。此外，该数据集还支撑了关于疫情经济影响与社会不平等的研究，通过分析推文中提及的物资短缺、就业困难等内容，揭示了危机下弱势群体的生存状况，推动了计算社会科学在危机响应中的应用深化。

数据集最近研究