Tweet geolocation 5m
收藏DataCite Commons2025-06-01 更新2024-07-25 收录
下载链接:
https://figshare.com/articles/dataset/Tweet_geolocation_5m/3168529/2
下载链接
链接失效反馈官方服务:
资源简介:
Tweet-geolocation-5m is a dataset with more than 5 million geolocated tweets with detailed geolocation information associated. Each geolocated tweet is associated with its fine-grained location information, collected from OpenStreetMap [1] using the reverse geocoding feature in Nominatim [2]. It was originally created for country-level classification of tweets, but finer-grained classification is also provided with the dataset. The country codes are provided using the ISO 3166-1 alpha-2 standard [3].<br>The dataset was collected in two different week long periods: TC2014, collected in October 2014, and TC2015, collected in October 2015.<br>Two files are provided here:* tweet-geolocation-5m.tar.bz2, which is the actual datasets, providing the tweet IDs and ground truth country IDs that enable conducting further experiments.* vectors-and-folds.tar.bz2, which is provided for the purposes of reproducibility. With the information provided in this file, you should be able to reproduce the results we presented in the paper.
Tweet-geolocation-5m 是一款包含超500万条已地理定位推文的数据集,每条推文均关联有精细粒度的位置信息。该数据集的位置信息通过Nominatim[2]的逆地理编码(reverse geocoding)功能,从开放街道地图(OpenStreetMap)[1]采集获取。本数据集最初为推文的国家层级分类任务而构建,但同时也提供了精细粒度的分类标注。国家代码采用ISO 3166-1 alpha-2标准[3]进行标注。
该数据集的采集分为两个为期一周的阶段:分别为2014年10月采集的TC2014,以及2015年10月采集的TC2015。
本次共提供两份数据文件:
* tweet-geolocation-5m.tar.bz2:为核心数据集,包含推文ID与基准真实标签(ground truth)国家ID,可用于开展后续实验研究。
* vectors-and-folds.tar.bz2:用于保障实验可复现性,依托该文件中的信息即可复现论文中展示的实验结果。
提供机构:
figshare
创建时间:
2016-04-22
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集包含超过500万条带有精细地理位置信息的推文,适用于地理位置相关的分类研究。数据集分为两个部分:推文ID和国家ID数据,以及用于重现研究结果的辅助数据。
以上内容由遇见数据集搜集并总结生成



