yachay/text_coordinates_seasons
收藏数据集卡片 for Geo-Tagged Social Media Posts with Timestamps
数据集描述
数据集概述
"Seasons" 数据集是一个包含超过 600,000 条社交媒体帖子的集合,跨越 12 个月并涵盖 15 个不同时区。该数据集主要关注六个国家:古巴、伊朗、俄罗斯、朝鲜、叙利亚和委内瑞拉,每个帖子包含文本内容、时间戳和地理坐标。该数据集的主要目标是研究帖子的时间、内容和地理位置之间的关联。研究人员可以利用此数据集推进地理空间自然语言处理(NLP)研究,并深入了解时间因素和季节性如何影响结果。
支持的任务和排行榜
该数据集适用于地理标记任务,即将文本与特定地理位置关联。它还可以用于地理位置分析、区域情境下的情感分析和区域文本分类。
语言
多语言数据集
主要包含英语、西班牙语、波斯语、俄语、韩语和阿拉伯语。
数据集结构
数据实例
"Seasons" 数据集包含超过 600,000 个数据实例,每个实例代表一个社交媒体帖子。
数据字段
文本 (text): 该字段包含文本内容。
时间戳 (created_at): 数据集包括时间戳,以跟踪每个社交媒体帖子创建的确切时间。时间戳以 Unix 时间格式记录。
地理坐标 (geo_geo_bbox): 该字段包含描述每个社交媒体帖子相关地理位置的坐标。这些坐标以边界框格式表示为纬度和经度范围。
数据分割
该数据集未预先分割为训练、验证和测试数据分割,为用户提供了根据其特定研究或应用需求分割数据的灵活性。用户可以根据其机器学习实验和分析需求自定义数据分区。
数据集创建
策划理由
"Seasons" 数据集的创建旨在通过研究社交媒体帖子中时间因素、内容和作者位置之间的复杂关系,推进 NLP 研究。该数据集的汇编旨在提供一个资源,用于理解时区和季节性事件如何影响模型的结果。
源数据
初始数据收集和规范化
初始数据收集过程侧重于从社交媒体平台(主要是 Twitter)收集地理标记评论。
源语言生产者是谁?
Twitter 社区
注释
注释过程
该数据集中的坐标已从元数据源中提取。
注释者是谁?
该数据集未进行手动注释。
使用数据的注意事项
数据集的社会影响
"Seasons" 数据集有可能增强我们对社交媒体帖子中时间动态、内容和位置之间复杂关系的理解。
偏见的讨论
必须承认,从社交媒体平台收集的数据可能包含受用户人口统计和平台动态影响的固有偏见。研究人员应留意这些偏见,并在其分析中考虑潜在影响。
其他已知限制
- 数据集的多语言性质可能导致不同地区数据质量和语言多样性的差异。
- 使用地理标记社交媒体评论意味着数据集可能不涵盖较少活跃或代表性不足的地区/季节。
- 地理坐标的准确性受用于收集的数据源的固有限制。
附加信息
数据集策展人
Yachay AI
许可信息
MIT



