five

yachay/text_coordinates_seasons

收藏
Hugging Face2023-09-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/yachay/text_coordinates_seasons
下载链接
链接失效反馈
官方服务:
资源简介:
“Seasons”数据集是一个包含超过60万条社交媒体帖子的集合,涵盖了12个月和15个不同的时区。该数据集聚焦于六个国家:古巴、伊朗、俄罗斯、朝鲜、叙利亚和委内瑞拉,每条帖子都包含文本内容、时间戳和地理坐标。数据集的主要目标是研究帖子时间、内容和地理位置之间的相关性。研究人员可以利用该数据集推进地理空间自然语言处理(NLP)的研究,并深入了解时间因素和季节性如何影响结果。
提供机构:
yachay
原始信息汇总

数据集卡片 for Geo-Tagged Social Media Posts with Timestamps

数据集描述

数据集概述

"Seasons" 数据集是一个包含超过 600,000 条社交媒体帖子的集合,跨越 12 个月并涵盖 15 个不同时区。该数据集主要关注六个国家:古巴、伊朗、俄罗斯、朝鲜、叙利亚和委内瑞拉,每个帖子包含文本内容、时间戳和地理坐标。该数据集的主要目标是研究帖子的时间、内容和地理位置之间的关联。研究人员可以利用此数据集推进地理空间自然语言处理(NLP)研究,并深入了解时间因素和季节性如何影响结果。

支持的任务和排行榜

该数据集适用于地理标记任务,即将文本与特定地理位置关联。它还可以用于地理位置分析、区域情境下的情感分析和区域文本分类。

语言

多语言数据集

主要包含英语、西班牙语、波斯语、俄语、韩语和阿拉伯语。

数据集结构

数据实例

"Seasons" 数据集包含超过 600,000 个数据实例,每个实例代表一个社交媒体帖子。

数据字段

文本 (text): 该字段包含文本内容。

时间戳 (created_at): 数据集包括时间戳,以跟踪每个社交媒体帖子创建的确切时间。时间戳以 Unix 时间格式记录。

地理坐标 (geo_geo_bbox): 该字段包含描述每个社交媒体帖子相关地理位置的坐标。这些坐标以边界框格式表示为纬度和经度范围。

数据分割

该数据集未预先分割为训练、验证和测试数据分割,为用户提供了根据其特定研究或应用需求分割数据的灵活性。用户可以根据其机器学习实验和分析需求自定义数据分区。

数据集创建

策划理由

"Seasons" 数据集的创建旨在通过研究社交媒体帖子中时间因素、内容和作者位置之间的复杂关系,推进 NLP 研究。该数据集的汇编旨在提供一个资源,用于理解时区和季节性事件如何影响模型的结果。

源数据

初始数据收集和规范化

初始数据收集过程侧重于从社交媒体平台(主要是 Twitter)收集地理标记评论。

源语言生产者是谁?

Twitter 社区

注释

注释过程

该数据集中的坐标已从元数据源中提取。

注释者是谁?

该数据集未进行手动注释。

使用数据的注意事项

数据集的社会影响

"Seasons" 数据集有可能增强我们对社交媒体帖子中时间动态、内容和位置之间复杂关系的理解。

偏见的讨论

必须承认,从社交媒体平台收集的数据可能包含受用户人口统计和平台动态影响的固有偏见。研究人员应留意这些偏见,并在其分析中考虑潜在影响。

其他已知限制

  • 数据集的多语言性质可能导致不同地区数据质量和语言多样性的差异。
  • 使用地理标记社交媒体评论意味着数据集可能不涵盖较少活跃或代表性不足的地区/季节。
  • 地理坐标的准确性受用于收集的数据源的固有限制。

附加信息

数据集策展人

Yachay AI

许可信息

MIT

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作