urban-issue-corpus
收藏github2022-08-15 更新2024-05-31 收录
下载链接:
https://github.com/maxmcz/urban-issue-corpus
下载链接
链接失效反馈官方服务:
资源简介:
一个由人类志愿者手动分类的城市问题推文语料库,包含关于城市问题的推文数据和相关的空间、主题分类信息。
A corpus of tweets on urban issues, manually categorized by human volunteers, containing tweet data related to urban issues along with associated spatial and thematic classification information.
创建时间:
2016-09-09
原始信息汇总
数据集概述
数据集名称
urban-issue-corpus
数据集描述
该数据集包含关于城市问题的推文,这些推文由人类志愿者手动分类。
数据集信息
- 数据库版本:9.2.2
- 备份工具版本:9.3.5
- 备份完成时间:2016-09-09 09:45:25
- 数据格式:Plain SQL
- 数据量:403条推文
数据集结构
- annotations:存储关于城市问题类型和提及的空间位置的人工标注信息。
- spatial_contexts:用于标记提及位置的LoD(Level of Detail)类别。
- thematic_contexts:用于标记城市问题的类型类别。
- tweets:推文数据集(不包含用户信息以保护隐私)。
- tweets_spatial_analysis:用于空间分析的数据,包括地理编码、用户家庭和推文中提及的位置。
搜集汇总
数据集介绍

构建方式
urban-issue-corpus数据集的构建基于社交媒体平台Twitter上的推文数据,专注于城市问题的讨论。该数据集由志愿者手动标注,涵盖了城市问题类型及其相关空间位置信息。数据以PostgreSQL数据库的形式存储,包含403条推文,并通过多个表格组织数据,如annotations、spatial_contexts、thematic_contexts等,分别存储标注信息、空间位置标签和问题类型分类。数据的收集和标注过程确保了内容的多样性和准确性。
使用方法
使用urban-issue-corpus数据集时,研究人员可以通过PostgreSQL数据库访问推文数据及其相关标注信息。数据集中的annotations表格提供了推文的问题类型和空间位置标签,spatial_contexts和thematic_contexts表格则分别提供了空间位置和问题类型的分类信息。通过结合这些表格,用户可以进行城市问题的主题分析、空间分布研究以及推文内容的语义挖掘。此外,tweets_spatial_analysis表格为空间分析提供了额外的数据支持,适用于地理信息系统的集成研究。
背景与挑战
背景概述
urban-issue-corpus数据集于2015年在爱尔兰都柏林发布,主要研究人员或机构未明确提及。该数据集包含403条关于城市问题的推文,每条推文均由人类志愿者手动分类,涵盖了城市问题类型和提及的空间位置。数据集的核心研究问题在于通过社交媒体数据(尤其是推文)来识别和分析城市中的各类问题,如交通、环境、基础设施等。这一数据集为城市研究、社会地理学和城市规划等领域提供了宝贵的数据资源,帮助研究者更好地理解城市居民的生活体验和城市管理的挑战。
当前挑战
urban-issue-corpus数据集在解决城市问题识别与分析领域面临多重挑战。首先,推文数据的稀疏性和噪声问题使得准确分类城市问题类型变得复杂,尤其是当推文内容涉及多种主题时。其次,空间位置的标注依赖于人类志愿者,可能存在主观性和不一致性,影响数据的可靠性。此外,数据集的规模较小(仅403条推文),限制了其在机器学习模型训练中的广泛应用。在构建过程中,研究人员还需处理隐私问题,确保推文数据中不包含用户个人信息,这进一步增加了数据收集和处理的难度。
常用场景
经典使用场景
urban-issue-corpus数据集在社会科学和城市规划领域具有广泛的应用。该数据集通过手动分类的推文,捕捉了城市居民对各类城市问题的关注点,如交通拥堵、环境污染和公共设施不足等。研究人员可以利用这些数据,分析城市问题的分布和演变趋势,进而为城市规划提供数据支持。
解决学术问题
该数据集解决了城市研究中数据获取和分类的难题。通过人工标注的推文数据,研究者能够更准确地识别城市问题的类型及其空间分布。这不仅为城市问题的定量分析提供了基础,还为理解城市居民的需求和反馈提供了新的视角,推动了城市研究的精细化发展。
实际应用
在实际应用中,urban-issue-corpus数据集被广泛用于城市管理决策支持系统。例如,政府机构可以通过分析推文中的城市问题热点,优化资源配置,提升公共服务质量。此外,该数据集还可用于开发智能城市监测工具,实时捕捉城市运行中的潜在问题,为城市管理者提供动态决策依据。
数据集最近研究
最新研究方向
近年来,随着城市化进程的加速,城市问题日益成为研究热点。urban-issue-corpus数据集作为一个专注于城市问题的推文语料库,为研究者提供了丰富的数据资源。该数据集通过人工标注的方式,将推文内容分类为不同的城市问题类型,并关联了空间位置信息,使得研究者能够深入分析城市问题的空间分布及其社会影响。当前,该数据集在城市规划、社会舆情分析以及智能城市管理等领域展现出广泛的应用前景。特别是在结合地理信息系统(GIS)和自然语言处理(NLP)技术的研究中,urban-issue-corpus为探索城市问题的多维度特征提供了重要支持。此外,随着社交媒体数据的不断增长,该数据集也为实时监测和预测城市问题提供了新的研究视角。
以上内容由遇见数据集搜集并总结生成



