city_description.csv
收藏github2020-07-28 更新2024-05-31 收录
下载链接:
https://github.com/rajadevineni/City_Description_Dataset_Generator
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含4016个城市描述,数据来源于Simplemaps网站,通过清洗和过滤处理,最终存储为CSV和H5格式文件,用于城市描述的分类和分析。
This dataset comprises descriptions of 4,016 cities, sourced from the Simplemaps website. After undergoing cleaning and filtering processes, the data is ultimately stored in CSV and H5 formats, intended for the classification and analysis of city descriptions.
创建时间:
2020-07-25
原始信息汇总
数据集概述
数据集名称
City_Description_Dataset_Generator
数据收集来源
数据集中的城市列表来源于Simplemaps的免费计划,共收集了4016个城市。
数据处理
数据清洗与过滤
- 处理了具有相同名称但位于不同国家或州的城市,根据人口数量保留一个,其余删除。
- 保留了**"city_ascii"和"country"**列,删除了不必要的列如经纬度等。
文章数据获取
- 为每个城市生成WikiTravel URL,并根据文章内容长度进行筛选,只保留文章长度超过700字的城市描述。
数据集内容
最终数据集包含4016个城市描述,存储格式为**"city_description.csv"和"city_description.h5"**。
数据集存储位置
数据集文件已上传至GitHub仓库,链接为"city_description.csv"和"city_description.h5"。
许可证
本数据集遵循GPL-3.0许可证。
搜集汇总
数据集介绍

构建方式
city_description.csv数据集的构建过程始于从Simplemaps平台获取的15,000个城市的基础数据。通过一系列筛选和清理步骤,数据集最终保留了4,016个城市的描述信息。具体而言,首先剔除了同名但位于不同国家或州的城市,保留人口较多的城市。随后,通过自动化脚本生成每个城市的WikiTravel链接,并抓取相关描述信息。最终,仅保留描述长度超过700字符的城市,确保数据的丰富性和可用性。
特点
该数据集涵盖了全球4,016个城市的详细描述,每个城市条目包含城市名称、所属国家以及从WikiTravel抓取的描述文本。其独特之处在于,通过严格的筛选机制,确保了数据的质量和深度,尤其适合用于基于文本的城市分类或聚类分析。此外,数据集以CSV和H5两种格式存储,便于不同场景下的使用。
使用方法
使用city_description.csv数据集时,用户可通过加载CSV或H5文件直接访问城市描述数据。该数据集特别适用于自然语言处理任务,如文本分类、主题建模或城市特征分析。用户还可结合机器学习算法,对城市描述进行聚类,探索不同城市的文化或地理特征。数据集的开源性质使其能够灵活应用于学术研究或商业分析中。
背景与挑战
背景概述
city_description.csv数据集由Rajadevineni等人于近年创建,旨在通过收集全球多个城市的描述信息,为城市分类研究提供数据支持。该数据集基于Simplemaps提供的城市列表,经过筛选和清洗,最终包含了4016个城市的详细描述。这些描述信息主要来源于WikiTravel,涵盖了城市的地理、文化、历史等多方面内容。该数据集的创建为城市分类、聚类分析以及自然语言处理领域的研究提供了重要的数据基础,推动了基于文本的城市特征分析与建模的发展。
当前挑战
city_description.csv数据集的构建面临多重挑战。首先,城市名称的重复性问题显著,许多城市在不同国家或地区拥有相同的名称,这需要通过人口规模等标准进行筛选,以确保数据的唯一性。其次,数据获取过程中存在信息不完整或缺失的情况,部分城市在WikiTravel上缺乏足够的描述内容,导致这些城市被排除在外。此外,城市名称中的特殊字符处理以及自动化生成WikiTravel链接的技术实现也增加了数据收集的复杂性。这些挑战不仅影响了数据集的完整性,也对后续的城市分类和聚类分析提出了更高的技术要求。
常用场景
经典使用场景
在自然语言处理领域,city_description.csv数据集常用于城市描述文本的分类与聚类分析。研究者通过该数据集,能够对全球4016个城市的描述文本进行深入分析,进而探索不同城市的文化、历史和经济特征。这一数据集为文本挖掘和地理信息系统研究提供了丰富的语料库。
解决学术问题
该数据集有效解决了城市描述文本的标准化与分类问题。通过自动化生成WikiTravel链接并过滤无效数据,研究者能够获得高质量的城市描述文本,从而支持基于文本的城市特征分析。这一数据集为城市研究、旅游推荐系统以及跨文化研究提供了重要的数据基础。
衍生相关工作
基于city_description.csv数据集,许多经典研究工作得以展开。例如,研究者利用该数据集开发了基于文本聚类的城市分类模型,进一步推动了地理信息文本分析技术的发展。此外,该数据集还被用于跨语言城市描述分析,为多语言自然语言处理研究提供了重要支持。
以上内容由遇见数据集搜集并总结生成



