Road image dataset from Open Street Cam, Road image dataset from Google Street View, Faces from Flickr based on Geolocation, Tweet Data Collection, Wikipedia articles dataset for specific topics, Yelp business data

github2024-02-03 更新2024-05-31 收录

下载链接：

https://github.com/muaz-urwa/Creating-datasets-for-machine-learning

下载链接

链接失效反馈

官方服务：

资源简介：

从Open Street Cam和Google Street View收集的道路图像数据集，基于地理位置从Flickr获取的人脸图像数据集，按地理位置收集的推文数据集，特定主题的维基百科文章文本数据集，以及使用Yelp API获取的酒吧信息数据集。

A dataset of road images collected from Open Street Cam and Google Street View, a dataset of facial images obtained from Flickr based on geographical locations, a dataset of tweets collected by geographical location, a dataset of Wikipedia article texts on specific topics, and a dataset of bar information acquired using the Yelp API.

创建时间：

2019-05-27

原始信息汇总

数据集概述

图像数据集

道路图像数据集 - Open Street Cam
- 从纽约街道形状文件获取地理坐标。
- 使用这些坐标从Open Street Cam提取相关轨迹ID。
- 从这些轨迹ID中提取并保存图像。
道路图像数据集 - Google Street View
- 从纽约街道形状文件获取地理坐标。
- 使用这些坐标从Google Street View提取图像。
Flickr面部图像数据集
- 获取指定位置的图像。
- 将图像临时保存在指定的临时目录中。
- 使用Dlib过滤包含面部的图像。
- 将过滤后的图像存储在处理目录中。
- 为每个位置创建一个图像目录。

文本数据集

Twitter数据收集
- 从指定的地理坐标边界框收集Twitter数据。
- 将Twitter数据输出到指定的JSON输出文件。
Wikipedia文章文本数据集
- 通过解析JSON创建感兴趣的主题列表。
- 提取并保存关于这些主题的Wikipedia文章。

其他数据集

Yelp商业数据
- 从文件加载曼哈顿酒吧的位置。
- 使用Yelp API的地理搜索功能识别酒吧并获取价格和评级信息。

搜集汇总

数据集介绍

构建方式

该数据集的构建过程主要依赖于网络数据的自动化采集与处理。通过使用Python脚本，从Open Street Cam、Google Street View、Flickr、Twitter、Wikipedia和Yelp等平台获取数据。具体步骤包括从纽约街道的形状文件中提取地理坐标，利用这些坐标从Open Street Cam和Google Street View中获取道路图像；通过Flickr的地理位置信息获取人脸图像，并使用Dlib进行人脸检测；从Twitter的地理边界框中收集推文数据；从Wikipedia中提取特定主题的文章；以及通过Yelp API获取曼哈顿酒吧的相关信息。

特点

该数据集涵盖了多种类型的数据，包括道路图像、人脸图像、推文、Wikipedia文章和商业信息，具有多样性和广泛的应用场景。道路图像数据来源于Open Street Cam和Google Street View，提供了丰富的城市道路视觉信息；人脸图像数据基于地理位置从Flickr获取，并经过人脸检测处理，确保了数据的质量；推文数据通过地理边界框收集，反映了特定区域的社交媒体动态；Wikipedia文章数据针对特定主题进行提取，适用于自然语言处理任务；Yelp商业数据则提供了曼哈顿酒吧的价格和评分信息，适用于商业分析和推荐系统。

使用方法

该数据集的使用方法主要通过Jupyter Notebook实现，用户可以根据需求运行相应的脚本来获取和处理数据。对于道路图像数据，用户可以通过指定地理坐标从Open Street Cam和Google Street View中提取图像；对于人脸图像数据，用户可以通过指定地理位置从Flickr获取图像，并使用Dlib进行人脸检测；对于推文数据，用户可以通过指定地理边界框从Twitter中收集推文；对于Wikipedia文章数据，用户可以通过指定主题列表从Wikipedia中提取文章；对于Yelp商业数据，用户可以通过指定地理位置从Yelp API中获取商业信息。所有数据均以结构化的方式保存，便于后续的分析和建模。

背景与挑战

背景概述

该数据集集合由多个子数据集构成，涵盖了道路图像、人脸图像、社交媒体文本、维基百科文章以及商业信息等多个领域。这些数据集主要通过Open Street Cam、Google Street View、Flickr、Twitter、Wikipedia和Yelp等公开平台的数据源构建而成，旨在为机器学习项目提供多样化的数据支持。数据集的核心研究问题包括图像识别、地理定位分析、自然语言处理以及商业数据分析等。这些数据集的创建时间为近期，主要研究人员或机构为GitHub用户muaz-urwa，其通过编写脚本从网络平台中提取并整理数据，为相关领域的研究提供了重要的数据基础。

当前挑战

在构建这些数据集的过程中，面临的主要挑战包括数据源的多样性与复杂性。例如，从Open Street Cam和Google Street View提取道路图像时，需要精确处理地理坐标与图像匹配的问题；从Flickr获取人脸图像时，需依赖Dlib等工具进行人脸检测与过滤，以确保数据的准确性。在文本数据方面，Twitter数据的收集需处理大量实时信息，且需应对数据噪声与隐私问题；维基百科文章的提取则需解决主题分类与内容完整性的挑战。此外，Yelp商业数据的获取依赖于API调用，需处理数据更新频率与信息完整性的问题。这些挑战不仅体现在数据获取与处理的技术层面，还涉及数据质量与合规性的保障。

常用场景

经典使用场景

在计算机视觉和地理信息系统领域，Road image dataset from Open Street Cam和Google Street View数据集被广泛应用于道路检测、交通标志识别以及城市基础设施的自动化分析。这些数据集通过提供高分辨率的街道图像，为深度学习模型提供了丰富的训练素材，特别是在自动驾驶和智能交通系统的开发中起到了关键作用。

解决学术问题

这些数据集解决了计算机视觉领域中关于图像识别和地理空间数据分析的多个学术问题。例如，通过分析道路图像，研究者可以开发出更精确的物体检测算法，提升自动驾驶车辆的环境感知能力。此外，基于地理位置的图像数据集还为城市规划和环境监测提供了数据支持，推动了相关领域的研究进展。

衍生相关工作

基于这些数据集，研究者们衍生出了许多经典工作。例如，利用Google Street View数据开发的深度学习模型在自动驾驶领域取得了显著进展。此外，Open Street Cam的数据也被用于开发城市环境监测系统，帮助研究者分析城市交通流量和空气质量的变化。这些工作不仅推动了相关技术的发展，也为未来的研究提供了新的方向。

以上内容由遇见数据集搜集并总结生成