New York City Yellow Taxi Trip data|出租车服务数据集|交通数据分析数据集

github2024-11-15 更新2024-11-22 收录

出租车服务

交通数据分析

下载链接：

https://github.com/fero2/NYC-Taxi-Data-Engineering-Project

下载链接

链接失效反馈

资源简介：

纽约市黄色出租车行程记录包括捕捉上车和下车日期和时间、上车和下车地点、行程距离、逐项列出的费用、费率类型、支付类型和司机报告的乘客人数等字段。

创建时间：

2024-11-14

原始信息汇总

NYC Yellow Taxi Tripdata Analytics | Microsoft Azure Data Engineering Project

数据集概述

数据集描述

NYC Yellow trip records 包含以下字段：

上车和下车日期及时间
上车和下车地点
行程距离
费用明细
费率类型
支付类型
司机报告的乘客数量

数据集来源

原始数据源：https://www.nyc.gov/site/tlc/about/tlc-trip-record-data.page
数据字典：https://www.nyc.gov/assets/tlc/downloads/pdf/data_dictionary_trip_records_yellow.pdf

数据集使用

该数据集用于一个全面的 Azure 数据工程项目，旨在处理、转换、分析和可视化纽约市出租车行程数据。

项目架构

Architecture Diagram

Azure 服务使用

Azure Data Factory (ADF)
Azure Data Lake Storage Gen2 (ADLS Gen2)
Azure Databricks
Azure Synapse Analytics
Key Vault
Azure Active Directory
Power BI

语言使用

编程语言：Python, Pyspark
脚本语言：SQL

数据模型

Data Model

Power BI 仪表盘

Power BI analysis dashboard

AI搜集汇总

数据集介绍

构建方式

在构建纽约市黄色出租车行程数据集时，采用了Microsoft Azure服务进行全面的数据工程解决方案。通过Azure Data Factory（ADF）自动化了从外部源到Azure Data Lake Storage Gen2（ADLS Gen2）的数据摄取过程，并触发了Databricks的转换任务。Azure Databricks利用PySpark进行数据清洗和转换，优化查询性能，确保高效处理大规模数据集。随后，转换后的数据被加载到Azure Synapse Analytics中，作为数据仓库进行结构化数据的存储和查询。此外，Azure Key Vault用于安全管理敏感信息，Azure Active Directory则确保了基于角色的访问控制，增强了整体系统的安全性。

特点

该数据集的显著特点在于其全面性和实时性。数据涵盖了纽约市黄色出租车的行程记录，包括接送日期和时间、地点、行程距离、费用明细、费率类型、支付方式以及司机报告的乘客数量等。通过Azure服务的集成，数据集实现了高效的数据摄取、处理和存储，确保了数据的准确性和一致性。此外，数据模型采用星型架构设计，便于查询和报告，增强了数据的可分析性和可视化效果。

使用方法

使用该数据集时，用户可以通过Azure Data Factory（ADF）进行数据摄取和ETL过程的自动化管理。Azure Databricks提供了强大的数据处理能力，支持用户进行复杂的数据清洗和转换操作。Azure Synapse Analytics则为用户提供了高效的数据仓库解决方案，便于进行大规模数据的查询和分析。通过Power BI，用户可以创建交互式仪表盘和热图，直观展示关键指标如行程密度、总收入和平均小费金额等。此外，Azure Key Vault和Azure Active Directory确保了数据的安全访问和权限管理，提升了数据使用的安全性和便捷性。

背景与挑战

背景概述

纽约市黄色出租车行程数据集（New York City Yellow Taxi Trip data）是由纽约市出租车与豪华轿车委员会（TLC）发布的公开数据集，涵盖了从2009年至今的出租车行程记录。该数据集的核心研究问题在于通过大规模的行程数据分析，揭示城市交通模式、乘客行为以及市场动态。主要研究人员和机构包括微软Azure数据工程团队，他们利用Azure服务构建了一个全面的数据工程解决方案，旨在处理、转换、分析和可视化这些数据。该数据集对城市交通规划、公共政策制定以及商业智能领域产生了深远影响，为研究人员和决策者提供了宝贵的数据支持。

当前挑战

纽约市黄色出租车行程数据集在构建和应用过程中面临多项挑战。首先，数据量庞大，涉及数百万条行程记录，处理和存储这些数据需要高效的计算资源和存储解决方案。其次，数据质量问题，如缺失值和异常值，需要进行复杂的数据清洗和预处理。此外，数据隐私和安全问题也是一大挑战，尤其是在处理涉及乘客和司机敏感信息的数据时，必须确保数据的安全性和合规性。最后，数据集的实时处理和分析需求，要求构建一个能够快速响应和处理大规模数据流的系统架构。

常用场景

经典使用场景

纽约市黄色出租车行程数据集的经典使用场景主要集中在城市交通管理和优化领域。通过分析行程数据，研究人员和城市规划者可以深入了解出租车服务的使用模式、高峰时段、热门路线以及乘客需求的变化。这些信息对于优化出租车调度、改善交通流量、减少拥堵以及提升乘客体验具有重要意义。此外，该数据集还可用于开发预测模型，以预测未来的交通需求，从而为城市交通管理提供科学依据。

解决学术问题

纽约市黄色出租车行程数据集在学术研究中解决了多个关键问题。首先，它为交通流分析提供了丰富的数据支持，有助于研究城市交通网络的动态变化和优化策略。其次，该数据集为研究城市交通的经济学和社会学问题提供了实证基础，如出租车市场的供需关系、乘客支付行为等。此外，通过分析行程数据，研究人员还可以探讨环境影响，如交通拥堵对空气质量的影响，从而为可持续发展研究提供数据支持。

衍生相关工作

纽约市黄色出租车行程数据集的广泛应用催生了众多相关研究和工作。例如，基于该数据集的研究已经发表了多篇关于城市交通优化、出租车市场分析和智能交通系统开发的学术论文。此外，许多数据科学家和工程师利用该数据集开发了各种数据分析工具和可视化平台，以帮助城市规划者和交通管理者更好地理解和利用数据。这些衍生工作不仅推动了城市交通管理的技术进步，也为相关领域的学术研究提供了丰富的数据资源。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国1km分辨率逐月降水量数据集（1901-2023）

该数据集为中国逐月降水量数据，空间分辨率为0.0083333°（约1km），时间为1901.1-2023.12。数据格式为NETCDF，即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集，通过Delta空间降尺度方案在中国降尺度生成的。并且，使用496个独立气象观测点数据进行验证，验证结果可信。本数据集包含的地理空间范围是全国主要陆地（包含港澳台地区），不含南海岛礁等区域。为了便于存储，数据均为int16型存于nc文件中，降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理，Matlab发布了读入与存储nc文件的函数，读取函数为ncread，切换到nc文件存储文件夹，语句表达为：ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent])，其中XXX.nc为文件名，为字符串需要’’；var是从XXX.nc中读取的变量名，为字符串需要’’；i、j、t分别为读取数据的起始行、列、时间，leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样，研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令，可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心收录

TT100K - Tsinghua-Tencent 100K

TT100K数据集是一个用于交通标志检测和识别的大规模数据集，包含100,000张标注的交通标志图像。该数据集主要用于计算机视觉和自动驾驶领域的研究。

cg.cs.tsinghua.edu.cn 收录

Figshare

Figshare是一个在线数据共享平台，允许研究人员上传和共享各种类型的研究成果，包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集，包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素，标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录

FAOSTAT Agricultural Data

FAOSTAT Agricultural Data 是由联合国粮食及农业组织（FAO）提供的全球农业数据集。该数据集涵盖了农业生产、贸易、价格、土地利用、水资源、气候变化、人口统计等多个方面的详细信息。数据包括了全球各个国家和地区的农业统计数据，旨在为政策制定者、研究人员和公众提供全面的农业信息。