NYC Taxi Trip Data|出租车服务数据集|交通数据数据集
收藏数据集概述
数据集描述
本数据集名为“NYC_TAXI Data Pipeline”,用于分析纽约市出租车行程数据。数据集通过整合多种技术(如Airflow、Spark、Delta Lake、Debezium、Kafka、DBT和Great Expectations)将原始出租车行程数据转化为可操作的智能信息。
数据集内容
数据集包含以下内容:
- 数据文件:
- 文件格式:Parquet
- 文件命名:例如
green_tripdata_2022-01.parquet
和yellow_tripdata_2022-01.parquet
- 文件路径:
data/2020/
,data/2021/
,data/2022/
,data/2023/
,data/2024/
数据处理流程
数据处理流程包括以下步骤:
-
数据提取与加载:
- 从本地加载数据到MinIO的
raw
桶:python src/local_to_raw.py
- 从
raw
桶处理数据到processed
桶:python src/raw_to_processed.py
- 将数据转换为Delta Lake格式:
python src/processed_to_delta.py
- 从本地加载数据到MinIO的
-
数据验证:
- 使用Great Expectations进行数据验证:
great_expectations init
后运行full_flow.ipynb
- 使用Great Expectations进行数据验证:
-
数据转换:
- 使用DBT进行数据转换,创建星型模式:进入
dbt_nyc
目录并按照README.md
进行操作
- 使用DBT进行数据转换,创建星型模式:进入
-
数据流处理:
- 创建Debezium连接器:
bash run.sh register_connector configs/taxi-nyc-cdc.json
- 读取并写入数据流到MinIO的
raw
桶:python stream_processing/streaming_to_datalake.py
- 创建Debezium连接器:
-
数据编排:
- 使用Airflow进行数据编排:进入
airflow
目录并按照README.md
进行操作
- 使用Airflow进行数据编排:进入
参考资料

- NYC Taxi Trip Data首次公开发布,作为纽约市出租车和豪华轿车委员会(TLC)的一部分,旨在提供关于出租车行程的详细数据。
- 数据集开始包含黄色和绿色出租车的行程数据,增加了数据集的多样性和覆盖范围。
- NYC Taxi Trip Data首次被用于学术研究,特别是在交通流量分析和城市规划领域,标志着数据集在科学研究中的重要应用。
- 数据集的发布频率增加,从每月一次更新改为每周更新,提高了数据的实时性和可用性。
- NYC Taxi Trip Data开始包含优步(Uber)等共享出行服务的数据,进一步丰富了数据集的内容和应用场景。
- 数据集的隐私保护措施得到加强,引入了匿名化和数据脱敏技术,以保护乘客的个人信息。
- 1T-Drive: Driving Directions Based on Taxi TrajectoriesMicrosoft Research Asia · 2010年
- 2Predicting Taxi–Passenger Demand Using Streaming DataColumbia University · 2013年
- 3A Generalized Framework for Demand Modeling and Prediction in New York City TaxisNew York University · 2015年
- 4Taxi Demand Prediction Using Machine Learning TechniquesUniversity of California, Berkeley · 2017年
- 5Deep and Confident Prediction for Time Series at UberUber Technologies · 2020年
中国知识产权局专利数据库
该数据集包含了中国知识产权局发布的专利信息,涵盖了专利的申请、授权、转让等详细记录。数据内容包括专利号、申请人、发明人、申请日期、授权日期、专利摘要等。
www.cnipa.gov.cn 收录
MOOCs Dataset
该数据集包含了大规模开放在线课程(MOOCs)的相关数据,包括课程信息、用户行为、学习进度等。数据主要用于研究在线教育的行为模式和学习效果。
www.kaggle.com 收录
中国空气质量数据集(2014-2020年)
数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。
国家地球系统科学数据中心 收录
中国逐日降水数据集(1961-2022,0.1°/0.25°/0.5°)
CHM_PRE数据集基于中国境内及周边1961至今共2839个站点的日降水观测,在传统的“降水背景场 + 降水比值场”的数据集构建思路上,尝试应用月值降水约束和地形特征校正,并依据中国范围内约4万个高密度站点2015–2019年的日降水量插值后数据进行精度评价。经评估认为,CHM_PRE可以较好的表征降水的空间变异性,其日值时间序列与高密度站点日值降水观测结果之间的相关系数中位数为0.78,均方根误差中位数为8.8 mm/d,KGE值中位数为0.69,与目前常用的降水数据集(CGDPA、CN05.1、CMA V2.0)有很好的一致性。 数据集的时间范围为1961年至今,空间分辨率为0.1°、0.25°和0.5°,经纬度范围为18°N–54°N, 72°E–136°E。
国家青藏高原科学数据中心 收录
FAOSTAT Agricultural Data
FAOSTAT Agricultural Data 是由联合国粮食及农业组织(FAO)提供的全球农业数据集。该数据集涵盖了农业生产、贸易、价格、土地利用、水资源、气候变化、人口统计等多个方面的详细信息。数据包括了全球各个国家和地区的农业统计数据,旨在为政策制定者、研究人员和公众提供全面的农业信息。
www.fao.org 收录