NYC Taxi Trip Data|出租车服务数据集|交通数据数据集
收藏数据集概述
数据集描述
本数据集名为“NYC_TAXI Data Pipeline”,用于分析纽约市出租车行程数据。数据集通过整合多种技术(如Airflow、Spark、Delta Lake、Debezium、Kafka、DBT和Great Expectations)将原始出租车行程数据转化为可操作的智能信息。
数据集内容
数据集包含以下内容:
- 数据文件:
- 文件格式:Parquet
- 文件命名:例如
green_tripdata_2022-01.parquet
和yellow_tripdata_2022-01.parquet
- 文件路径:
data/2020/
,data/2021/
,data/2022/
,data/2023/
,data/2024/
数据处理流程
数据处理流程包括以下步骤:
-
数据提取与加载:
- 从本地加载数据到MinIO的
raw
桶:python src/local_to_raw.py
- 从
raw
桶处理数据到processed
桶:python src/raw_to_processed.py
- 将数据转换为Delta Lake格式:
python src/processed_to_delta.py
- 从本地加载数据到MinIO的
-
数据验证:
- 使用Great Expectations进行数据验证:
great_expectations init
后运行full_flow.ipynb
- 使用Great Expectations进行数据验证:
-
数据转换:
- 使用DBT进行数据转换,创建星型模式:进入
dbt_nyc
目录并按照README.md
进行操作
- 使用DBT进行数据转换,创建星型模式:进入
-
数据流处理:
- 创建Debezium连接器:
bash run.sh register_connector configs/taxi-nyc-cdc.json
- 读取并写入数据流到MinIO的
raw
桶:python stream_processing/streaming_to_datalake.py
- 创建Debezium连接器:
-
数据编排:
- 使用Airflow进行数据编排:进入
airflow
目录并按照README.md
进行操作
- 使用Airflow进行数据编排:进入
参考资料

- NYC Taxi Trip Data首次公开发布,作为纽约市出租车和豪华轿车委员会(TLC)的一部分,旨在提供关于出租车行程的详细数据。
- 数据集开始包含黄色和绿色出租车的行程数据,增加了数据集的多样性和覆盖范围。
- NYC Taxi Trip Data首次被用于学术研究,特别是在交通流量分析和城市规划领域,标志着数据集在科学研究中的重要应用。
- 数据集的发布频率增加,从每月一次更新改为每周更新,提高了数据的实时性和可用性。
- NYC Taxi Trip Data开始包含优步(Uber)等共享出行服务的数据,进一步丰富了数据集的内容和应用场景。
- 数据集的隐私保护措施得到加强,引入了匿名化和数据脱敏技术,以保护乘客的个人信息。
- 1T-Drive: Driving Directions Based on Taxi TrajectoriesMicrosoft Research Asia · 2010年
- 2Predicting Taxi–Passenger Demand Using Streaming DataColumbia University · 2013年
- 3A Generalized Framework for Demand Modeling and Prediction in New York City TaxisNew York University · 2015年
- 4Taxi Demand Prediction Using Machine Learning TechniquesUniversity of California, Berkeley · 2017年
- 5Deep and Confident Prediction for Time Series at UberUber Technologies · 2020年
Google Scholar
Google Scholar是一个学术搜索引擎,旨在检索学术文献、论文、书籍、摘要和文章等。它涵盖了广泛的学科领域,包括自然科学、社会科学、艺术和人文学科。用户可以通过关键词搜索、作者姓名、出版物名称等方式查找相关学术资源。
scholar.google.com 收录
中国行政区划shp数据
中国行政区划数据是重要的基础地理信息数据,目前不同来源的全国行政区划数据非常多,但能够开放获取的高质量行政区域数据少之又少。基于此,锐多宝的地理空间制作一套2013-2023年可开放获取的高质量行政区划数据。该套数据以2022年国家基础地理信息数据中的县区划数据作为矢量基础,辅以高德行政区划数据、天地图行政区划数据,参考历年来民政部公布的行政区划为属性基础,具有时间跨度长、属性丰富、国界准确、更新持续等特性。 中国行政区划数据统计截止时间是2023年2月12日,包含省、市、县、国界、九段线等矢量shp数据。该数据基于2020年行政区划底图,按时间顺序依次制作了2013-2023年初的行政区划数据。截止2023年1月1日,我国共有34个省级单位,分别是4个直辖市、23个省、5个自治区和2个特别行政区。截止2023年1月1日,我国共有333个地级单位,分别是293个地级市、7个地区、30个自治州和3个盟,其中38个矢量要素未纳入统计(比如直辖市北京等、特别行政区澳门等、省直辖县定安县等)。截止2023年1月1日,我国共有2843个县级单位,分别是1301个县、394个县级市、977个市辖区、117个自治县、49个旗、3个自治旗、1个特区和1个林区,其中9个矢量要素未纳入县级类别统计范畴(比如特别行政区香港、无县级单位的地级市中山市东莞市等)。
CnOpenData 收录
AgiBot World
为了进一步推动通用具身智能领域研究进展,让高质量机器人数据触手可及,作为上海模塑申城语料普惠计划中的一份子,智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目,旨在构建国际领先的开源技术底座,标志着具身智能领域 「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集,AgiBot World 的长程数据规模高出 10 倍,场景范围覆盖面扩大 100 倍,数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。
github 收录
China Health and Nutrition Survey (CHNS)
China Health and Nutrition Survey(CHNS)是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目,旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响,以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体,采用多阶段随机抽样方法,收集了家庭、个体以及社区层面的详细数据,包括饮食、健康、经济和社会因素等信息。自2011年起,CHNS不断扩展,新增多个城市和省份,并持续完善纵向数据链接,为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。
www.cpc.unc.edu 收录
马达加斯加岛 – 世界地理数据大百科辞条
马达加斯加岛在非洲的东南部,位于11o56′59″S - 25o36′25″S及43o11′18″E - 50o29′36″E之间。通过莫桑比克海峡与位于非洲大陆的莫桑比克相望,最近距离为415千米。临近的岛屿分别为西北部的科摩罗群岛、北部的塞舌尔群岛、东部的毛里求斯岛和留尼汪岛等。在google earth 2015年遥感影像基础上研发的马达加斯加海岸线数据集表明,马达加斯加岛面积591,128.68平方千米,其中马达加斯加本岛面积589,015.06平方千米,周边小岛面积为2,113.62平方千米。马达加斯加本岛是非洲第一大岛,是仅次于格陵兰、新几内亚岛和加里曼丹岛的世界第四大岛屿。岛的形状呈南北走向狭长纺锤形,南北向长1,572千米;南北窄,中部宽,最宽处达574千米。海岸线总长16,309.27千米, 其中马达加斯加本岛海岸线长10,899.03千米,周边小岛海岸线长5,410.24千米。马达加斯加岛属于马达加斯加共和国。全国共划分22个区,119个县。22个区分别为:阿那拉芒加区,第亚那区,上马齐亚特拉区,博爱尼区,阿齐那那那区,阿齐莫-安德列发那区,萨瓦区,伊达西区,法基南卡拉塔区,邦古拉法区,索非亚区,贝齐博卡区,梅拉基区,阿拉奥特拉-曼古罗区,阿那拉兰基罗富区,阿莫罗尼马尼亚区,法土法韦-非图韦那尼区,阿齐莫-阿齐那那那区,伊霍罗贝区,美那贝区,安德罗伊区和阿诺西区。首都安塔那那利佛(Antananarivo)位于岛屿的中东部。马达加斯加岛是由火山及喀斯特地貌为主。贯穿海岛的是巨大火山岩山体-察腊塔纳山,其主峰马鲁穆库特鲁山(Maromokotro)海拔2,876米,是全国最高峰。马达加斯加自然景观垂直地带性分异显著,是热带雨林和热带草原广布的地区。岛上大约有20多万种动植物,其中包括马达加斯加特有物种狐猴(Lemur catta)、马达加斯加国树猴面包树(Adansonia digitata L.)等。
国家对地观测科学数据中心 收录