five

NYC Taxi Rides, STAR, AIRLINE

收藏
github2022-10-10 更新2024-05-31 收录
下载链接:
https://github.com/Altinity/clickhouse-demo-dataset-migration
下载链接
链接失效反馈
官方服务:
资源简介:
NYC Taxi Rides数据集包括纽约市的出租车行驶数据,STAR数据集可能与天文学相关,AIRLINE数据集可能与航空公司运营数据相关。

The NYC Taxi Rides dataset encompasses taxi trip data from New York City, while the STAR dataset is potentially related to astronomy, and the AIRLINE dataset may pertain to airline operational data.
创建时间:
2017-08-01
原始信息汇总

数据集概述

数据集列表

  1. Dataset NYC Taxi Rides

    • 数据库: nyc_taxi_rides
    • :
      • central_park_weather_observations
      • taxi_zones
      • tripdata
    • 数据源: 远程的‘etalon dataset server’
  2. Dataset STAR

    • 数据库: star
    • : starexp
    • 数据源: 远程的‘etalon dataset server’
  3. Dataset AIRLINE

    • 数据库: airline
    • : ontime
    • 数据源: 远程的‘etalon dataset server’

数据集设置步骤

Dataset NYC Taxi Rides

  • 数据库创建: bash clickhouse-client -q "CREATE DATABASE IF NOT EXISTS nyc_taxi_rides;"

  • 表创建: bash clickhouse-client -q "CREATE TABLE nyc_taxi_rides.central_park_weather_observations (...) ENGINE = MergeTree(...);" clickhouse-client -q "CREATE TABLE nyc_taxi_rides.taxi_zones (...) ENGINE = MergeTree(...);" clickhouse-client -q "CREATE TABLE nyc_taxi_rides.tripdata (...) ENGINE = MergeTree(...);"

  • 数据复制: bash clickhouse-client -q "INSERT INTO nyc_taxi_rides.central_park_weather_observations SELECT * FROM remote(127.0.0.1:9999, nyc_taxi_rides.central_park_weather_observations);" clickhouse-client -q "INSERT INTO nyc_taxi_rides.taxi_zones SELECT * FROM remote(127.0.0.1:9999, nyc_taxi_rides.taxi_zones);" clickhouse-client -q "INSERT INTO nyc_taxi_rides.tripdata SELECT * FROM remote(127.0.0.1:9999, nyc_taxi_rides.tripdata);"

  • 数据检查: bash clickhouse-client -q "SELECT count() FROM nyc_taxi_rides.central_park_weather_observations;" clickhouse-client -q "SELECT count() FROM nyc_taxi_rides.taxi_zones;" clickhouse-client -q "SELECT count() FROM nyc_taxi_rides.tripdata;"

Dataset STAR

  • 数据库创建: bash clickhouse-client -q "CREATE DATABASE IF NOT EXISTS star;"

  • 表创建: bash clickhouse-client -q "CREATE TABLE star.starexp (...) ENGINE = MergeTree(...);"

  • 数据复制: bash clickhouse-client -q "INSERT INTO star.starexp SELECT * FROM remote(127.0.0.1:9999, star.starexp);"

  • 数据检查: bash clickhouse-client -q "SELECT count() FROM star.starexp;"

Dataset AIRLINE

  • 数据库创建: bash clickhouse-client -q "CREATE DATABASE IF NOT EXISTS airline;"

  • 表创建: bash clickhouse-client -q "CREATE TABLE IF NOT EXISTS airline.ontime (...) ENGINE = MergeTree(...);"

  • 数据复制: bash clickhouse-client -q "INSERT INTO airline.ontime SELECT * FROM remote(127.0.0.1:9999, airline.ontime);"

  • 数据检查: bash clickhouse-client -q "SELECT count() FROM airline.ontime;"

结论

完成上述步骤后,本地将成功迁移一个或多个来自‘etalon dataset server’的数据集。

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建基于ClickHouse数据库系统,通过SSH隧道从远程的‘etalon数据集服务器’中提取数据。首先,用户需要在本地环境中安装并配置ClickHouse,随后通过SSH隧道连接到远程服务器,将数据复制到本地数据库中。数据集的构建过程包括创建数据库、定义表结构以及从远程服务器导入数据,确保数据的完整性和一致性。
特点
该数据集涵盖了纽约市出租车行程、星体观测数据以及航空航班信息,具有多样性和广泛的应用场景。数据集中的每个表都经过精心设计,采用了MergeTree引擎,支持高效的数据查询和分析。数据字段丰富,涵盖了时间、地理位置、天气、航班状态等多个维度,能够满足复杂的数据分析需求。
使用方法
用户可以通过ClickHouse客户端与数据集进行交互,执行SQL查询以获取所需信息。数据集的使用方法包括创建数据库、定义表结构、导入数据以及执行查询操作。用户可以根据具体需求选择性地加载数据集,并通过ClickHouse的高性能查询功能进行数据分析和挖掘。此外,数据集还支持通过SSH隧道进行远程访问,确保数据的安全性和可访问性。
背景与挑战
背景概述
NYC Taxi Rides、STAR和AIRLINE数据集是用于大数据分析和机器学习研究的重要资源。NYC Taxi Rides数据集记录了纽约市出租车的行程数据,涵盖了乘客数量、行程距离、支付方式等详细信息,广泛应用于交通流量预测、城市规划和行为模式分析等领域。STAR数据集则聚焦于天体物理学领域,记录了恒星观测数据,为研究宇宙结构和恒星演化提供了宝贵的数据支持。AIRLINE数据集则包含了航空公司的航班运营数据,涉及航班延误、取消原因等,常用于航空运营优化和航班延误预测研究。这些数据集由多个研究机构和数据平台共同维护,旨在为学术界和工业界提供高质量的数据支持。
当前挑战
这些数据集在应用过程中面临多重挑战。首先,数据规模庞大,NYC Taxi Rides和AIRLINE数据集包含数百万条记录,数据存储和处理对计算资源提出了极高要求。其次,数据质量问题突出,例如缺失值、异常值和数据格式不一致等问题,增加了数据清洗和预处理的复杂性。此外,STAR数据集涉及天体物理学的专业领域知识,数据解释和分析需要跨学科的专业背景。在数据构建过程中,如何确保数据的完整性和一致性,以及如何高效地从远程服务器迁移大规模数据,也是技术实现中的主要难点。这些挑战要求研究者在数据处理、存储和分析方面具备高度的技术能力和专业知识。
常用场景
经典使用场景
NYC Taxi Rides数据集广泛应用于城市交通流量分析与预测领域。通过对纽约市出租车行程数据的深入挖掘,研究人员能够分析乘客出行模式、交通拥堵热点区域以及出租车服务的供需关系。该数据集为城市交通规划、智能交通系统设计提供了宝贵的数据支持。
实际应用
在实际应用中,NYC Taxi Rides数据集被用于开发智能调度系统,帮助出租车公司优化车辆调度,减少空驶率。此外,该数据集还被用于开发实时交通预测应用,为乘客提供更准确的出行建议,提升城市交通效率。
衍生相关工作
基于NYC Taxi Rides数据集,许多经典研究工作得以展开。例如,研究人员开发了基于机器学习的交通流量预测模型,用于预测未来某一时段的交通状况。此外,该数据集还被用于研究共享出行模式对传统出租车行业的影响,推动了共享经济领域的研究进展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作