five

Disney-Theme-Park-Queue-Dynamics

收藏
Hugging Face2026-04-07 更新2026-04-08 收录
下载链接:
https://huggingface.co/datasets/matanzig/Disney-Theme-Park-Queue-Dynamics
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为“迪士尼主题公园排队动态”,包含约375万条记录,主要来源于一个主要迪士尼主题公园的运营数据。数据集整合了排队时间、出勤率和天气数据三个主要数据源,通过左连接基于`WORK_DATE`和`DEB_TIME_HOUR`键合并为一个统一的主数据框。数据经过严格的预处理流程,包括去重、缺失值填充(使用中位数)、异常值处理(IQR方法)以及标准化文本和日期格式。主要目标变量是`WAIT_TIME_MAX`(每小时最大等待时间,单位为分钟),适用于时间序列预测和表格分类任务。数据集可用于分析游客行为模式(如“周末高峰”、“午餐时间低谷”)和优化公园运营效率(如机械故障概率、极端排队事件)。
创建时间:
2026-04-06
原始信息汇总

数据集概述:迪士尼主题公园排队动态

基本信息

  • 数据集名称:Disney Theme Park Queue Dynamics
  • 作者:Matan Zigelman
  • 所属机构:Reichman University
  • 发布日期:2026年3月
  • 语言:英语
  • 许可证:MIT
  • 数据规模:1M < n < 10M(约3,757,301条记录)
  • 任务类别:表格分类、时间序列预测
  • 配置文件:默认配置,数据文件为 disney_cleaned_dataset.csv

数据内容与来源

  • 原始来源:Kaggle
  • 数据描述:该数据集包含来自一个主要迪士尼主题公园的以数字为主的操作数据,主要由时间和运营指标驱动。
  • 关键特征:包括 TOTAL_DAILY_ATTENDANCECAPACITYGUEST_CARRIEDDOWNTIME 等。
  • 目标变量WAIT_TIME_MAX(每小时最大等待时间,以分钟计),这是一个连续变量,用于衡量客户摩擦和公园运营效率。
  • 数据整合:原始数据分散在多个来源中,通过左连接基于 WORK_DATEDEB_TIME_HOUR 键,动态加载并合并了三个主要数据集(waiting_timesattendanceweather_data)到一个统一的主数据框架中。

数据预处理与清洗

  • 重复项处理:消除了完全相同的重复行。
  • 缺失值处理:删除了缺少主要目标变量(WAIT_TIME_MAX)的记录。对于缺失的数值特征(如天气指标),使用列中位数进行填补。
  • 异常值处理:使用四分位距方法识别并移除了极端上限异常值和负值。明确保留了零分钟等待时间,以准确反映公园开放早期或关闭晚期的“直接游玩”场景。
  • 数据格式:应用了标准化的文本格式和日期时间对象。

初步分析发现

  • 相关性:早期描述性统计显示,等待时间与运营特征(如 CAPACITYGUEST_CARRIED)之间存在强相关性,自然地识别出公园的“大型景点”。总日客流量与等待时间的相关性较弱,表明即使在历史上“客流较少”的日子,主要游乐设施仍会保持长队。
  • 相关性热图:https://huggingface.co/datasets/matanzig/Disney-Theme-Park-Queue-Dynamics/resolve/main/correlation%20heatmap.PNG

访客策略分析(排队动态)

  1. 日等待时间变化:数据显示典型的“钟形曲线”,公园在09:00缓慢启动,排队在12:00达到峰值(近19分钟),直到16:00等待时间仍保持高位。
    • 可视化:https://huggingface.co/datasets/matanzig/Disney-Theme-Park-Queue-Dynamics/resolve/main/average%20waite%20time%20by%20hour%20of%20the%20day.PNG
  2. 最佳访问日期:存在“周末溢价”,周六等待时间急剧上升至近15分钟,周日则安静得多,是周末旅行的更优选择。
    • 可视化:https://huggingface.co/datasets/matanzig/Disney-Theme-Park-Queue-Dynamics/resolve/main/average%20wait%20time%20by%20day%20of%20the%20week.PNG
  3. 温度影响:当温度从冰点升至30-35°C时,公园排队稳步增长至最大值。一旦温度超过38°C,人群因天气而减少,等待时间急剧下降。
    • 可视化:https://huggingface.co/datasets/matanzig/Disney-Theme-Park-Queue-Dynamics/resolve/main/impact%20of%20temperature.PNG
  4. 排队动量:前一小时的高等待时间强烈预示着当前小时的高等待时间,拥堵会持续。
    • 可视化:https://huggingface.co/datasets/matanzig/Disney-Theme-Park-Queue-Dynamics/resolve/main/momentum%20previous%20vs%20current%20hour%20wait.PNG
  5. “死亡区域”:周六中午(11:00 - 16:00)是排队最严重的时段。真正的“死亡区域”是开放的第一个小时(09:00)或19:00后的晚间时段。
    • 可视化:https://huggingface.co/datasets/matanzig/Disney-Theme-Park-Queue-Dynamics/resolve/main/blue%20heatmap.PNG
  6. 早晨高峰与晚间低谷对比:数据显示晚间策略更优。早晨等待时间平均超过10分钟,而晚间等待时间降至7分钟以下。
    • 可视化:https://huggingface.co/datasets/matanzig/Disney-Theme-Park-Queue-Dynamics/resolve/main/morning%20vs%20evenung.PNG
  7. “午餐时间下降”现象:数据显示“午餐时间下降”是真实存在的。等待时间在12:00达到峰值,但在12:00至14:00之间,随着游客休息用餐,排队稳步下降。14:00是游玩游乐设施的战略性最佳时机。
    • 可视化:https://huggingface.co/datasets/matanzig/Disney-Theme-Park-Queue-Dynamics/resolve/main/lunchtime%20myth.PNG
  8. “逆流”策略:通过将“早晨高峰”游乐设施与“下午高峰”游乐设施进行对比,证明游客可以通过逆向游览公园来节省大量时间。
    • 可视化:https://huggingface.co/datasets/matanzig/Disney-Theme-Park-Queue-Dynamics/resolve/main/contra%20flow%20strategy.PNG
  9. 特定游乐设施的最佳游玩时间:高需求游乐设施(如鬼屋和空中缆车)在中午时段排队极长,必须在10:00之前或19:00之后游玩。而填充类游乐设施(如马戏团火车或疯狂舞蹈)全天排队时间都短。
    • 可视化:https://huggingface.co/datasets/matanzig/Disney-Theme-Park-Queue-Dynamics/resolve/main/ride%20by%20hour.PNG

管理运营优化分析

  1. 故障概率:故障概率在上午10:00达到峰值(超过4%),这可能发生在游乐设施经历一天中首次满负荷压力时。
    • 可视化:https://huggingface.co/datasets/matanzig/Disney-Theme-Park-Queue-Dynamics/resolve/main/probability%20of%20breakdown.PNG
  2. “黑天鹅”事件风险:极端排队事件高度集中在特定的中午时段(11:00 - 16:00),峰值概率超过16%。
    • 可视化:https://huggingface.co/datasets/matanzig/Disney-Theme-Park-Queue-Dynamics/resolve/main/black%20swan.PNG
  3. “加班损耗”分析:到22:00闭园时,公园内最长的排队时间(Tilt-A-Whirl)也不足8分钟,远低于60分钟的阈值,不存在加班损耗。
    • 可视化:https://huggingface.co/datasets/matanzig/Disney-Theme-Park-Queue-Dynamics/resolve/main/closing%20time.PNG
  4. 故障后恢复时间:短暂的故障不仅会导致暂时的排队高峰,还会使等待时间在整个白天都保持在较高水平,直到公园关闭。
    • 可视化:https://huggingface.co/datasets/matanzig/Disney-Theme-Park-Queue-Dynamics/resolve/main/recovery%20lag.PNG
  5. 开园拥挤度:开园时(09:00)的等待时间实际上接近于零,随着人群缓慢进入,等待时间平稳上升至11:00,不存在开园时的踩踏式拥挤。
    • 可视化:https://huggingface.co/datasets/matanzig/Disney-Theme-Park-Queue-Dynamics/resolve/main/front%20gate.PNG

技术栈与仓库内容

  • 核心技术:Python
  • 数据处理:Pandas & NumPy
  • 数据可视化:Seaborn & Matplotlib
  • 开发与部署环境:Colab & Hugging Face
  • 主要文件
    • Disney_Theme_Park_Queue_Dynamics.ipynb:完整的源代码,包含逐步的技术解释和数据整理逻辑。
    • disney_cleaned_dataset.csv:用于本研究的完全处理后的数据集,包含超过370万行。

快速开始

可以直接使用Hugging Face URL将数据集加载到Python环境(如Google Colab或Jupyter Notebook)中。 python import pandas as pd dataset_url = "hf://datasets/matanzig/Disney-Theme-Park-Queue-Dynamics/disney_cleaned_dataset.csv" df = pd.read_csv(dataset_url) display(df.head())

搜集汇总
数据集介绍
main_image_url
构建方式
在主题公园运营管理领域,数据驱动的决策支持系统日益重要。本数据集通过整合多个异构数据源构建而成,原始数据涵盖排队时长、园区客流及气象信息等维度。构建过程中采用左连接技术,依据工作日与小时级时间戳将三个独立数据集融合为统一的主数据框架。为确保数据质量,执行了严格的清洗流程,包括剔除完全重复的记录、删除目标变量缺失的样本,并对数值型特征的缺失值采用中位数插补法处理。此外,运用四分位距方法识别并移除了极端异常值,同时保留了反映“零等待”场景的有效零值记录,最终形成包含约375万条记录的高质量时序数据集。
特点
该数据集以高精度时序数据为核心,深度刻画了主题公园排队动态的复杂模式。其显著特征在于融合了运营指标与外部环境因素,如承载能力、实际运载客流量及气温等变量,为目标变量“每小时最大等待时间”提供了多维解释空间。数据揭示了排队行为的内在规律,例如“排队动量”现象——当前时段的拥挤程度能有效预测下一时段的排队状况,以及“周末溢价”效应——周六的等待时间显著高于工作日。同时,数据还捕捉到极端温度对客流分布的非线性影响,为研究环境因素与游客行为交互提供了独特视角。
使用方法
该数据集适用于时序预测与表格分类等多种机器学习任务。使用者可通过Hugging Face平台直接加载数据,无需本地下载大型文件。具体操作是安装必要的文件系统库后,利用`hf://`协议将数据流式读取至Pandas DataFrame中。在分析层面,数据集支持探索游客策略优化与运营效率提升两大方向。研究者可基于小时级与星期维度的聚合分析,识别园区“空闲时段”与“高峰窗口”;也可构建预测模型,对最大等待时间进行回归预测,或对高拥堵风险事件进行分类预警。数据中丰富的运营指标为资源调配、瓶颈预防等管理决策提供了量化依据。
背景与挑战
背景概述
主题公园运营管理领域长期致力于通过数据驱动方法优化游客体验与设施效率。由Reichman大学研究人员Matan Zigelman于2026年创建的Disney-Theme-Park-Queue-Dynamics数据集,整合了超过375万条涵盖排队时长、客流量、设施承载量与气象条件等多维时序记录。该数据集的核心研究目标在于解析排队动力学的内在规律,为游客提供动态行程优化策略,并协助管理者实现运营瓶颈预警与资源精准配置。其通过融合行为分析与运筹学模型,为智慧旅游与城市休闲空间管理研究提供了高粒度实证基础。
当前挑战
该数据集旨在解决主题公园场景下的排队时长预测与运营效率优化问题,其核心挑战在于建模高度动态且受多重因素耦合影响的非线性系统。具体而言,排队时长不仅受客流量与设施承载量等显性因素驱动,更与游客行为模式、气象条件、设施故障事件等隐性变量产生复杂交互,这要求模型具备捕捉时空依赖与突发异常的能力。在数据构建层面,原始数据分散于多个异构系统,需通过时间键值进行跨表对齐与缺失值填补;同时,排队数据中存在大量反映正常运营状态的零值记录与系统录入异常值,需在保留业务语义的前提下进行离群值处理,以保持数据分布的统计稳健性。
常用场景
经典使用场景
在主题公园运营管理领域,该数据集为游客排队行为与设施效率分析提供了经典范例。通过整合等待时间、客流量、天气等多维时序数据,研究者能够构建精细的排队动力学模型,揭示游客流动的时空规律。例如,分析每小时最大等待时间与运营指标的关系,可识别高峰拥堵时段与低效设施,为动态调度提供数据支撑。此类研究不仅深化了对人群行为模式的理解,也为优化游客体验奠定了实证基础。
衍生相关工作
围绕该数据集,已衍生出多项经典研究工作,主要集中在时序预测与行为分析领域。例如,基于等待时间序列的机器学习模型被开发用于实时队列长度预测;结合天气与客流数据的因果推断研究,评估了外部因素对运营效率的影响。此外,该数据集还启发了游客移动模拟与动态定价策略的探索,为智慧旅游系统的构建提供了关键数据基础。
数据集最近研究
最新研究方向
在主题公园运营管理与游客行为分析领域,迪士尼主题公园排队动态数据集为研究提供了宝贵的实证基础。当前前沿研究聚焦于利用该数据集进行高精度时间序列预测与智能优化决策。学者们正致力于开发融合深度学习和强化学习的混合模型,以精准预测极端排队事件(如“黑天鹅”事件)的发生概率与时空分布,从而辅助公园管理层实现动态资源调配与瓶颈预防。同时,研究热点亦延伸至游客行为模式的细粒度挖掘,通过分析“队列动量”效应与“逆向流动”策略,构建个性化游览推荐系统,以提升游客体验并缓解局部拥堵。这些研究方向不仅推动了运营研究在娱乐产业的应用深化,也为智慧城市中的人流管理与服务优化提供了可迁移的理论框架与实践洞察。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作