five

nyc-taxi

收藏
Hugging Face2024-10-04 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/tppllm/nyc-taxi
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含2013年5月1日至7日的纽约市出租车行程数据,不包括往返斯塔滕岛的行程。数据集包含2,957个序列,共362,374个事件和8种位置类型。

This dataset contains New York City taxi trip data spanning May 1 through 7, 2013, excluding trips to and from Staten Island. It includes 2,957 sequences, with a total of 362,374 events, and covers 8 types of locations.
创建时间:
2024-10-04
原始信息汇总

NYC Taxi Trip Dataset

概述

  • 数据集名称: NYC Taxi Trip Dataset
  • 数据来源: NYC Taxi Trips
  • 数据时间段: 2013年5月1日至7日
  • 数据范围: 不包括Staten Island的行程
  • 数据规模: 2,957个序列,362,374个事件,8种位置类型
  • 数据预处理: 详细的数据预处理步骤见论文

许可

  • 许可证: CC0 1.0

语言

  • 语言: 英语

数据大小

  • 数据大小: 1K<n<10K
搜集汇总
数据集介绍
main_image_url
构建方式
NYC Taxi Trip数据集基于2013年5月1日至7日纽约市的出租车行程数据构建,排除了往返史坦顿岛的行程。数据经过详细预处理,生成了包含2,957个序列、362,374个事件和8种地点类型的数据集。预处理步骤参考了TPP-LLM和TPP-LLM-Embedding两篇论文中的方法,确保了数据的规范性和可用性。
特点
该数据集涵盖了纽约市核心区域的出租车行程信息,具有较高的时空分辨率。数据中不仅包含行程的起点和终点,还记录了事件序列和地点类型,为研究城市交通模式、时间点过程建模等提供了丰富的信息。其规模适中,适合用于机器学习模型的训练与验证。
使用方法
该数据集可用于时间点过程建模、交通模式分析等研究领域。用户可通过下载链接获取原始数据,并结合TPP-LLM系列论文中的方法进行数据预处理和模型训练。使用该数据集时,需遵循纽约市的条款与条件,并在相关研究中引用提供的论文以支持学术规范。
背景与挑战
背景概述
NYC Taxi Trip数据集由Zefang Liu和Yinzhu Quan等研究人员于2024年创建,旨在为时间点过程(Temporal Point Processes, TPP)的研究提供支持。该数据集涵盖了2013年5月1日至7日期间纽约市的出租车行程数据,排除了与史泰登岛相关的行程,共包含2,957个序列、362,374个事件以及8种地点类型。该数据集的核心研究问题在于如何通过大规模语言模型(LLM)高效地建模时间点过程,从而提升对复杂事件序列的预测和分析能力。其研究成果已在TPP-LLM相关论文中发表,为时间序列分析和城市交通研究领域提供了重要的数据支持。
当前挑战
NYC Taxi Trip数据集在解决时间点过程建模问题时面临多重挑战。首先,出租车行程数据具有高度动态性和复杂性,如何从海量事件中提取有效的时间序列模式是一个关键难题。其次,数据预处理过程中需要处理大量噪声和不完整信息,例如行程记录的缺失或错误,这对数据的质量和可用性提出了较高要求。此外,如何将时间点过程与大规模语言模型结合,以实现高效的事件序列预测,也是当前研究的核心挑战之一。这些挑战不仅体现在算法设计上,还涉及数据存储、计算资源分配等多方面的技术问题。
常用场景
经典使用场景
NYC Taxi Trip数据集在交通流量分析和城市交通管理领域具有广泛的应用。研究人员利用该数据集中的出租车行程数据,能够深入分析纽约市内的交通模式、高峰时段的拥堵情况以及乘客的出行习惯。这些分析结果对于优化交通信号灯控制、减少交通拥堵以及提升城市交通系统的整体效率具有重要意义。
解决学术问题
该数据集为研究时间点过程(Temporal Point Processes, TPP)提供了丰富的实验数据。通过分析出租车行程的时间序列数据,研究人员能够开发新的模型来预测未来事件的发生时间和地点,从而解决时间序列预测中的关键问题。此外,该数据集还支持对大规模时空数据的处理和分析,推动了相关算法的发展。
衍生相关工作
NYC Taxi Trip数据集衍生了一系列经典研究工作,特别是在时间点过程建模和大规模时空数据分析领域。例如,Liu和Quan的研究工作《TPP-LLM: Modeling Temporal Point Processes by Efficiently Fine-Tuning Large Language Models》和《Efficient Retrieval of Temporal Event Sequences from Textual Descriptions》利用该数据集开发了新的时间点过程模型,显著提升了时间序列预测的准确性和效率。这些工作为后续研究提供了重要的理论基础和技术支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作