T-Drive trajectory data sample

github2019-04-14 更新2024-05-31 收录

下载链接：

https://github.com/manqiaoyue/Machine-Learning-DataSet

下载链接

链接失效反馈

官方服务：

资源简介：

北京：T-Drive轨迹数据样本 - 微软研究院

Beijing: T-Drive Trajectory Data Sample - Microsoft Research

创建时间：

2018-06-03

原始信息汇总

数据集概述

出租车和公共自行车数据集

北京出租车数据集：T-Drive trajectory data sample，由Microsoft Research提供。
上海出租车数据集：由SJTU Wireless and Sensor Network Lab提供。
纽约出租车数据集：由NYC Taxi & Limousine Commission提供。
芝加哥出租车数据集：由Chicago Taxi Data Released提供。
旧金山出租车数据集：数据集来自crawdad.cs.dartmouth.edu。
罗马出租车数据集：数据集来自crawdad.cs.dartmouth.edu。
纽约公共自行车数据集：Citi Bike System Data，由Citi Bike NYC提供。
芝加哥公共自行车数据集：Divvy System Data，由Divvy Bikes提供。

计算机视觉数据集

MNIST：手写数字数据集，地址为http://pjreddie.com/projects/mnist-in-csv/。
CIFAR 10 & CIFAR 100：彩色图像数据集，地址为https://www.cs.toronto.edu/~kriz/cifar.html。
ImageNet：大型图像数据集，地址为http://image-net.org/。
LSUN：场景理解数据集，地址为http://lsun.cs.princeton.edu/2016/。
PASCAL VOC：图像分割／分类数据集，地址为http://host.robots.ox.ac.uk/pascal/VOC/。
SVHN：门牌号数据集，地址为http://ufldl.stanford.edu/housenumbers/。
MS COCO：通用图像理解／字幕数据集，地址为http://mscoco.org/。
Visual Genome：视觉知识库，地址为http://visualgenome.org/。
Labeled Faces in the Wild：面部识别数据集，地址为http://vis-www.cs.umass.edu/lfw/。

自然语言处理数据集

文本分类数据集：包含8个数据集，地址为https://drive.google.com/drive/u/0/folders/0Bz8a_Dbh9Qhbfll6bVpmNUtUcFdjYmF2SEpmZUZUcVNiMUw1TWN6RDV3a0JHT3kxLVhVR2M。
WikiText：大型语言建模语料库，地址为http://metamind.io/research/the-wikitext-long-term-dependency-language-modeling-dataset/。
Question Pairs：Quora数据集，地址为https://data.quora.com/First-Quora-Dataset-Release-Question-Pairs。
SQuAD：斯坦福问答数据集，地址为https://rajpurkar.github.io/Squad-explorer/。
CMU Q/A Dataset：手动生成的问题／回答数据集，地址为http://www.cs.cmu.edu/~ark/QA-data/。
Maluuba Datasets：精密数据集，地址为https://datasets.maluuba.com/。
Billion Words：大型语言建模数据集，地址为http://www.statmt.org/lm-benchmark/。
Common Crawl：网络爬行数据集，地址为http://commoncrawl.org/the-data/。
bAbi：FAIR的阅读理解与问答数据集，地址为https://research.fb.com/projects/babi/。
The Children’s Book Test：童书数据集，地址为https://research.fb.com/projects/babi/。
Stanford Sentiment Treebank：情感数据集，地址为http://nlp.stanford.edu/sentiment/code.html。
20 Newsgroups：文本分类数据集，地址为http://qwone.com/~jason/20Newsgroups/。
Reuters：新闻分类数据集，地址为https://archive.ics.uci.edu/ml/datasets/Reuters-21578+Text+Categorization+Collection。
IMDB：情感分类数据集，地址为http://ai.stanford.edu/~amaas/data/sentiment/。
UCI’s Spambase：垃圾邮件数据集，地址为https://archive.ics.uci.edu/ml/datasets/Spambase。

语音数据集

2000 HUB5 English：英语语音数据集，地址为https://catalog.ldc.upenn.edu/LDC2002T43。
LibriSpeech：有声读物数据集，地址为http://www.openslr.org/12/。
VoxForge：带口音的语音数据集，地址为http://www.voxforge.org/。
TIMIT：英语语音识别数据集，地址为https://catalog.ldc.upenn.edu/LDC93S1。
CHIME：包含噪声的语音识别数据集，地址为http://spandh.dcs.shef.ac.uk/chime_challenge/data.html。
TED-LIUM：TED演讲语音转录数据集，地址为http://www-lium.univ-lemans.fr/en/content/ted-lium-corpus。

网络和图表数据集

Amazon Co-Purchasing：亚马逊协同购买数据集，地址为http://snap.stanford.edu/data/#amazon。
Amazon Reviews：亚马逊产品评论数据集，地址为http://snap.stanford.edu/data/amazon-meta.html。
Friendster Social Network Dataset：社交网络数据集，地址为https://archive.org/details/friendster-dataset-201107。

地理测绘数据库

OpenStreetMap：全球矢量数据集，地址为http://wiki.openstreetmap.org/wiki/Planet.osm。
Landsat8：地球表面卫星数据，地址为https://landsat.usgs.gov/landsat-8。
NEXRAD：美国大气环境雷达数据，地址为https://www.ncdc.noaa.gov/data-access/radar-data/nexrad。

汽车数据集

KITTI数据库：车辆检测数据集，地址为The KITTI Vision Benchmark Suite。
TME Motorway Dataset：实际路况下的车辆检测数据集。
布尔诺科技大学的Traffic Research组：交通卡口车辆的监控视频数据集，地址为https://medusa.fit.vutbr.cz/traffic/research-topics/fine-grained-vehicle-recognition/boxcars-improving-vehicle-fine-grained-recognition-using-3d-bounding-boxes-in-traffic-surveillance/。
BIT-Vehicle：北京理工大学的车辆数据集，地址为http://iitlab.bit.edu.cn/mcislab/vehicledb/。
Stanford Cars dataset：车辆分类数据集，地址为http://ai.stanford.edu/~jkrause/cars/car_dataset.html。
CompCars：大型车辆数据集，地址为http://mmlab.ie.cuhk.edu.hk/datasets/comp_cars/。

搜集汇总

数据集介绍

构建方式

T-Drive轨迹数据样本是由微软研究院构建的一个关于北京市出租车轨迹的数据集。该数据集通过收集和整理北京市出租车的GPS轨迹数据，形成了一个包含大量出租车行驶路径和时间戳的集合。数据集的构建过程中，研究人员对原始GPS数据进行了清洗和预处理，以确保数据的准确性和一致性。此外，数据集还包含了出租车的标识信息，便于进行个体轨迹的分析和研究。

使用方法

T-Drive轨迹数据样本可广泛应用于城市交通规划、交通流量分析、路径优化等多个领域。研究人员可以通过该数据集进行出租车的行驶模式分析，识别交通拥堵区域，优化交通信号控制策略。此外，数据集还可用于开发和验证基于位置的服务（LBS）算法，如路径推荐和实时交通预测。使用时，用户需下载数据集，并根据研究需求进行数据处理和分析。

背景与挑战

背景概述

T-Drive轨迹数据样本是由微软研究院于2010年发布的一个关于北京市出租车轨迹的数据集。该数据集收集了大量出租车在北京市内的行驶轨迹，旨在为城市交通研究、路径规划和智能交通系统提供数据支持。主要研究人员和机构包括微软研究院的团队，他们通过GPS设备记录了出租车的行驶路径，并将其整理成一个标准化的数据集。这一数据集的发布对城市交通管理和智能交通系统的研究产生了深远影响，为相关领域的学者和工程师提供了宝贵的实证数据。

当前挑战

T-Drive轨迹数据样本在构建过程中面临了数据隐私保护的挑战，因为涉及个人出行信息。此外，数据的质量和准确性也是一个重要问题，包括GPS信号的漂移和数据丢失。在应用层面，如何有效地从海量轨迹数据中提取有用的信息，如交通流量预测、拥堵分析等，也是一个技术挑战。同时，数据集的更新和扩展需要持续的资源投入，以确保其对最新研究的支持。

常用场景

经典使用场景

T-Drive轨迹数据样本的经典使用场景主要集中在城市交通分析和智能交通系统（ITS）的构建。通过分析出租车在北京市的行驶轨迹，研究人员可以深入了解城市交通流量、拥堵模式以及出行行为。这些数据为交通规划、路线优化和实时交通预测提供了宝贵的信息，有助于提升城市交通管理的效率和居民的出行体验。

解决学术问题

T-Drive轨迹数据样本解决了多个学术研究中的关键问题，如城市交通流量的动态变化、交通拥堵的成因分析以及出行模式的多样性研究。通过这些数据，学者们能够构建更为精确的交通模型，验证和改进现有的交通预测算法，从而推动智能交通系统的发展。此外，该数据集还为城市规划和公共政策研究提供了实证支持，有助于制定更为科学和有效的城市管理策略。

实际应用

在实际应用中，T-Drive轨迹数据样本被广泛用于智能交通系统的开发和优化。例如，交通管理部门可以利用这些数据进行实时交通监控和预测，从而及时调整交通信号灯的配时，缓解交通拥堵。同时，导航服务提供商可以基于这些数据优化路径规划算法，为用户提供更为高效和准确的导航服务。此外，物流和配送行业也可以利用这些数据优化配送路线，提高运营效率。

数据集最近研究