five

T-Drive trajectory data sample|交通数据数据集|轨迹分析数据集

收藏
github2019-04-14 更新2024-05-31 收录
交通数据
轨迹分析
下载链接:
https://github.com/manqiaoyue/Machine-Learning-DataSet
下载链接
链接失效反馈
资源简介:
北京:T-Drive轨迹数据样本 - 微软研究院

Beijing: T-Drive Trajectory Data Sample - Microsoft Research
创建时间:
2018-06-03
原始信息汇总

数据集概述

出租车和公共自行车数据集

  • 北京出租车数据集:T-Drive trajectory data sample,由Microsoft Research提供。
  • 上海出租车数据集:由SJTU Wireless and Sensor Network Lab提供。
  • 纽约出租车数据集:由NYC Taxi & Limousine Commission提供。
  • 芝加哥出租车数据集:由Chicago Taxi Data Released提供。
  • 旧金山出租车数据集:数据集来自crawdad.cs.dartmouth.edu。
  • 罗马出租车数据集:数据集来自crawdad.cs.dartmouth.edu。
  • 纽约公共自行车数据集:Citi Bike System Data,由Citi Bike NYC提供。
  • 芝加哥公共自行车数据集:Divvy System Data,由Divvy Bikes提供。

计算机视觉数据集

  • MNIST:手写数字数据集,地址为http://pjreddie.com/projects/mnist-in-csv/。
  • CIFAR 10 & CIFAR 100:彩色图像数据集,地址为https://www.cs.toronto.edu/~kriz/cifar.html。
  • ImageNet:大型图像数据集,地址为http://image-net.org/。
  • LSUN:场景理解数据集,地址为http://lsun.cs.princeton.edu/2016/。
  • PASCAL VOC:图像分割/分类数据集,地址为http://host.robots.ox.ac.uk/pascal/VOC/。
  • SVHN:门牌号数据集,地址为http://ufldl.stanford.edu/housenumbers/。
  • MS COCO:通用图像理解/字幕数据集,地址为http://mscoco.org/。
  • Visual Genome:视觉知识库,地址为http://visualgenome.org/。
  • Labeled Faces in the Wild:面部识别数据集,地址为http://vis-www.cs.umass.edu/lfw/。

自然语言处理数据集

  • 文本分类数据集:包含8个数据集,地址为https://drive.google.com/drive/u/0/folders/0Bz8a_Dbh9Qhbfll6bVpmNUtUcFdjYmF2SEpmZUZUcVNiMUw1TWN6RDV3a0JHT3kxLVhVR2M。
  • WikiText:大型语言建模语料库,地址为http://metamind.io/research/the-wikitext-long-term-dependency-language-modeling-dataset/。
  • Question Pairs:Quora数据集,地址为https://data.quora.com/First-Quora-Dataset-Release-Question-Pairs。
  • SQuAD:斯坦福问答数据集,地址为https://rajpurkar.github.io/Squad-explorer/。
  • CMU Q/A Dataset:手动生成的问题/回答数据集,地址为http://www.cs.cmu.edu/~ark/QA-data/。
  • Maluuba Datasets:精密数据集,地址为https://datasets.maluuba.com/。
  • Billion Words:大型语言建模数据集,地址为http://www.statmt.org/lm-benchmark/。
  • Common Crawl:网络爬行数据集,地址为http://commoncrawl.org/the-data/。
  • bAbi:FAIR的阅读理解与问答数据集,地址为https://research.fb.com/projects/babi/。
  • The Children’s Book Test:童书数据集,地址为https://research.fb.com/projects/babi/。
  • Stanford Sentiment Treebank:情感数据集,地址为http://nlp.stanford.edu/sentiment/code.html。
  • 20 Newsgroups:文本分类数据集,地址为http://qwone.com/~jason/20Newsgroups/。
  • Reuters:新闻分类数据集,地址为https://archive.ics.uci.edu/ml/datasets/Reuters-21578+Text+Categorization+Collection。
  • IMDB:情感分类数据集,地址为http://ai.stanford.edu/~amaas/data/sentiment/。
  • UCI’s Spambase:垃圾邮件数据集,地址为https://archive.ics.uci.edu/ml/datasets/Spambase。

语音数据集

  • 2000 HUB5 English:英语语音数据集,地址为https://catalog.ldc.upenn.edu/LDC2002T43。
  • LibriSpeech:有声读物数据集,地址为http://www.openslr.org/12/。
  • VoxForge:带口音的语音数据集,地址为http://www.voxforge.org/。
  • TIMIT:英语语音识别数据集,地址为https://catalog.ldc.upenn.edu/LDC93S1。
  • CHIME:包含噪声的语音识别数据集,地址为http://spandh.dcs.shef.ac.uk/chime_challenge/data.html。
  • TED-LIUM:TED演讲语音转录数据集,地址为http://www-lium.univ-lemans.fr/en/content/ted-lium-corpus。

推荐和排序系统数据集

  • Netflix Challenge:电影推荐数据集,地址为http://www.netflixprize.com/。
  • MovieLens:电影评论数据库,地址为https://grouplens.org/datasets/movielens/。
  • Million Song Dataset:音乐数据集,地址为https://www.kaggle.com/c/msdchallenge。
  • Last.fm:音乐推荐数据集,地址为http://grouplens.org/datasets/hetrec-2011/。

网络和图表数据集

  • Amazon Co-Purchasing:亚马逊协同购买数据集,地址为http://snap.stanford.edu/data/#amazon。
  • Amazon Reviews:亚马逊产品评论数据集,地址为http://snap.stanford.edu/data/amazon-meta.html。
  • Friendster Social Network Dataset:社交网络数据集,地址为https://archive.org/details/friendster-dataset-201107。

地理测绘数据库

  • OpenStreetMap:全球矢量数据集,地址为http://wiki.openstreetmap.org/wiki/Planet.osm。
  • Landsat8:地球表面卫星数据,地址为https://landsat.usgs.gov/landsat-8。
  • NEXRAD:美国大气环境雷达数据,地址为https://www.ncdc.noaa.gov/data-access/radar-data/nexrad。

汽车数据集

  • KITTI数据库:车辆检测数据集,地址为The KITTI Vision Benchmark Suite。
  • TME Motorway Dataset:实际路况下的车辆检测数据集。
  • 布尔诺科技大学的Traffic Research组:交通卡口车辆的监控视频数据集,地址为https://medusa.fit.vutbr.cz/traffic/research-topics/fine-grained-vehicle-recognition/boxcars-improving-vehicle-fine-grained-recognition-using-3d-bounding-boxes-in-traffic-surveillance/。
  • BIT-Vehicle:北京理工大学的车辆数据集,地址为http://iitlab.bit.edu.cn/mcislab/vehicledb/。
  • Stanford Cars dataset:车辆分类数据集,地址为http://ai.stanford.edu/~jkrause/cars/car_dataset.html。
  • CompCars:大型车辆数据集,地址为http://mmlab.ie.cuhk.edu.hk/datasets/comp_cars/。
AI搜集汇总
数据集介绍
main_image_url
构建方式
T-Drive轨迹数据样本是由微软研究院构建的一个关于北京市出租车轨迹的数据集。该数据集通过收集和整理北京市出租车的GPS轨迹数据,形成了一个包含大量出租车行驶路径和时间戳的集合。数据集的构建过程中,研究人员对原始GPS数据进行了清洗和预处理,以确保数据的准确性和一致性。此外,数据集还包含了出租车的标识信息,便于进行个体轨迹的分析和研究。
使用方法
T-Drive轨迹数据样本可广泛应用于城市交通规划、交通流量分析、路径优化等多个领域。研究人员可以通过该数据集进行出租车的行驶模式分析,识别交通拥堵区域,优化交通信号控制策略。此外,数据集还可用于开发和验证基于位置的服务(LBS)算法,如路径推荐和实时交通预测。使用时,用户需下载数据集,并根据研究需求进行数据处理和分析。
背景与挑战
背景概述
T-Drive轨迹数据样本是由微软研究院于2010年发布的一个关于北京市出租车轨迹的数据集。该数据集收集了大量出租车在北京市内的行驶轨迹,旨在为城市交通研究、路径规划和智能交通系统提供数据支持。主要研究人员和机构包括微软研究院的团队,他们通过GPS设备记录了出租车的行驶路径,并将其整理成一个标准化的数据集。这一数据集的发布对城市交通管理和智能交通系统的研究产生了深远影响,为相关领域的学者和工程师提供了宝贵的实证数据。
当前挑战
T-Drive轨迹数据样本在构建过程中面临了数据隐私保护的挑战,因为涉及个人出行信息。此外,数据的质量和准确性也是一个重要问题,包括GPS信号的漂移和数据丢失。在应用层面,如何有效地从海量轨迹数据中提取有用的信息,如交通流量预测、拥堵分析等,也是一个技术挑战。同时,数据集的更新和扩展需要持续的资源投入,以确保其对最新研究的支持。
常用场景
经典使用场景
T-Drive轨迹数据样本的经典使用场景主要集中在城市交通分析和智能交通系统(ITS)的构建。通过分析出租车在北京市的行驶轨迹,研究人员可以深入了解城市交通流量、拥堵模式以及出行行为。这些数据为交通规划、路线优化和实时交通预测提供了宝贵的信息,有助于提升城市交通管理的效率和居民的出行体验。
解决学术问题
T-Drive轨迹数据样本解决了多个学术研究中的关键问题,如城市交通流量的动态变化、交通拥堵的成因分析以及出行模式的多样性研究。通过这些数据,学者们能够构建更为精确的交通模型,验证和改进现有的交通预测算法,从而推动智能交通系统的发展。此外,该数据集还为城市规划和公共政策研究提供了实证支持,有助于制定更为科学和有效的城市管理策略。
实际应用
在实际应用中,T-Drive轨迹数据样本被广泛用于智能交通系统的开发和优化。例如,交通管理部门可以利用这些数据进行实时交通监控和预测,从而及时调整交通信号灯的配时,缓解交通拥堵。同时,导航服务提供商可以基于这些数据优化路径规划算法,为用户提供更为高效和准确的导航服务。此外,物流和配送行业也可以利用这些数据优化配送路线,提高运营效率。
数据集最近研究
最新研究方向
在智能交通和城市规划领域,T-Drive轨迹数据样本的最新研究方向主要集中在利用深度学习和时空数据分析技术,以提高交通流量预测的准确性和实时性。通过整合多源数据,如天气、事件和道路状况,研究人员致力于构建更为精细和动态的交通模型,从而优化城市交通管理和应急响应策略。此外,该数据集还被用于开发智能导航系统,通过分析历史轨迹数据,提供个性化的出行建议,减少交通拥堵和碳排放。这些研究不仅推动了交通领域的技术创新,也为智慧城市的可持续发展提供了有力支持。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

CHARLS

中国健康与养老追踪调查(CHARLS)数据集,旨在收集反映中国45岁及以上中老年人家庭和个人的高质量微观数据,用以分析人口老龄化问题,内容包括健康状况、经济状况、家庭结构和社会支持等。

charls.pku.edu.cn 收录

TCIA

TCIA(The Cancer Imaging Archive)是一个公开的癌症影像数据集,包含多种癌症类型的医学影像数据,如CT、MRI、PET等。这些数据通常与临床和病理信息相结合,用于癌症研究和临床试验。

www.cancerimagingarchive.net 收录

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录