five

北京文本交通数据集(BjTT)|交通预测数据集|多模态数据数据集

收藏
arXiv2024-03-14 更新2024-06-21 收录
交通预测
多模态数据
下载链接:
https://github.com/ChyaZhang/BjTT
下载链接
链接失效反馈
资源简介:
北京文本交通数据集(BjTT)是由北京人工智能研究院创建的一个大规模多模态数据集,旨在提高交通预测的准确性。该数据集包含超过32,000条时间序列交通记录,涵盖北京五环区域内超过1,200条道路的速度和拥堵水平。每条交通数据都附有一段文本描述,包括时间、地点和事件详情,如交通事故、道路施工等。数据集的创建过程涉及从地图服务和社交媒体平台收集数据,并通过去重和标准化处理。BjTT数据集的应用领域主要集中在交通预测,特别是在处理异常事件和提高长期预测准确性方面。
提供机构:
北京人工智能研究院
创建时间:
2024-03-08
AI搜集汇总
数据集介绍
main_image_url
构建方式
北京文本交通数据集(BjTT)的构建过程主要分为数据收集与数据处理两个阶段。数据收集阶段,研究者从地图服务提供商(如高德地图和百度地图)获取了北京五环内1200多条道路的历史交通数据,涵盖速度与拥堵水平信息,时间跨度为三个月。同时,通过社交媒体平台(如微博和小红书)以及地图应用,收集了与交通相关的事件文本数据,包括交通事故、道路施工、天气异常等30多种事件类型。数据处理阶段,研究者将道路划分为小于1公里的路段,并对每个路段的交通数据进行平均处理,最终形成32,000多条时间序列交通数据。每条交通数据与描述交通事件的文本数据一一对应,形成多模态数据集。
特点
BjTT数据集具有三大显著特点。首先,数据规模庞大,包含32,000多条时间序列交通数据,覆盖北京五环内1200多条道路,时间跨度为三个月。其次,数据类型多样,每条交通数据不仅包含速度和拥堵水平信息,还配有描述交通事件的文本数据,涵盖交通事故、天气异常、社会活动等多种事件类型。最后,BjTT首次将交通数据与事件文本数据结合,提供了多模态数据支持,为交通预测研究提供了更全面的信息基础。
使用方法
BjTT数据集的使用方法主要分为两类。第一类是基于时间序列的交通预测方法,研究者可以利用数据集中的速度和拥堵水平数据,训练和评估现有的交通预测模型,如STGCN、GWN等。第二类是基于文本的生成模型,研究者可以利用事件文本数据,训练文本引导的生成模型(如LDM),直接生成未来交通状况。此外,BjTT数据集还可用于研究异常事件对交通的影响,以及长期交通预测的优化。通过结合多模态数据,研究者能够更全面地分析交通系统的动态变化,提升预测精度。
背景与挑战
背景概述
北京文本交通数据集(BjTT)是由北京工业大学的多位研究人员于2021年提出的一个大规模多模态交通预测数据集。该数据集旨在解决智能交通系统(ITS)中的交通预测问题,特别是在城市交通系统中,交通状况受到多种因素(如异常天气、交通事故等)的影响。BjTT数据集包含了超过32,000条时间序列交通记录,覆盖了北京五环内1,200多条道路的速度和拥堵水平数据,并且每条交通数据都配有描述交通系统的文本信息。该数据集的发布为交通预测研究提供了更为全面的数据支持,推动了多模态数据在交通预测中的应用。
当前挑战
BjTT数据集在构建和应用过程中面临多重挑战。首先,交通预测领域的主要挑战在于如何准确捕捉异常事件(如交通事故、恶劣天气等)对交通流的影响。传统方法仅依赖历史交通数据,难以有效应对这些突发情况。其次,长期交通预测的准确性仍然是一个难题,现有方法在长时间跨度内的预测性能较差。在数据集构建过程中,研究人员需要整合来自不同来源的交通和事件数据,确保数据的准确性和一致性。此外,文本数据的采集和处理也面临挑战,包括如何从社交媒体和地图应用中提取有效的事件描述,并将其与交通数据进行精确匹配。这些挑战使得BjTT数据集的构建和应用具有较高的复杂性。
常用场景
经典使用场景
北京文本交通数据集(BjTT)在交通预测领域具有广泛的应用场景,尤其是在智能交通系统(ITS)中。该数据集通过结合时间序列交通数据和文本描述,能够捕捉到城市交通系统中的多种影响因素,如异常天气、交通事故等。经典使用场景包括短期和长期交通流量预测、交通拥堵分析以及突发事件对交通系统的影响评估。通过多模态数据的融合,BjTT为研究者提供了更全面的交通状态分析工具,显著提升了预测的准确性和实用性。
实际应用
在实际应用中,BjTT数据集为城市交通管理部门提供了强大的决策支持工具。例如,通过分析数据集中的交通流量和事件信息,交通管理部门可以提前预测并应对交通拥堵、交通事故等突发情况,优化交通信号灯控制和路线规划。此外,该数据集还可用于智能导航系统的开发,帮助驾驶员避开拥堵路段,提升出行效率。BjTT的多模态特性使其在智慧城市建设中具有广泛的应用前景,为交通系统的智能化管理提供了数据基础。
衍生相关工作
BjTT数据集的发布催生了一系列相关研究工作,尤其是在多模态交通预测领域。基于BjTT,研究者开发了多种先进的交通预测模型,如基于图神经网络(GNN)和长短期记忆网络(LSTM)的混合模型,这些模型在捕捉时空依赖性和事件影响方面表现出色。此外,BjTT还推动了文本引导生成模型在交通预测中的应用,例如通过文本描述生成未来交通状况的潜在扩散模型(LDM)。这些衍生工作不仅扩展了交通预测的研究边界,还为多模态数据融合提供了新的思路和方法。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国空气质量数据集(2014-2020年)

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心 收录

中国1km分辨率逐月降水量数据集(1901-2023)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

AISHELL/AISHELL-1

Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。

hugging_face 收录

中国高分辨率高质量PM2.5数据集(2000-2023)

ChinaHighPM2.5数据集是中国高分辨率高质量近地表空气污染物数据集(ChinaHighAirPollutants, CHAP)中PM2.5数据集。该数据集利用人工智能技术,使用模式资料填补了卫星MODIS MAIAC AOD产品的空间缺失值,结合地基观测、大气再分析和排放清单等大数据生产得到2000年至今全国无缝隙地面PM2.5数据。数据十折交叉验证决定系数R2为0.92,均方根误差RMSE为10.76 µg/m3。主要范围为整个中国地区,空间分辨率为1 km,时间分辨率为日、月、年,单位为µg/m3。注意:该数据集持续更新,如需要更多数据,请发邮件联系作者(weijing_rs@163.com; weijing@umd.edu)。 数据文件中包含NC转GeoTiff的四种代码(Python、Matlab、IDL和R语言)nc2geotiff codes。

国家青藏高原科学数据中心 收录